사람

기업

피넛테크(PNUTECH)
빅데이터를 활용하여 타겟팅 광고를 하는 애드테크 기반의 애드네트워크 광고회사입니다

게시물

점심시간 부리또 일기 1 [데이터 수집] 포트폴리오 웹사이트인 부리또는.. 사실 그냥 재미로 만든 웹사이트이다. 그래서 들어가 보면 고양이랑 꽃이랑 바퀴벌레밖에 없다.. 멋 모를 때 만든 거라 가상 서버가 아닌 단순 웹 호스팅을 이용하고 있다. 덕분에 서버 내 루트 권한이 없고 그래서 python3도 설치도 불가능했다. 외부에서 DB에 접근할 수도 없다. 따라서 서버에서 수집을 수행하는 것은 무리라고 판단했고 로컬에서 데이터를 수집 한 후 데이터 베이스 파일을 서버에 덮어 씌우는 방식으로 진행하려고 한다. 커다란 프로젝트는 아니니까 데이터베이스는 간편하고 가벼운 sqlite3를 사용하기로 했다. 처음 써보는데 괜찮으면 다음 프로젝트에서도 주력으로 써보려고 한다. 우선 상점들의 raw데이터를 담아둘 테이블을 하나 생성했다. 가지고 올 원본 데이터를 살펴보면서 50개정도 되는 컬럼을 정의하느라 조금 시간이 걸렸다. 다행스럽게도 스크래핑의 대상인 웹사이트에서는 그 정보를 간편하게 json으로 불러오고 있어서 눈이 덜 아팠다. 게다가 레퍼런스 체크만 통과하면 좀 연속적으로 들어가더라도 캡챠를 보여주지는 않았다. 해결 못할 캡챠는 아니지만 1회성 수집 단계에서 자꾸 걸리면 번거로우니 천만다행이다. 테이블을 만들며 사전 형식의 리스트를 참조하여 자동으로 raw형 테이블을 만들어주는 기능을 만들까 잠시 고민 했었다. 컬럼 하나 하나 정의하는 거 되게 귀찮았다. 다음 프로젝트에서는 꼭 만들어야지 :3 우선 목표 웹 사이트로부터 한 페이지 분량의 상점 정보를 가지고 와봤다. json을 사전 리스트로 변환하고 출력까지 해봤다. 사전 리스트를 db에 자동으로 insert해주는 기능은 예전에 python2 버전으로 만들어 놨었는데 아마 python3에 맞도록 금방 바꿔 쓸 수 있을 것 같다. 끗
2019-10-31
황지혜  웹 풀스택 개발자 @(주)투포켓
SQLite 3, python3, Naver API

블로그 글

채용 정보

핀큐브(모바일 사업관리 장부) 및 세무사 비교견적 서비스 
3,500 - 4,500만원 / 최대 3.0% / 신입, 경력

프로젝트

Tibuzz 서비스 API 연계
 
2019년 10월 | 진행중 
 담당 업무 - 기존 workflow 오류수정하여 Tibuzz API 호출되도록 수정 - Tibuzz api JSON 파싱 오류나는 부분 수정 및 파싱 결과에 따른 예외처리 적용 - Tibuzz API에 필요한 contents Id를 빅데이터 클러스터에서 읽어서 비식별클러스터에 데이터 적재작업 - 비식별 클러스터에서 빅데이터 클러스터 적재 작업 - 테이블 생성 및 데이터 적재 작업 진행
김용탁  Sr. Software Engineer @CJ올리브네트웍스
1814RP · Java 상위 2%
Q-Finder, CGV 리서치포털 데이터 레이크 구축
 
2019년 8월 - 2019년 9월 
 개요 : Q-Finder, CGV 리서치 소셜 분석서비스의 연관어 데이터를 빅데이터 클러스터에 데이터 레이크 구축작업 진행  담당 업무 - 데이터 레이크 구축하기 위한 연관어를 특정기간동안에 있는 데이터를 수집 및 가공 후 이동작업 진행
김용탁  Sr. Software Engineer @CJ올리브네트웍스
1814RP · Java 상위 2%
봉쥬르 봉제
 
2013년 12월 - 2014년 1월 
봉제산업조합에서 발주한 조합원용 커뮤니케이션 소셜 앱 입니다. IOS 개발 전체를 담당하였습니다. 수행역할 : - JSON API 연동 모듈 개발 - REST API 연동 후 게시판, 공지사항 구현 - 갤러리 라이브러리 구현 - 소켓통신을 이용한 채팅 모듈 구현 (간헐적 disconnect를 해결하기 위해 reconnect를 폴링으로 구현, 추후에 모듈화 하여 사내 라이브러리로 개발하는 프로젝트에 참여) - 카카오 OAuth 로그인 연동
조성진  서버개발 
2100RP · Java 상위 1%