사람

기업

게시물

점심시간 부리또 일기 1 [데이터 수집] 포트폴리오 웹사이트인 부리또는.. 사실 그냥 재미로 만든 웹사이트이다. 그래서 들어가 보면 고양이랑 꽃이랑 바퀴벌레밖에 없다.. 멋 모를 때 만든 거라 가상 서버가 아닌 단순 웹 호스팅을 이용하고 있다. 덕분에 서버 내 루트 권한이 없고 그래서 python3도 설치도 불가능했다. 외부에서 DB에 접근할 수도 없다. 따라서 서버에서 수집을 수행하는 것은 무리라고 판단했고 로컬에서 데이터를 수집 한 후 데이터 베이스 파일을 서버에 덮어 씌우는 방식으로 진행하려고 한다. 커다란 프로젝트는 아니니까 데이터베이스는 간편하고 가벼운 sqlite3를 사용하기로 했다. 처음 써보는데 괜찮으면 다음 프로젝트에서도 주력으로 써보려고 한다. 우선 상점들의 raw데이터를 담아둘 테이블을 하나 생성했다. 가지고 올 원본 데이터를 살펴보면서 50개정도 되는 컬럼을 정의하느라 조금 시간이 걸렸다. 다행스럽게도 스크래핑의 대상인 웹사이트에서는 그 정보를 간편하게 json으로 불러오고 있어서 눈이 덜 아팠다. 게다가 레퍼런스 체크만 통과하면 좀 연속적으로 들어가더라도 캡챠를 보여주지는 않았다. 해결 못할 캡챠는 아니지만 1회성 수집 단계에서 자꾸 걸리면 번거로우니 천만다행이다. 테이블을 만들며 사전 형식의 리스트를 참조하여 자동으로 raw형 테이블을 만들어주는 기능을 만들까 잠시 고민 했었다. 컬럼 하나 하나 정의하는 거 되게 귀찮았다. 다음 프로젝트에서는 꼭 만들어야지 :3 우선 목표 웹 사이트로부터 한 페이지 분량의 상점 정보를 가지고 와봤다. json을 사전 리스트로 변환하고 출력까지 해봤다. 사전 리스트를 db에 자동으로 insert해주는 기능은 예전에 python2 버전으로 만들어 놨었는데 아마 python3에 맞도록 금방 바꿔 쓸 수 있을 것 같다. 끗
1주 전
황지혜  웹 풀스택 개발자 @(주)투포켓
SQLite 3, python3, Naver API
빅데이터 서비스 플랫폼 구축사업 시작!
2019-07-17
최규호  웹 개발자 java, php, dba @(주)네스
jQuery, HTML5, Bootstrap

블로그 글

채용 정보

시소(seeso)
응답률 우수
아웃소싱을 넘어서, 미래의 ‘일’을 만듭니다. 

뉴스/미디어

프로젝트

L!nk
 
2019년 8월 | 진행중 
공지사항 사용자 맞춤 큐레이션 서비스
김태완  Flutter 앱 개발자, 개발총괄, python 백엔드 @L!nk
300RP · Firebase 상위 10%
Secondhand
 
2019년 9월 - 2019년 10월 
최근 30일 내 중고거래 평균가 제공앱 - 중고거래 사이트별 크롤링 구현 - 상품 타이틀/내용 필터링 함수 구현 및 브랜드/모델 매칭 - 선택가격범위 내 브랜드 모델 검색 페이지 구현 및 월/일 데이터기반 간략한 그래프 구현
박찬현  University of Cape Town 화학
360RP · Back-end 상위 5%
부리또
 
2019년 10월 | 진행중 
부리또!! 부리또를 먹어야해! 지도에서 근처 부리또 식당를 찾아보자. 부리또가 가장 저렴한 식당은 어디야? 맛은 어떨까? 분위기는? 서비스는? 오로지 부리또만을 위한 웹페이지.. 부리또에 취하고 싶다면 burrit.ooo 로 오세요. *개인 공부용이며 비상업적인 프로젝트입니다.
황지혜  웹 풀스택 개발자 @(주)투포켓
SQLite 3, python3, Naver API