사람

기업

게시물

점심시간 부리또 일기 1 [데이터 수집] 포트폴리오 웹사이트인 부리또는.. 사실 그냥 재미로 만든 웹사이트이다. 그래서 들어가 보면 고양이랑 꽃이랑 바퀴벌레밖에 없다.. 멋 모를 때 만든 거라 가상 서버가 아닌 단순 웹 호스팅을 이용하고 있다. 덕분에 서버 내 루트 권한이 없고 그래서 python3도 설치도 불가능했다. 외부에서 DB에 접근할 수도 없다. 따라서 서버에서 수집을 수행하는 것은 무리라고 판단했고 로컬에서 데이터를 수집 한 후 데이터 베이스 파일을 서버에 덮어 씌우는 방식으로 진행하려고 한다. 커다란 프로젝트는 아니니까 데이터베이스는 간편하고 가벼운 sqlite3를 사용하기로 했다. 처음 써보는데 괜찮으면 다음 프로젝트에서도 주력으로 써보려고 한다. 우선 상점들의 raw데이터를 담아둘 테이블을 하나 생성했다. 가지고 올 원본 데이터를 살펴보면서 50개정도 되는 컬럼을 정의하느라 조금 시간이 걸렸다. 다행스럽게도 스크래핑의 대상인 웹사이트에서는 그 정보를 간편하게 json으로 불러오고 있어서 눈이 덜 아팠다. 게다가 레퍼런스 체크만 통과하면 좀 연속적으로 들어가더라도 캡챠를 보여주지는 않았다. 해결 못할 캡챠는 아니지만 1회성 수집 단계에서 자꾸 걸리면 번거로우니 천만다행이다. 테이블을 만들며 사전 형식의 리스트를 참조하여 자동으로 raw형 테이블을 만들어주는 기능을 만들까 잠시 고민 했었다. 컬럼 하나 하나 정의하는 거 되게 귀찮았다. 다음 프로젝트에서는 꼭 만들어야지 :3 우선 목표 웹 사이트로부터 한 페이지 분량의 상점 정보를 가지고 와봤다. json을 사전 리스트로 변환하고 출력까지 해봤다. 사전 리스트를 db에 자동으로 insert해주는 기능은 예전에 python2 버전으로 만들어 놨었는데 아마 python3에 맞도록 금방 바꿔 쓸 수 있을 것 같다. 끗
2019-10-31
황지혜  웹 풀스택 개발자 @(주)투리치
SQLite 3, python3, Naver API

블로그 글

채용 정보

기업 복지 B2C 플랫폼 리프레쉬클럽과 프리미엄 골프시설 할인 이용 플랫폼인 리프레쉬골프를 운영하고 있습니다. :) 
시소(seeso)
응답률 우수
아웃소싱을 넘어서, 미래의 ‘일’을 만듭니다. 

뉴스/미디어

프로젝트

cyphercrew  백엔드 서버 개발자 @알체라
570RP · Go 상위 3%
cyphercrew  백엔드 서버 개발자 @알체라
570RP · Go 상위 3%
화해 챌린지
2020년 1월 - 2020년 1월 
- 프로그래머스에서 주최한 화해 챌린지 참가 - REST API를 개발하는 과제가 주어짐 - 제출한 코드가 실행되지 않는 일이 발생하여 피드백도 받아보지 못하고 탈락 - 화장품을 카테고리, 포함해야 하는 성분, 제외해야 하는 성분에 따라 필터링하고 
피부에 주는 영향에 따라 정렬하는 것이 주 목표
 -> 이를 한 번의 쿼리로 처리하면서 읽기 좋은 코드를 만들기 위해 
django manager를 활용 - 처음으로 테스트 코드를 작성해봄
마장홍선  서버 개발자 @레이터
960RP · JavaScript 상위 7%