하둡을 이용한 빅데이터 분석
2018년 7월 - 2018년 8월
<환경범죄학에 기반한 범죄 위험 지역 요인 분석>
빅데이터 청년인재 양성과정에서 했던 팀 프로젝트입니다. 범죄 데이터와 지역별 데이터를 통계 분석하여 범죄에 영향을 미치는 지역별 요인을 분석하고, 이를 통한 예방 대책을 세웠습니다.
저는 데이터 수집과 전처리 과정을 맡았습니다. 여러 지역요소 데이터들을 웹에서 수집하였고, HDFS에 저장된 빅데이터를 맵리듀스와 Hive 쿼리를 통해 정제하였습니다. 대용량 데이터에 대한 처리 속도 개선을 위해 ORC 포맷과 SNAPPY 압축을 사용했습니다.