Amazon EMR

팔로워 8 명

사람

기업

프로젝트

추천시스템을 위한 데이터 레이크(Data Lake), 데이터 웨어하우스(Data Warehouse), 데이터파이프라인(Data Pipeline) 구축
2022년 4월 - 2022년 7월 
추천시스템을 위한 데이터 레이크(Data Lake), 데이터 웨어하우스(Data Warehouse), 데이터파이프라인(Data Pipeline) 구축 ○ 프로젝트 개요 : 장바구니, 제품 상세 내 추천 상품 모델링을 위한 데이터 레이크, 데이터 웨어하우스, 데이터 파이프라인 구축 주사용기술 : AWS Glue, AWS Glue DataBrew, AWS Kinesis, AWS RedShift, AWS S3, AWS Lake Formation, Blueprint, AWS RedShift, AWS RDS, Apache Airflow
김준호  데이터 사이언스, 머신러닝 엔지니어 @FIET
PUBG ETL
 
2020년 12월 - 2020년 12월 
- Udacity의 Data Engineering의 Nano-degree수료를 위한 캡스톤 프로젝트 - 멘토 도움없이 혼자서 모든 데이터 인프라 구축 & 모델링 & 코딩 - Kaggle에서 PUBG의 게임관련 데이터셋을 구하였고, 쉘 스크립트로 필요한 양만 추출해서 S3에 랜딩 - 저장된 데이터셋(200만+ 레코드)를 IaaC를 통해 코드로 EMR 생성후 step execution으로 가공 & 스테이징 - 가공된 데이터를 직접 모델링한 데이터 웨어하우스(Redshift)로 로드 - 가공 & 로드에 대한 검증 단계 추가