● Kaggle 장바구니 데이터 활용 고객 관리 및 상품 추천 대시보드 제작(개인 프로젝트)
- 기간 : 2023.05(2주)
- Keywords : MySQL, Python연동, Streamlit, 상품추천, 대시보드
0. 데이터 요약 : Kaggle 호주 e-commerce shopping 고객, 주문, 상품, 매출 데이터(총 8,260 건)
1. 내용 :
1) MySQL 활용 데이터 전처리 및 Python 연동
2) Streamlit 활용 대시보드 제작
2. 결과 : SQL 활용 분석 및 대시보드 제작
(https://fork-hawk-4ca.notion.site/Mini_Project-a2417fc19e2944e1b0ae502ea94632d0)
● SNS & 언론매체 분석을 통한 생성형 AI 리포트 모델 개발 및 대시보드 제작 (2023 DATA·AI 분석 경진대회 참여)
- 기간 : 2023.08~2023.10(2개월)
- Keywords : EDA, 전처리, 감성분석, 시각화, 대시보드, Tableau
0. 데이터 요약 : 4대 주요 입법 관련 주제(스토킹 처벌법, 전세사기, 청년정책, 간호법) 관련 언론, 여론 text 데이터(뉴스(약 7만 건), SNS 데이터(약 16만 건))
1. 내용 :
1) SNS, 뉴스 데이터 활용 AI 여론 분석 모델 개발(Python)
- 감성분석(오피니언 마이닝)(KoBERT), 주요 토픽 추출(LDA),뉴스 요약(kpfBERT(summ)), 정책 생성(GPT 4.0)
2) 대시보드 시각화 및 공식 플랫폼(public) 배포(Tableau)
2. 담당 업무 : 데이터 전처리, 감성분석 모델링, 대시보드 시각화,모델 개발 매뉴얼 작성, PPT 제작 및 본선 발표
3. 결과 : 사회현안 부문 전체 20개 팀 중 4위 기록(장려상)
● 연령 관련 질환 식별 모델 개발(Kaggle 대회 참여)
- 기간 : 2023.06~2023.08(2개월)
- Keywords : EDA, 전처리, 이진분류, 앙상블, 하이퍼파라미터 튜닝
0. 데이터 요약 : 환자별 고유 ID 및 56가지 건강 특성, 환자 상태 등급, 질병 보유 여부 데이터(ICR - Identifying Age-Related Conditions) 총 1,236건
1. 내용 : 환자 데이터 활용 연령 관련 질환 식별 모델 개발 및 질환 발병 가능성 예측(Python)
- 질환 식별 모델 개발(XGBoost, Logistic Regression, CatBoost)
2. 담당 업무 : 데이터 전처리, 모델 개발, 성능 개선(하이퍼 파라미터 튜닝, 앙상블)
3. 결과 : 전체 6,430개 팀 중 1,593위 기록(상위 25%)
더보기