기사 카테고리 분류 모델(Text Classification) 구축
- 뉴스 데이터 크롤링 부터 모델 구축 및 배포 전반 총괄
- 투자, IPO, M&A 등 기업 활동 정의에 따라 기사 분류
- 라벨러와 커뮤니케이션을 통해 데이터 수준 양질화 및 모델 고도화
- 데이터 엔지니어와 협업을 통한 데이터 파이프라인 구축
- Jira, Notion 내 모델 구축 내역 문서화 및 프레젠테이션을 통한 사내 공유
- Python, Pytorch, HTML, Scrapy, AWS S3, EC2
기업 투자 정보 추출 모델(Machine Reading Comprehension) 구축
- 투자유치기업, 투자사, 기업가치 등의 기업 정보를 기사 내에서 추출 모델 구축 및 배포 전반 총괄
- 라벨러 관리 및 데이터 검수 작업
- 데이터 엔지니어와 협업을 통한 데이터 파이프라인 구축
- Jira, Notion 내 모델 구축 내역 문서화 및 프레젠테이션을 통한 사내 공유
- Python, Pytorch, HTML, Scrapy, AWS S3, EC2
서울대 산업공학 대학원 산학연 ML 모델 구축 프로젝트 매니지먼트
- 아티클 요약 모델 구축 - Extractive Summary 모델 프로젝트 기획
- 프로젝트 하위 테스크 스케줄링
- 기업 학교 간 커뮤니케이션
- Python, Pytorch, AWS S3, EC2, Jira, Confluence
클러스터링, CER 및 기사 카테고리 분류 모델 오작동 이슈 원인 발견 및 개선 작업
- 인수인계 받은 클러스터링 및 CER모델에 대한 재학습 및 오작동 이슈 개선
- 카테고리 분류모델 성능 저하 원인이 라벨링 실수임을 발견,라벨링 재검수를 통한 성능 개선
- Python, Pytorch, AWS S3, EC2
워크 플로우 스케줄링 및 관리 - AWS MWAA(Airflow)
- 크롤링 및 AWS EC2 내 자연어처리 모델들의 순차적 프로세스 스케줄링
- 중복 테스크 및 슬랙 알람 기능 라이브러리화를 통한 효율성 제고
- 병렬 처리 가능 테스크 확인 및 테스크 재배치를 통한 프로세스 속도 및 효율성 제고
- AWS MWAA, EC2, S3, ECS, Docker
데이터 매니지먼트
- 기업 정보 데이터 ETL
- 데이터 엔지니어와 데이터 구조 설계 및 관리를 위한 validation rule 설정
- 기업 검색 엔진 QA 참여
- 개발팀과 협업을 통해 데이터 관리 용이성을 위한 Admin 페이지 개선 작업
- AWS S3, MongoDB, Python, Jira, Confluence
더보기