text-classification

팔로워 12 명

사람

프로젝트

KoBERT를 활용한 뉴스 기사 섹션 분류
 
2023년 2월 - 2023년 2월 
개인프로젝트로 KoBERT 모델을 활용하여 뉴스 기사 섹션 분류를 진행했습니다. 파인튜닝에 투입한 데이터는 네이버 뉴스 기사를 크롤링을 통해 수집했습니다. 코랩 환경에서 학습 진행했으며, 테스트 정확도 약 84% 정도 나왔습니다.
송한솔  계약직 연구원
Korean Hate Speech and privacy data Classification
 
2022년 5월 - 2022년 6월 
챗봇을 구현할 때 가끔 시스템이 공격적인 언행이나 개인정보를 출력할 때가 있음. 이를 막기 위해 공격적인 언행, 개인정보를 Classification하는 모델을 개발. 모델은 한국어 인터넷 댓글을 기반으로 학습을 한 KcBert, KcElectra를 사용 혐오표현 데이터는 unsmile dataset을 사용, 개인정보 데이터는 직접 제작. 실험 결과, Electra모델이 BERT보다 성능이 높았으며 Electra는 93%, Bert는 83%의 lrap score를 달성
모윤호  NLP Engineer
Bad Text Classifier
 
2022년 3월 - 2022년 4월 
공개 데이터를 활용 및 가공 해 한국어 욕설을 필터링 하는 모델을 학습시켰습니다.
정민주  주니어 NLP 엔지니어