- 보이스피싱 탐지 NLP 모델 개발(AI 데이터 바우처 사업, 2023~2024)
1. 한국어 사전학습 모델(KoBERT) 기반 텍스트 분류 모델 개발
- 사내 AI 역량 확보 및 AI 바우처 공급기업 Pool 등록을 위한 보이스피싱 텍스트 분류 모델(KoBERT) 개발
- 내부 데이터 기반 보이스피싱/정상 대화 텍스트 수집·정제·라벨링 프로세스 구축
- KLUE-BERT 기반 사전학습 모델을 활용해 임베딩 인코딩 Classification Layer 구조로 분류 모델 설계
- Zero-shot, Fine-tuning 등 다양한 설정으로 성능 비교·검증, 최적 파라미터 설정
- Dense Layer + Sigmoid 기반 이진 분류(의심/정상) 구조 적용
2. BERT Fine-tuning 및 추론 파이프라인 설계
- 사전학습(BERT) 모델을 기반으로 커스텀 보이스피싱 텍스트에 특화된 파인튜닝 수행
- Tokenization, Encoding, Classifier Layer 구성 등 전체 파인튜닝 아키텍처 정의
- TF/Keras 기반 학습 및 검증 파이프라인 구성
3. 사내 PoC 및 AI 바우처 등록 문서 작성
- 모델 구조, 파인튜닝 방식, 실험 결과, 성능 비교, 활용 가능성 등을 문서화하여 AI 바우처 공급기업 등록용 기술 문서 제작에 기여
- 해당 PoC 결과를 기반으로, 사내에서 다양한 텍스트 분류·탐지 용도로 재활용 가능한 NLP 서비스 템플릿 구축
[업무성과]
1. BERT 기반 보이스피싱 텍스트 분류 프로토타입 모델 개발
2. AI 바우처 공급기업 Pool 등록에 필요한 AI 모델링 역량 증빙 자료 제작에 기여
- 프로브 카드 데이터 관리 시스템(데이터 바우처, 2023)
1. 데이터 전처리 및 정제
- 프로브 카드에서 수집된 대규모 raw 데이터를 Python 기반으로 정제 및 구조화
- 결측치 처리, 이상치 제거 등 품질 관리 로직을 구현하여 분석 신뢰성 확보
2. 통계 분석 및 시각화 지원
- 주요 측정 지표에 대한 통계 분석을 수행하고, 시각화 가능한 형태로 가공
- Flask 기반 웹 시스템에 연동 가능한 분석 모듈로 개발, 데이터 활용도 제고
3. 대용량 처리 최적화
- 멀티프로세싱 기법을 적용하여 데이터 처리 속도를 개선하고 반복 작업 자동화
- 기존 단일 처리 대비 처리 효율성을 크게 향상
[업무 성과]
1. 데이터 전처리·통계 분석 모듈을 구축하여 웹 기반 시스템에서 활용 가능한 신뢰도 높은 지표와 시각화 결과 제공
2. 멀티프로세싱 적용을 통해 대규모 프로브 카드 데이터 처리 속도를 개선
查看更多