<Readeo 서비스 강의 내용 기반 요약 및 챕터 생성 기능 리드 및 주도 개발>
[프로젝트 목표 및 배경]
- 향후 개발 될 '챕터 기반 자동 영상 편집'을 구현하기 위한 사전 기능
- 콘텐츠 제공자가 영상을 편집하기 위해서 영상 길이의 2~3배의 시간 소요
[주요 역할 및 성과]
1. 데이터 기반의 성능 개선 사이클 구축 (정확도 130% 향상)
- '측정 가능한' 평가 지표가 없기 때문에 직접 강의를 분석하여 10개의 독자적인 평가지표 수립
- 평가지표를 기반으로 꾸준히 개선을 반복하여 서비스 정확도를 초기 30%에서 최종 70%까지 130%이상 향상
2. 비용과 성능을 고려한 아키텍처 설계 (비용 60% 절감)
- GPT-4의 비용 부담과, GPT-3.5의 성능 한계의 사이에서 최적의 균형점을 찾기 위해, 두 모델을 조합한 아키텍쳐 설계
- 긴 스크립트를 Chunking해 3.5로 1차 요약 한 뒤, GPT-4로 핵심내용을 요약하고 최종 정제하여 API 비용을 한 영상당 500원에서 150~200원으로 60% 절감
3. 문맥 손실 방지를 위한 Topic Segmentation 도입
- 단순 길이 기반 청킹시 발생하는 문맥 손실 문제를 해결하기 위해, Lexical Similarity 기반의 Topic Segmentation 도입
- 의미적, 단어적으로 연관된 내용을 하나의 단위로 묶어 처리함으로써 요약 및 챕터 생성의 정확도를 유의미하게 향상
4. 전사적 협업을 통한 프롬프트 엔지니어링 고도화
- 최적의 프롬프트를 발굴하기 위해 Vector DB와 Google Colab UI를 활용해 비개발 직군도 참여가능한 사내 '프롬프톤'을 기획하고 개최
5. 프로젝트 End-to-End 개발 및 서비스 배포
- 위의 기술적 해결책을 종합하여 Django로 서비스 안정적 배포
<음성인식 서비스 Readeo 배포 및 기능 개발 및 개선>
[문제 정의]
- 기존 STT(Speech-To-Text) 모델의 WER이 30%이상으로 매우 낮은 신뢰도
- 30분 분량의 음성의 전사하는 데에 약 10분이 소요되는 느린 처리속도로 낮은 사용성
[주요 역할 및 성과]
1. STT 엔진 교체 및 인식률/속도 최적화 (성능 90% 개선, 속도 70%향상)
- 기존의 STT 모델을 Whisper로 교체하고, VAD(음성 감지) 전 처리 과정을 도입하여 WER를 10%아래로 개선
- VAD로 무음 구간을 줄이고 음성을 여러개로 쪼개어 멀티 프로세싱해 30분 영상 기준 전사시간을 기존 10분에서 3분으로 70% 단축
2. 문맥 기반 자막 재분할 알고리즘 개발
- 기존 사용되었던 단순 청크 번역은 기계 번역 품질을 크게 저하시키므로, 문맥을 분석하여 자막을 의미 단위로 재분할하는 알고리즘을 독자적으로 개발
- 개선 예시: 그는 나에게 / 중요한 사람이다.
(기존) He told me / He is an important person. (개선) He is / an important person to me.
3. 편집거리 알고리즘 기반의 '오류 검색 및 교정' 기능 개발
- 음성인식 결과의 오류를 신속하게 찾고 수정할 수 있도록 편집거리(Edit Distance) 알고리즘을 활용한 검색 기능을 구현하여 텍스트 교정 편의성을 향상
<실시간 음성인식 서비스 리드 및 개발>
[문제 정의]
- 기존의 실시간 방송 속기 자막은 한 명의 속기사가 발화 속도를 지속적으로 따라가기 어렵기 때문에 2명의 전문 속기사가 한 조를 이루어 교대로 타이핑하는 고비용, 노동 집약적 방식으로 운영
[주요 역할 및 성과]
- 프로젝트의 기술적 방향을 설정하고, 실시간 음성인식 시스템의 아키텍처 설계를 주도
- 전사 딜레이 최대 2초를 만족하는 실시간 음성인식 파이프 라인 구축
- 음성을 Chunk단위로 나뉘어 여러번 검증하는 방식을 사용해 작은 모델의 낮은 정확도를 극복
더보기