real-time

팔로워 7 명

사람

프로젝트

실시간 스트리밍 Whisper 개발
2023년 7월 | 진행중 
본 프로젝트의 목적은 OpenAI에서 공개한 다국어, 다화자 음성인식 모델인 Whisper 모델을 실시간 스트리밍 방식의 음성 인식 작업에 적용하는 것입니다. 본래 Whisper 모델의 구조는 실시간 음성 인식이 불가능합니다. 그러나 입력되는 오디오 데이터와 인식 결과를 저장하는 버퍼를 추가로 구현함으로써 Whisper 모델이 실시간 음성 인식과 유사하게 동작하도록 만들었습니다. 이 실시간 Whisper 모듈을 python tornado와 결합해 음성인식 스트리밍 서버를 구축했습니다.
이승현  인공지능(AI, Deep Learning) Software Engineer @(주)스피치툴스
실시간 음성인식 모듈 개발
2021년 2월 | 진행중 
본 프로젝트의 목적은 End-to-End 방식의 음성 인식 모델인 Streaming Conformer 모델을 학습해 구축하고, 웹 소켓을 통해 사용해볼 수 있도록 데모 페이지를 만드는 것입니다. 음성 데이터셋을 직접 수집하고, 학습에 사용할 수 있게 정제하는 작업, 정제된 데이터셋으로 모델을 학습하고 테스트하는 작업, Python tornado를 이용해 웹 소켓 프로그램을 만들어 서빙하는 작업을 담당했습니다.
이승현  인공지능(AI, Deep Learning) Software Engineer @(주)스피치툴스