음향압축 손실개선을 위한 전/후처리 기술 연구(ETRI 공동연구) 연구과제에 참여하였으며, 이하 프로젝트들은 해당 연구과제의 산하 프로젝트입니다.
1. 프로젝트명 : 적대적 생성 신경망기반 (압축된) 오디오 대역폭 확장
- 주요 업무 : Opus 코덱 등을 통해 압축된 음성의 대역폭을 안정적으로 확장하기 위한 연구를 진행하였습니다.
- 담당 역할 : 본인의 석사학위논문으로 작성한 아이템이니 만큼 아이디어 제시, 실험 설계 및 진행, 특허 초안 및 논문 작성 등 전반적인 process에 모두 관여하였습니다.
- 진행 기간 : 2022년/7월/1일 ~ 2023년/3월/14일
- 프로젝트 진행 인원 : 3
- 상세 내용 : Sub-band analysis를 이용하여 새로운 GAN-기반 학습 파이프라인을 제안하였고, 여러 음성 및 오디오 코덱에 대해 실험을 통해 유효함을 검증하였습니다. Opus 코덱 기준 Baseline과 비교하여 파라미터 수가 절반만큼 작은 generator 구조로 약 23% 더 좋은 주관적 성능 평가 결과를 보임을 확인하였습니다.
- 실적
신종원, 장인선, 이은균, 이태진, 최영원, 백승권, 성종모, 임우택, 조병호, 한상욱, “오디오 신호 처리 방법 및 장치,” Korea (KR) Patent, Application No. 10-2023-0032994, 2023.
Youngwon Choi, Eunkyun Lee, Inseon Jang, and Jong Won Shin, “Individual Sub-band Estimation Approach to Bandwidth Extension and Enhancement of Coded Speech,” 논문 작업 중. (ICASSP 투고)
- 개발 환경
개발 언어: Python
딥러닝 프레임워크: Pytorch (Pytorch Lightning)
라이브러리: Numpy, Tensorboard, Torchaudio, Librosa, ffmpeg
협업 및 기타: Docker, Git, Github, Teams, Html
2. 프로젝트명 : 주파수 중첩 및 분리를 이용한 음향압축
- 주요 업무 : 16kHz의 광대역 음성을 주파수 중첩 및 분리를 이용하여 8kHz를 대상으로 작동하는 협대역 음성 코덱을 통해 압축하는 연구에 참여하였습니다.
- 담당 역할 : 데이터셋 제작, 주관적 성능 평가 실험 진행, 특허 초안 작성 보조
- 진행 기간 : 2021년/9월/1일 ~ 2022년/1월/10일
- 프로젝트 진행 인원 : 4
- 상세 내용 : 16kHz의 광대역 음성을 Anti-aliasing filter 없이 8kHz로 다운샘플링하여 인코딩한 후, 디코딩된 신호를 Conv-Tasnet을 이용하여 16kHz로 다시 coding하는 방법에 대한 연구에 참여하였습니다. Opus 코덱 기준 제안하고 있는 방법(12kbps)이 더 높은 bitrate(16kbps)를 사용하고 있는 광대역 코덱을 이용한 압축과 비교하여 신뢰구간이 겹치는 주관적 평가 결과를 보임을 확인하였습니다.
- 개발 환경
개발 언어: Python
딥러닝 프레임워크: Pytorch
라이브러리: Numpy, Torchaudio, Librosa, ffmpeg
협업 및 기타: Git, Slack
더보기