주요 업무
1. 실시간 음성 비서 구축: 음성 인식, 음성 합성, 생성형 AI 통합
음성 인식(ASR), 로컬 언어 모델(Ollama), 그리고 음성 합성(gTTS)을 통합하여 자연어를 실시간으로 처리하는 개인용 음성 비서 시스템을 설계하고 구현하였습니다. LangChain을 활용하여 프롬프트 템플릿 구성, 대화 메모리 유지, 그리고 ASR LLM TTS의 흐름을 효과적으로 조율하였습니다. 실시간 상호작용을 위한 지연 시간 최소화하는 데 초점을 맞추었으며, 모든 요소를 로컬 모델 기반으로 구현하여 클라우드 API에 대한 의존도를 줄이고 사용자 프라이버시를 강화했습니다. 이 시스템은 생성형 AI 기술을 중심으로 설계되어, 오프라인 환경에서도 자연스럽고 지능적인 대화가 가능하도록 최적화되었습니다.
2. 실시간 음성 인식 기반 인간-로봇 상호작용 시스템
인간과 로봇(마이캣) 간의 자연스러운 대화를 위한 실시간 음성 인식 시스템을 개발하였습니다.
명령어 인식 및 응답 생성을 위해 음성 데이터를 텍스트로 변환하는 엔진을 적용하였습니다.
OpenAI GPT 기반의 언어 모델을 활용하여 맥락을 이해하고 실시간으로 반응할 수 있도록 구현하였습니다.
감정과 대화 흐름을 고려한 맞춤형 프롬프트 설계를 통해 보다 인간적인 상호작용이 가능해졌습니다.
생성형 AI의 응답 출력을 TTS(텍스트 음성 변환)와 연결하여 음성으로 전달하고, 로봇의 행동 명령과 연동하여 인터랙션의 몰입도를 높였습니다.
지연 시간을 최적화하여 로봇과의 소통을 원활하게 만들고, 실시간 상호작용을 가능하게 하였습니다.
3. 2D 및 3D 고양이 행동 추정
2D 및 3D 공간에서 고양이 행동을 추정 하는 모델을 개발 및 구현하였습니다.
이미지 및 영상 처리에 딥러닝 프레임워크를 활용하여 정확한 자세 인식을 가능하게 하였습니다.
3D 행동 추정을 위해 오픈소스 프레임워크인 DeepLabCut을 기반으로 모델을 커스터마이징 하고 학습시켰습니다.
동물 대상 로봇 응용 분야를 고려하여 움직임 인식의 정밀도를 향상시키는 알고리즘을 설계하였습니다.
다중 카메라 캘리브레이션, 삼각 측량, 스켈레톤 재구성을 통해 정확한 3D 키포인트 검출을 구현하였습니다.
4. 로봇 충전소 인식 시스템
YOLO 기반 객체 탐지와 IMU 센서를 활용하여 로봇이 충전소를 자동으로 인식하고 자율적으로 도킹 및 충전할 수 있는 시스템을 개발하였습니다.
단일 카메라와 OpenCV를 활용하여 초점 거리 보정 및 기하학적 계산을 통해 거리와 각도를 추정하였습니다.
Raspberry Pi에 시스템을 배포하여 저전력 환경에서도 실시간 성능을 유지할 수 있도록 최적화하였습니다.
센서 융합 기법을 적용하여 정확한 위치 추적과 안정적인 자율 도킹을 구현하였습니다.
5. 인간 자세 인식 기반 보안 시스템
인간 자세 인식 기반의 보안 시스템을 설계하여 다양한 안전 상황을 모니터링하였습니다.
노인 및 산업 현장을 위한 낙상 감지 알고리즘을 구현하였습니다.
다음과 같은 상태 탐지를 개발하였습니다:
문 열림 및 닫힘 상태
가스 누출 및 가스 상태 감지
냉장고 문 열림/닫힘 여부
YOLO 아키텍처를 기반으로 실시간 객체 탐지 및 분석 기능을 구현하였습니다.
6. 자율 보행 로봇을 위한 강화 학습
4족 보행 로봇의 자율 보행을 위해 강화학습 알고리즘을 구현하였습니다.
로봇의 움직임을 정밀하게 제어하기 위해 관절 위치 계산 및 동작 역산 알고리즘을 활용하였습니다.
다양한 지형과 환경에서도 안정적인 보행이 가능하도록 맞춤형 시뮬레이션 환경을 구축하였습니다.
부드럽고 유연한 보행 패턴 생성을 위해 Bezier 곡선 기반의 보행 생성기를 적용하였습니다.
보행 주기의 단계별 움직임을 계획하고 궤적을 생성하여 전체적인 보행 안정성을 높였습니다.
더보기