- 미국 스타트업 Nucleus AI 와 연구 협업 진행
- 실제 유저 대화 데이터로 Persona grounded 챗봇 언어모델을 학습하는 프로젝트 진행. 채팅의 주요 메타데이터 (채팅 시간, 채팅 사이 간격, 유료 채팅 여부, 첨부 이미지)를 시스템 프롬프트 및 챗 내용 안으로 들어갈 수 있도록 데이터 전처리와 Parameter Efficient Finetuning 방법 활용.
- 고성능 추론 언어모델 중 하나인 Retentive Network 를 처음부터 직접 구현하고 Pretraining 진행. Zero-redundancy data parallel, 3D parallel 등의 분산 학습 기술 활용.
- 새로운 아키텍쳐를 학습할 때, 기학습된 다른 모델에서 가중치를 빌려와서 보다 효율적으로 학습할 수 있는 방법 연구, RetNet 모델을 학습할 때 Pythia, Llama 등의 가중치를 활용하여 학습 효율을 2배 이상 상승. (https://arxiv.org/abs/2404.02684)
查看更多