AI, NLP, LLM, Safe AI, Knowledge + LM 관련 연구 진행하고 있는 석사생입니다. Efficient pretraining/finetuning, knowledge-augmented LM decoding, Model Knowledge Editing 등 효율적으로 언어모델을 더 똑똑하게 만드는 연구, ML 엔지니어 포지션 희망합니다.
ประวัติการทำงาน
โพสต์
สรุปประวัติการทำงานโดย AI
최세현님은 Nucleus AI에서 AI Research Collaboration으로 재직 중이며, 제공된 경력으로 약 4년의 연구·개발 경험을 보유한 석사과정 연구자입니다. Efficient pretraining/finetuning, knowledge-augmented LM decoding 및 Model Knowledge Editing 등 언어모델의 효율성 향상 연구를 수행하며, Persona-grounded 챗봇용 메타데이터 기반 데이터 전처리와 파라미터 효율적 미세조정, Retentive Network의 직접 구현 및 분산 프리트레이닝, Pythia/Llama 가중치 재활용을 통한 학습 효율 개선(2배 이상) 등 실무적 연구 경험을 보유합니다.
- 미국 스타트업 Nucleus AI 와 연구 협업 진행
- 실제 유저 대화 데이터로 Persona grounded 챗봇 언어모델을 학습하는 프로젝트 진행. 채팅의 주요 메타데이터 (채팅 시간, 채팅 사이 간격, 유료 채팅 여부, 첨부 이미지)를 시스템 프롬프트 및 챗 내용 안으로 들어갈 수 있도록 데이터 전처리와 Parameter Efficient Finetuning 방법 활용.
- 고성능 추론 언어모델 중 하나인 Retentive Network 를 처음부터 직접 구현하고 Pretraining 진행. Zero-redundancy data parallel, 3D parallel 등의 분산 학습 기술 활용.
- 새로운 아키텍쳐를 학습할 때, 기학습된 다른 모델에서 가중치를 빌려와서 보다 효율적으로 학습할 수 있는 방법 연구, RetNet 모델을 학습할 때 Pythia, Llama 등의 가중치를 활용하여 학습 효율을 2배 이상 상승. (https://arxiv.org/abs/2404.02684)
- Naver Papago MT 팀에서 Efficient training, active learning 관련 리서치 인턴 진행.
- NLP, CV 분야의 Active Learning 방식들을 탐구하며, Unlabeled data 에서 가장 중요한 데이터 포인트를 판별하는 방법론들 중 번역 과제에 사용될 수 있을 방법론들 정리. Corpus 의 단어 분포도, Pretrained MT 모델의 아웃풋 불확실성, 그리고 encoder representation 의 거리를 기반으로 하는 데이터 선정 방식들을 실험하여 가장 적은 양의 데이터로 높은 학습 효율을 보일 수 있는 데이터 선정.
- 교내 학부 연구생 (Undergraduate Research Opportunity Program) 을 통해 실제 연구 프로젝트에 참여하고 논문 등재 (EMNLP 2021, 3저자)
- Commonsense Reasoning with Knowledge Graph 프로젝트에 참여하여 ATOMIC, ConceptNet, Glucose 와 같은 상식 그래프를 활용한 NLP 기술들을 공부하고, Automatic Data Population Task 에 일부분인 후보 상식의 적합도를 판별하는 모델을 언어모델과 Graph Neural Network (GNN) 을 활용하여 개발. EMNLP 2021 에 등재 (3저자).
- Ablation studies 를 통해 논리적, 정량적으로 모델의 각 부분의 영향과 성능을 판단하고 실험의 근거로 삼는 법 습득.
ดูเพิ่มเติม
학부연구생
2020년 6월 - 2020년 8월 · 3개월
RNN for Biological Neural Network 라는 프로젝트에 참가하여, Back Propagation Through Time 으로 학습하는 ML 기법이 아닌 Recursive Least Square Method 를 활용한 Force 와 Full-Force 알고리즘을 구현하고 실제 연구의 데이터를 벤치마킹하여 Reproduce 했습니다.
Tensorflow Framework 로 다양한 State-of-the-art end-to-end TTS 모델 개발 참여
Data Augmentation, 데이터 전처리등의 업무와, 네트워크에 새로운 어텐션 모듈을 추가하거나 말투 및 감정을 조절할 수 있는 모듈 (style token) 학습 등, 새로운 논문을 구현하는 프로젝트 들 진행
오픈소스와 최신 논문을 참고하여 직접 딥러닝 모듈을 개발하는 경험
딥러닝 모델 개발을 위한 클라우드 / 서버 인프라 경험
Agile, Git review 등 SW Engineering 등을 경험
Implemented Retentive Network (https://arxiv.org/abs/2307.08621) from scratch. Pretraining the model with Nucleus AI with massive parallel distributed training.
프로젝트
Reducing Hallucination in LLM (EMNLP 2023)
2023년 1월 - 2023년 6월 · 6개월
EMNLP 2023 1저자 논문 "KCTS: Knowledge-Constrained Tree Search Decoding with Token-Level Hallucination Detection".
수상
Clova AI Rush 2022
Naver Corp · 2022년 8월
네이버 클로바에서 진행한 AI RUSH 2022 에서 "Unknown Document Classification" 과제에서 최종 순위 2위를 달성하였습니다. 기존의 training set 에 존재하는 document class 에 대해서는 정확도를 유지하되, out of distribution document 는 따로 구분하는 과제였고, confidence score calibration, embedding distribution 등의 방법을 통해 높은 수준의 정확도를 얻을 수 있었습니다.
수상
Academic Achievement Medal
홍콩과학기술대학 · 2022년 7월
졸업학점이 3.9/4.3 이상 (상위 3% 이내) 인 학생에게 주어지는 메달입니다.
프로젝트
XAI in NLP (MAFIA)
2021년 7월 - 2022년 6월 · 1년
Final Year Thesis (졸업 논문) 주제로 Blackbox 취급되는 현재의 언어모델 (BERT 계열) 들을 설명하기 위한 프로젝트를 진행했습니다. NLI task 에서 두개의 문장이 있을 때, 각 문장 사이에 어떠한 interaction 에 집중하여 classification 이 되었는지를 확인하는 효율적인 방법을 제시하고, 다른 방식에 비해 높은 정확도를 보였습니다.
ภาษา
영어
원어민
한국어
원어민
이 프로필의 담당자이신가요?
인증을 통해 현재 프로필에 병합하거나 삭제할 수 있습니다. 만약 인증할 수 없는 경우 본인임을 증빙하는 서류 제출 후 프로필 관리 권한을 취득할 수 있습니다.