#이런 문제를 풀고 있습니다
• 비정형 문서에서 구조화된 정보를 추출하는 문제
계약서, 증빙서류, 스캔 문서처럼 형태가 제각각인 문서에서 핵심 정보를 빠짐없이, 정확하게 추출하기 위해 다양한 문서 전처리 기법과 OCR, 레이아웃 분석, 키 정보 탐지 모델을 조합해 최적의 파이프라인을 설계하고 있습니다.
• LLM 활용을 위한 문서 변환
RAG의 벡터 임베딩으로 다양한 문서 정보를 활용하기 위해 Layout Detection, Table Recognition, OCR, Image Captioning 기능 등을 포함한 Document Conversion을 연구 개발하여 정보 추출 시장을 선도하고 있습니다.
• 실전 환경에서의 정확도·속도·안정성 확보
고객사의 다양한 문서 포맷과 사용 시나리오에 맞춰 모델의 성능을 정량적으로 분석하고, 병목이나 오류를 빠르게 진단·개선해 실제 서비스 수준에서 동작할 수 있는 시스템을 만들어가고 있습니다.
#이런 분과 함께하고 싶습니다
• 문서(PDF, 이미지 등)에서 다양한 형태의 정보(Key-info, 표 인식 등)를 정확히 추출하기 위한 AI 파이프라인을 설계·개발해본 분
• OCR, Pre-processing, Prompting, LLM 등 최신 기술 스택을 빠르게 이해하고, 새로운 아이디어를 실험·적용하는 것을 즐기시는 분
• 복잡한 오류나 성능 이슈가 발생했을 때, 정량적 분석과 디버깅 노하우를 통해 신속하고 정확하게 문제를 해결할 수 있는 분
• 문서에서 key-value extraction, table recognition, layout analysis 등을 위한 모델을 설계하여 정량적 지표를 기반으로 모델 정확도를 개선
• 최신 SOTA LVLM(Large Vision-Language Models)을 모델링하고, 배포 환경에 적합한 구조로 세팅하여 최적화된 추론 파이프라인 구축 및 성능 튜닝
• 학습 없이도 다양한 문서 포맷에 robust하게 대응하기 위한 알고리즘·모델 구조를 고안하고, 성능 검증(PoC) 후 확장
• 에러 로깅 및 모니터링 지표를 통해 성능 저하 요인을 파악·분석하고, 최적화(하드웨어 가속, 파라미터 튜닝 등)를 주도
• 프로젝트 전개 과정에서 예상 리스크를 사전에 파악하고, 타 부서(AI, FE, BE 등)와 협업해 문제 해결 방안을 제안
• 딥러닝 프레임워크(PyTorch 등) 및 분산 학습·고성능 컴퓨팅 환경에서 5년 이상 연구·개발 경험
• 문서 내 구조적 데이터(Table, Layout 등)에 대한 분석 및 모델링 경험
• LayoutLM, Donut, 등 Document Understanding 모델 개발 경험
- FUNSD, SROIE, RVL-CDIP 등과 유사한 형식의 문서 데이터셋을 구축 혹은 활용해본 경험
• VLM 기반 멀티 태스크 모델 파이프라인 설계 및 개발 경험
• 글로벌 학회(NeurIPS, CVPR 등)에 논문 게재(특히 1저자) 또는 특허 등 의미 있는 연구 성과를 보유하신 분
• 오픈소스 프로젝트에서 주요 기여자(major contributor)로 활동한 사례
• 실험 설계부터 실무 적용까지 균형 있게 수행한 경험
• Git, Notion, Jira, DVC 등 협업 툴 활용 및 문서화·프로세스 관리에 능숙한 분
『성장을 가속하도록』
• 러닝데이 컨퍼런스, 세미나 참석 지원
• 코파일럿, GPT, 클로드 등 AI 생산성 도구 지원
• 더블모니터, 모니터암, 시디즈 의자 제공
• 고과에 따른 인센티브 지급
• 특허 출원 시 200만 원 + 소요비용 지원
『제대로 충전하도록』
• 매년 유급 여름휴가 운영
• 매년 무급 리프레쉬 휴가 지원
• 선연차 제도 운영
• 유급 건강검진휴가 지원
『일상에서도 체감되도록』
• 점심시간 11시 45분부터 1시까지 운영
• 사내 안마 의자, 커피머신, 간식 구비
• 매 월 팀 회식 & 티타임 비용 지원
• 야근 식사 지원
서류전형-1차 면접(직무 적합성)-2차 면접(조직 적합성)-처우협의&입사일 조정