#이런 문제를 풀고 있습니다
- 다양한 형태의 스캔 문서, 촬영 이미지, PDF 등에서 문서 구조와 의미 있는 정보를 정확히 추출하기 위해, OCR 전처리부터 후처리까지 전 과정을 데이터 기반으로 최적화하고 있습니다.
- 표, 도식, 다단 구성 등 비정형 레이아웃을 갖는 문서에서도 안정적인 정보 추출을 위해 레이아웃 분석 모델의 성능을 실제 업무 지표로 계량화하고 개선합니다.
- 라벨링이 어려운 문서 유형에 대해 반자동/능동학습 기반의 데이터 수집·라벨링 파이프라인을 설계해, 수작업 비용은 줄이고 품질은 높이는 방식으로 문제를 해결합니다.
- Document AI 모델을 실서비스에 적용할 때 발생하는 도메인 간 성능 편차, 미탐/오탐 사례 등을 데이터 기반으로 분석하여, 모델 개선과 사용자 경험 향상을 동시에 추구합니다.
- 모델 성능뿐 아니라 데이터 품질, 라벨 일관성, 작업 효율성까지 통합적으로 관리할 수 있는 데이터 거버넌스 체계를 구축하고, 팀 전체가 동일한 기준과 흐름으로 일할 수 있도록 문서화·자동화합니다.
#이런 분과 함께하고 싶습니다
- 문서 이미지에서 핵심 정보(문서 이미지·레이아웃·표 구조 등)를 추출하기 위해 원본·라벨 데이터 수집 엔진을 기획해 빠르게 수행할 수 있는 분
- Document Understanding SOTA 모델 파이프라인을 숙지하고, 실서비스 요구사항에 맞춰 데이터 실험·벤치마킹에 관여할 수 있는 분
- 다양한 EDA 기법을 활용해 정형·비정형 데이터를 분석하고, 인사이트를 학습 모델 성능 개선에 체계적으로 반영할 수 있는 분
- 데이터 라벨링 엔진 설계·운영 경험이 있어, 작업 단가·품질·납기를 지표 기반으로 최적화할 수 있는 분
- 데이터 거버넌스 정책과 워크플로 자동화를 Git·Jira·Notion 등에 문서화해 조직 전반에 공유하고, 다부서 협업을 주도적으로 이끌 수 있는 분
- 데이터 수집, 생성 전략 기획
- 비정형 데이터 스키마 정의 및 관리
- 데이터 수집·저장·가공 엔진 개발
- 탐색적 데이터 분석 및 시각화 자동화
- 라벨링 플랫폼(CVAT, Label Studio 등) 및 AutoLabeling 기능 구현·운영
- 데이터·EDA 엔진 API화 및 SDK 제공 경험
- 데이터 파이프라인 구축 경험
- 데이터스키마 모델링 설계·구축 실무 경험 2년 이상
- Python·SQL 기반 데이터 스키마 모델링·ETL·EDA 자동화 역량
- 문서 라벨링 플랫폼(CVAT, Label Studio, 등) 운영·커스터마이징 경험
- 컴퓨터공학 및 관련 분야 학사 이상 또는 동등 수준의 실무 경험 보유자
- AI 분야 1년 이상 실무 경험
- 비전 AI 모델 및 대규모 데이터 기반 Large Model 프로젝트 실무 경험
- 데이터 버전관리·모니터링 체계 구축 경험
- 데이터 거버넌스 정책 수립 및 데이터 카탈로그·메타데이터 관리 시스템 운영 경험
- Active Learning·AutoML 기반 자동 라벨링 파이프라인과 라벨 품질 추적 지표 설계 경험
- Git, Notion, Jira, DVC 등 협업 툴 활용 및 문서화·프로세스 관리 능력
『성장을 가속하도록』
• 러닝데이 컨퍼런스, 세미나 참석 지원
• 코파일럿, GPT, 클로드 등 AI 생산성 도구 지원
• 더블모니터, 모니터암, 시디즈 의자 제공
• 고과에 따른 인센티브 지급
• 특허 출원 시 200만 원 + 소요비용 지원
『제대로 충전하도록』
• 매년 유급 여름휴가 운영
• 매년 무급 리프레쉬 휴가 지원
• 선연차 제도 운영
• 유급 건강검진휴가 지원
『일상에서도 체감되도록』
• 점심시간 11시 45분부터 1시까지 운영
• 사내 안마 의자, 커피머신, 간식 구비
• 매 월 팀 회식 & 티타임 비용 지원
• 야근 식사 지원
서류전형-1차 면접(직무 적합성)-2차 면접(조직 적합성)-처우협의&입사일 조정