¡Somos un actor global en EdTech! En Catchitplay buscamos a alguien que pueda cambiar el futuro de la educación con IA utilizando 970 millones de datos sobre el comportamiento de aprendizaje como base.
Buscamos un ingeniero de datos que asuma la responsabilidad de la plataforma de datos y ML para el desarrollo de nuevos productos y motores.
Buscamos a alguien que pueda manejar de manera estable registros de aprendizaje masivos y sea responsable de la infraestructura de modelos ML.
Queremos a alguien que comience desde la plataforma de datos y amplíe su función hacia el área de MLOps.
• Alguien que pueda considerar tanto la estabilidad como los costos de la pipeline de datos.
• Alguien que pueda discutir con los ingenieros de ML la necesidad y el contexto de uso de las funciones.
• Alguien que prefiera un enfoque MVP, comenzando primero y mejorando gradualmente, en lugar de un diseño perfecto desde el principio.
• Alguien que tenga la responsabilidad de rastrear la causa de los problemas hasta el final y prevenir la recurrencia de problemas.
• Alguien que esté interesado en ampliar su rol desde la plataforma de datos hacia la plataforma ML·MLOps.
Responsabilidades principales
A. Plataforma de datos (~60%)
• Diseño, implementación y operación de pipelines para la recopilación y procesamiento de grandes datos de eventos, registros y aprendizaje de servicios en vivo
• Operación estable de pipelines ETL/ELT utilizando herramientas de flujo de trabajo como Airflow, responsabilidad en la respuesta a errores, optimización del rendimiento y eficiencia de costos
• Diseño y construcción de un Data Warehouse (DW) y Data Marts (DM) en una forma útil para los analistas, ingenieros de ML y equipos de planificación
• Garantía de la fiabilidad de los datos mediante el establecimiento de la gestión de calidad de datos y gobernanza (metadatos, catálogo, control de acceso)
• Operación de infraestructura de datos en la nube (AWS, GCP, etc.) y liderazgo en mejoras de arquitectura considerando escalabilidad y eficiencia de costos.
B. Área adyacente de la plataforma ML·MLOps (~40%)
• Colaboración con el equipo de ML para operar una pipeline de datos para el aprendizaje y servicio de modelos de recomendaciones, emparejamiento y predicciones de abandono, así como gestionar el Feature Store
• Operación de la infraestructura de servicio y monitoreo de modelos para garantizar un entorno de inferencia de baja latencia y estabilidad operativa
• Implementación de un sistema de detección de desvío de datos y rendimiento
• Más de 3 años de experiencia práctica en ingeniería de datos
• Dominio de Python, SQL
• Experiencia en el procesamiento de registros de usuarios a gran escala (high-volume event processing)
• Experiencia práctica con frameworks de procesamiento distribuido como Spark, Flink
• Experiencia en la construcción de pipelines ETL (Airflow, Prefect, etc.)
• Capacidad para comprender la diferencia entre el procesamiento por lotes y el procesamiento en streaming y diseñar ambos
• Experiencia en la construcción de infraestructura de datos en un entorno en la nube (AWS, GCP, etc.)
• Experiencia en la operación de entornos de contenedores basados en Docker/Kubernetes
• Experiencia en la gestión de código de infraestructura (IaC, Terraform, etc.)
• Experiencia en la construcción de plataformas de streaming en tiempo real (Kafka, Kinesis, etc.)
• Experiencia en la operación de grandes almacenes de datos para análisis (BigQuery, Redshift, Snowflake, etc.)
• Experiencia en la construcción o gestión de Feature Stores (Feast, etc.)
• Experiencia en la construcción de pipelines de entrenamiento y servicio de modelos ML (MLflow, Kubeflow, etc.)
• Experiencia con infraestructura para la inferencia de LLM/modelos grandes (vLLM, TGI, etc.)
• Experiencia en detección de desvíos de datos/rendimiento en modelos de ML (Evidently, WhyLabs, etc.)
• Experiencia en la gestión de latencia de inferencia y SLA de disponibilidad (Prometheus + Grafana, etc.)
• Experiencia en el procesamiento de registros de comportamiento de usuarios a gran escala en EdTech, juegos y servicios de recomendación
• Experiencia en contribuciones de código abierto o presentaciones en conferencias tecnológicas o publicaciones de investigaciones
Beneficios y entorno laboral
• 🏠 Entorno de trabajo completamente remoto - un entorno de trabajo productivo que le permite trabajar desde cualquier parte del país.
• 📊 Gestión de opciones de acciones - gestión de opciones de acciones para personal clave de I+D (revisión para otorgar después de un año de empleo estable)
• 📈 Experiencia de crecimiento global - experiencia en un producto con las tendencias actuales que busca alcanzar 10 millones de descargas (como Google Feature)
• 💼 Experiencia en el desarrollo de sistemas fundamentales - participación directa en el desarrollo de infraestructura y sistemas en un sector empresarial único que combina juegos e IA.
• 🌴 Oficina en Jeju & refresco - posibilidad de trabajar en la oficina central en Jeju, incluido el apoyo a refrescos.
• 📚 Apoyo al desarrollo personal - apoyo al desarrollo personal a través de libros y cursos en línea.
• 💪 Apoyo en la gestión de la salud - apoyo a los costos de chequeos de salud / programas de gestión de salud interno.
• ❤️ Cultura deportiva agradable - fomento de una cultura deportiva positiva a través de desafíos deportivos mensuales.
• Documentos a presentar — CV, carta de presentación, portafolio o muestras escritas por usted (especifique claramente qué ha hecho)
• Proceso de contratación — revisión de documentos·portafolio → primera entrevista (en línea) → segunda entrevista (en línea) → entrevista final (fuera de línea) → anuncio de resultados
• Durante la entrevista, puede haber una tarea (de menos de 1 día) o prueba a realizar.
[Para más detalles, consulta la página de Notion a continuación]
https://catchitplay.notion.site/AI-Mid-Senior-36098f74ee5a8003a68ac81fc502eca9