Nous sommes un acteur mondial de l'EdTech ! Chez Catchitplay, nous cherchons à transformer l'avenir de l'éducation par l'IA en utilisant 970 millions de données sur le comportement des apprenants comme base.
Nous recherchons un ingénieur en données pour diriger la plateforme de données et ML pour le développement de nouveaux produits et moteurs.
Nous recherchons un ingénieur en données capable de gérer de manière stable d'importants journaux d'apprentissage, tout en étant également responsable de l'infrastructure des modèles ML.
Nous souhaitons quelqu'un qui commence par la plateforme de données et élargisse son rôle vers le domaine MLOps.
• Une personne capable de prendre en compte à la fois la stabilité et les coûts des pipelines de données.
• Une personne capable de discuter avec les ingénieurs ML de la nécessité et du contexte d'utilisation des fonctionnalités.
• Une personne qui préfère une approche MVP, démarrant d'abord et améliorant progressivement, plutôt qu'un plan parfait dès le début.
• Une personne ayant la responsabilité de suivre la cause lors des pannes et d'empêcher la récurrence des problèmes.
• Une personne intéressée par l'élargissement de son rôle de la plateforme de données à la plateforme ML·MLOps.
A. Plateforme de données (~60%)
• Conception, mise en œuvre et exploitation de pipelines de collecte et de traitement de données (événements en direct, journaux, données d'apprentissage) de grande taille provenant de services en direct
• Exploitation stable des pipelines ETL/ELT avec des outils de workflow tels qu'Airflow, responsabilité pour la résolution des pannes, l'optimisation des performances et l'efficacité des coûts
• Conception et construction d'un Data Warehouse (DW) et de Data Marts (DM) dans une forme exploitable par les analystes, ingénieurs ML et équipes de planification
• Assurance de la fiabilité des données en établissant une gestion de la qualité des données et une gouvernance (métadonnées, catalogue, contrôle d'accès)
• Exploitation d'une infrastructure de données basée sur le cloud (AWS, GCP, etc.) et direction des améliorations d'architecture en tenant compte de l'évolutivité et de la rentabilité.
B. Domaine adjacent de la plateforme ML·MLOps (~40%)
• Collaboration avec l'équipe ML pour gérer les pipelines de données pour l'apprentissage et le service de modèles pour des recommandations, des correspondances et des prédictions de désengagement, ainsi que pour gérer le Feature Store
• Exploitation de l'infrastructure de service et de surveillance de modèles pour garantir un environnement d'inférence à faible latence et une stabilité opérationnelle
• Mise en place d'un système de détection des dérives de données et de performance
• Au moins 3 ans d'expérience pratique en ingénierie des données
• Compétence en Python et SQL
• Expérience dans le traitement de journaux d'utilisateurs à grande échelle (traitement d'événements à volume élevé)
• Expérience pratique avec des frameworks de traitement distribué tels que Spark, Flink
• Expérience dans la création de pipelines ETL (Airflow, Prefect, etc.)
• Capacité à comprendre la différence entre le traitement par lots et le traitement en streaming et à concevoir les deux
• Expérience dans la construction de l'infrastructure de données dans un environnement cloud (AWS, GCP, etc.)
• Expérience dans l'exploitation d'environnements basés sur des conteneurs avec Docker/Kubernetes
• Expérience en gestion de code d'infrastructure (IaC, Terraform, etc.)
Qualifications souhaitées
• Expérience dans la création de plateformes de streaming en temps réel (Kafka, Kinesis, etc.)
• Expérience dans l'exploitation de grands entrepôts de données pour l'analyse (BigQuery, Redshift, Snowflake, etc.)
• Expérience dans la création ou l'exploitation de Feature Stores (Feast, etc.)
• Expérience dans la création de pipelines d'apprentissage et de service de modèles ML (MLflow, Kubeflow, etc.)
• Expérience avec l'infrastructure pour l'inférence de LLM/ modèles de grande taille (vLLM, TGI, etc.)
• Expérience dans la détection de dérives de données/performance pour les modèles ML (Evidently, WhyLabs, etc.)
• Expérience dans la gestion des délais d'inférence et des SLA de disponibilité (Prometheus + Grafana, etc.)
• Expérience dans le traitement de journaux de comportements d'utilisateurs de grande échelle dans les secteurs EdTech, Jeux et services de recommandation
• Expérience de contributions en open source ou présentations dans des conférences techniques ou publications de recherche
Avantages et environnement de travail
• 🏠 Environnement de travail entièrement à distance - environnement de travail productif où vous pouvez travailler de n'importe où dans le pays
• 📊 Gestion des options d'achat d'actions - gestion des options d'achat d'actions pour les employés clés en R&D (examen de l'attribution après un an de travail stable)
• 📈 Expérience de croissance mondiale - expérience dans un produit avec les tendances actuelles visant à atteindre 10 millions de téléchargements (comme Google Feature)
• 💼 Expérience dans le développement de systèmes fondamentaux - contribution directe au développement d'infrastructures et de systèmes dans un domaine d'activité unique alliant jeux et IA.
• 🌴 Bureau à Jeju & rafraîchissement - possibilité de travailler au bureau central à Jeju, y compris le soutien aux rafraîchissements.
• 📚 Soutien au développement personnel - soutien au développement personnel à travers des livres et des cours en ligne.
• 💪 Soutien à la gestion de la santé - soutien pour les coûts des examens de santé / programmes de gestion de la santé en interne.
• ❤️ Culture sportive agréable - création d'une culture sportive agréable grâce à des défis sportifs mensuels.
• Documents requis — CV, lettre de motivation, portfolio ou exemples rédigés par vous (veuillez préciser clairement ce que vous avez accompli)
• Processus d'embauche — vérification des documents·portfolio → premier entretien (en ligne) → deuxième entretien (en ligne) → entretien final (hors ligne) → annonce des résultats
• Lors de l'entretien, il peut y avoir une tâche (d'une durée inférieure à 1 jour) ou un test à réaliser.
[Pour plus de détails, voir la page Notion ci-dessous]
https://catchitplay.notion.site/AI-Mid-Senior-36098f74ee5a8003a68ac81fc502eca9