Acteur mondial de l'EdTech! Nous cherchons un 'Ingénieur en données' qui prendra la tête de la plateforme de données et de ML pour le développement de nouveaux produits et moteurs, en s'appuyant sur 970 millions de données de comportement d'apprentissage pour transformer l'avenir de l'éducation AI chez Catchitplay.
Nous recherchons un ingénieur en données capable de gérer de manière stable de grands journaux d'apprentissage tout en étant également responsable de l'infrastructure de modèles ML.
• Une personne capable de prendre en compte à la fois la stabilité et les coûts des pipelines de données
• Une personne capable de discuter avec les ingénieurs ML de la nécessité et du contexte d'utilisation des fonctionnalités
• Une personne qui préfère le début d'un MVP et l'amélioration progressive plutôt que de concevoir parfaitement dès le départ
• Une personne ayant la responsabilité de suivre la cause des pannes jusqu'au bout et d'éviter leur récurrence
• Une personne intéressée à élargir son rôle de la plateforme de données à celle de la plateforme ML·MLOps
A. Plateforme de données (~60%)
• Conception, mise en œuvre et fonctionnement de pipelines pour la collecte et le traitement des événements, des journaux et des données d'apprentissage provenant de services en direct
• Exploitation stable de la **pipeline ETL/ELT** avec des outils de flux de travail tels qu'Airflow, responsabilité de la réponse aux pannes, de l'optimisation des performances et des coûts
• Conception, création et capitalisation de Data Warehouse (DW) et Data Mart (DM) dans un format utile pour les analystes, les ingénieurs ML et les équipes de planification
• Assurer la fiabilité des données grâce à la gestion de la qualité et à la gouvernance (métadonnées, catalogue, contrôle d'accès)
• Leadership dans l'amélioration de l'architecture en tenant compte de la scalabilité et des coûts pour l'infrastructure de données basée sur le cloud (AWS, GCP, etc.)
B. Plateforme ML·Domaines connexes MLOps (~40%)
• Collaboration avec l'équipe ML pour gérer les pipelines de données pour l'apprentissage et le service des modèles, tels que les recommandations, le matching et les prévisions de désabonnement
• Exploitation de l'infrastructure pour le service et la surveillance des modèles, garantissant un environnement d'inférence à faible latence et la stabilité opérationnelle
• Exploitation de systèmes d'alerte pour la détection et le suivi des dérives de données et de performances
• Plus de 3 ans d'expérience pratique en ingénierie des données
• À l'aise avec Python, SQL
• Expérience dans le traitement de journaux d'utilisateurs à grande échelle (traitement d'événements à volume élevé)
• Expérience pratique avec des frameworks de traitement distribué comme Spark, Flink
• Expérience dans la construction de pipelines ETL (Airflow, Prefect, etc.)
• Capacité à comprendre les différences entre le traitement des données par lots et en flux et à concevoir les deux
• Expérience dans la construction d'infrastructures de données dans des environnements cloud (AWS, GCP, etc.)
• Expérience de travail dans des environnements de conteneurs basées sur Docker/Kubernetes
• Expérience de gestion de l'Infrastructure as Code (IaC, Terraform, etc.)
Qualifications souhaitées
• Expérience dans la création de plateformes de streaming en temps réel (Kafka, Kinesis, etc.)
• Expérience dans l'exploitation de grands Data Warehouses pour l'analyse (BigQuery, Redshift, Snowflake, etc.)
• Expérience dans la construction ou l'exploitation de Feature Stores (Feast, etc.)
• Expérience dans la construction de pipelines de formation et de service de modèles ML (MLflow, Kubeflow, etc.)
• Expérience en infrastructure pour des modèles LLM/grands modèles (vLLM, TGI, etc.)
• Expérience dans la détection de dérives de données/performance des modèles ML (Evidently, WhyLabs, etc.)
• Expérience dans la gestion de la latence et des SLA de disponibilité (Prometheus + Grafana, etc.)
• Expérience dans le traitement des journaux de comportement des utilisateurs à grande échelle dans les domaines de l'EdTech, des jeux et des services de recommandation
• Expérience de contribution open source ou de présentation lors de conférences et publications techniques
Avantages et environnement de travail
• 🏠 Environnement de télétravail complet - Un environnement de travail productif basé sur le télétravail complet, pouvant travailler de n'importe où dans le pays
• 📊 Mise en place d'options d'actions - Mise en place d'options d'actions pour le personnel R&D clé (révision après un an d'emploi stable)
• 📈 Expérience de croissance mondiale - Expérience clé dans un produit qui grandit à l'international avec un objectif de 10 millions de téléchargements (tels que des fonctionnalités Google)
• 💼 Expérience dans le développement de systèmes clés - Participation directe à l'infrastructure et au développement de systèmes dans des secteurs d'activité uniques, fusionnant jeux et IA
• 🌴 Bureau à Jeju & rafraîchissement - Soutien au rafraîchissement, y compris la possibilité de travailler au bureau principal à Jeju
• 📚 Soutien au développement personnel - Soutien au développement personnel via des livres et des cours en ligne
• 💪 Soutien à la gestion de la santé - Soutien pour les frais de bilans santé / programmes de santé en entreprise
• ❤️ Culture sportive amusante - Création d'une culture sportive amusante à travers des défis sportifs mensuels pour le plaisir de la compétition et de la collaboration.
• Documents à soumettre — CV, lettre de motivation, portfolio ou échantillons créés par vous-même (indiquez clairement les éléments que vous avez réalisés)
• Processus de recrutement — Révision des documents/portfolios → 1ère interview technique (en ligne) → 2ème interview (en ligne) → interview finale (hors ligne) → annonce des résultats
• Il peut y avoir des tâches (d'une journée ou moins) ou des tests lors de l'entretien.
[Pour plus de détails, consultez la page Notion ci-dessous]
https://catchitplay.notion.site/AI-Mid-Senior-36098f74ee5a8003a68ac81fc502eca9