• Ingénierie pour l'exploitation stable et la surveillance du service.
- Exploiter le service de Zeta stablement, qui est utilisé par des centaines de milliers de personnes pendant 3 heures par jour.
- Construire une infrastructure de déploiement AI évolutive dans un environnement multi-cloud.
- Mettre en place un système de surveillance qui peut rapidement réagir aux pannes système.
- Identifier et optimiser les goulets d'étranglement pour assurer un haut débit et une faible latence du service.
• Exploitation des systèmes/ outils pour DevOps
- Développer des outils d'automatisation interne pour le déploiement, la surveillance, etc.
- Automatiser les tâches répétitives qui surviennent dans l'exploitation des services et de l'infrastructure pour accroître la productivité globale de l'équipe.
• Construire et gérer l'infrastructure de pipelines de données.
- Construire et gérer des pipelines qui transforment les journaux générés par l'infrastructure de services en données analysables et exploitables.
- Construire des pipelines qui effectuent divers travaux tels que le streaming de journaux, le raffinage des données et l'exécution de tâches en lot à grande échelle, et développer des outils nécessaires pour l'exploitation.
Présentation du poste
Nous recherchons un développeur capable de gérer un trafic massif sans interruption ni retard : Zeta est un service utilisé par des centaines de milliers de personnes pendant plus de 2 heures par jour, soit plus de 8 heures par semaine, ce qui nous confronte quotidiennement à un volume énorme de trafic. Ce trafic double actuellement chaque mois. L'équipe SRE de Zeta doit exploiter le service de manière stable, sans interruption ni retard, tout en réalisant plusieurs tests A/B simultanément et de manière fluide et précise. À cette fin, nous recherchons des ingénieurs ayant la capacité de configurer efficacement l'infrastructure et de gérer le trafic.
Vous acquerrez de l'expérience dans l'exploitation de services AI optimisés : Le SRE de Zeta est responsable de l'exploitation et de la gestion de l'infrastructure de déploiement des modèles AI, qui sont au cœur du produit, et travaille avec le ML Engineer pour trouver des façons d'optimiser les coûts et la vitesse. Comme nous servons nos propres modèles d'IA développés en interne (y compris LLM), nous utilisons en temps réel plus de 100 GPU, et nous utilisons diverses techniques pour optimiser les coûts et la vitesse. Ces secrets incluent les connaissances et techniques que nous avons acquises au cours des 3 dernières années d'exploitation de services AI. Je suis convaincu que l'expérience que vous acquerrez dans ce domaine constituera un atout précieux pour vos compétences et votre carrière dans cette ère AI qui approche.
Vous aurez la possibilité de faire fonctionner le Fly Wheel de données AI de A à Z : Développer de meilleurs pipelines de données pour créer des données adaptées à l'apprentissage de l'IA, créer de meilleurs modèles AI et augmenter la satisfaction des utilisateurs, ce qui permet de collecter plus de données de haute qualité de la part de beaucoup d'utilisateurs, n'est pas une mince affaire. Zeta collecte en temps réel divers événements et journaux des services et les utilise directement pour améliorer les produits et former les modèles AI. Le SRE de Zeta configure et améliore des pipelines de données efficaces pour garantir que ces données sont utilisées de manière transparente et à bon escient. Cela signifie que le SRE de Zeta contribue directement à améliorer la compétitivité de notre produit, au-delà d'assurer un service stable. De plus, l'expérience et le savoir-faire pour faire tourner un Fly Wheel avec succès à l'ère de l'IA, où les données sont la matière première principale, seront d'une grande aide pour votre compétitivité.
Principales responsabilités
• Ingénierie pour l'exploitation stable et la surveillance du service.
- Exploiter le service de Zeta stablement, qui est utilisé par des centaines de milliers de personnes pendant 3 heures par jour.
- Construire une infrastructure de déploiement AI évolutive dans un environnement multi-cloud.
- Mettre en place un système de surveillance qui peut rapidement réagir aux pannes système.
- Identifier et optimiser les goulets d'étranglement pour assurer un haut débit et une faible latence du service.
• Exploitation des systèmes/ outils pour DevOps
- Développer des outils d'automatisation interne pour le déploiement, la surveillance, etc.
- Automatiser les tâches répétitives qui surviennent dans l'exploitation des services et de l'infrastructure pour accroître la productivité globale de l'équipe.
• Construire et gérer l'infrastructure de pipelines de données.
- Construire et gérer des pipelines qui transforment les journaux générés par l'infrastructure de services en données analysables et exploitables.
- Construire des pipelines qui effectuent divers travaux tels que le streaming de journaux, le raffinage des données et l'exécution de tâches en lot à grande échelle, et développer des outils nécessaires pour l'exploitation.
Qualifications requises
• Plus de 3 ans d'expérience en SRE, DevOps, ingénierie backend.
• Expérience dans l'exploitation de services cloud gérant un trafic massif.
• Expérience dans l'exploitation de systèmes utilisant Kubernetes et Istio.
• Solides connaissances de base en informatique centrées sur les systèmes d'exploitation et les réseaux.
Qualifications préférées
• Expérience dans un environnement basé sur IaC.
• Compréhension et expérience des bases de données relationnelles, NoSQL et In-memory.
• Expérience dans la construction de systèmes de streaming de journaux et d'analyse dans les systèmes cloud.
• Expérience dans l'exploitation de services utilisant des technologies basées sur l'IA.
• Expérience dans le développement d'applications Web asynchrones/non-bloquantes.
Processus d'embauche
• Examen des documents -> Test de codage -> Entretien professionnel -> Entretien de culture d'adéquation -> Négociation des termes -> Embauche finale