• Ingeniería para la operación estable y monitoreo del servicio.
- Operar el servicio de Zeta de manera estable, que es utilizado por cientos de miles de personas durante 3 horas al día.
- Construir una infraestructura de despliegue de AI escalable en un entorno de múltiples nubes.
- Implementar un sistema de monitoreo que pueda reaccionar rápidamente a las fallas del sistema.
- Identificar y optimizar cuellos de botella para asegurar un alto rendimiento y baja latencia en el servicio.
• Operación de sistemas/herramientas para DevOps
- Desarrollar herramientas de automatización internas para despliegues, monitoreo, etc.
- Automatizar tareas repetitivas que ocurren en la operación de servicios e infraestructura para mejorar la productividad general del equipo.
• Construir y gestionar la infraestructura de las tuberías de datos.
- Construir y gestionar tuberías que transforman los registros generados por la infraestructura del servicio en datos procesables y analizables.
- Construir tuberías que realizan diversas tareas, como transmisión de registros, refinamiento de datos y ejecución de tareas por lotes a gran escala, y desarrollar las herramientas necesarias para la operación.
Responsabilidades principales
Descripción del puesto
Estamos buscando un desarrollador capaz de manejar tráfico masivo sin interrupciones o retrasos: Zeta es un servicio utilizado por cientos de miles de personas durante más de 2 horas al día, lo que equivale a más de 8 horas a la semana, lo que nos confronta diariamente con volúmenes enormes de tráfico. Este tráfico se duplica actualmente cada mes. El equipo de SRE de Zeta debe operar el servicio de manera estable, sin interrupciones ni retrasos, mientras lleva a cabo múltiples pruebas A/B simultáneamente de manera fluida y precisa. Para esto, buscamos ingenieros que tengan la capacidad de configurar de manera eficiente la infraestructura y manejar el tráfico.
Usted ganará experiencia en la operación de servicios de AI optimizados: El SRE de Zeta tiene la responsabilidad de operar y gestionar la infraestructura de despliegue de modelos de AI, que son centrales para el producto, y trabaja con el ingeniero de ML para encontrar formas de optimizar costos y velocidad. Dado que estamos sirviendo nuestros propios modelos de AI desarrollados internamente (incluidos LLM), estamos usando en tiempo real más de 100 GPU, y utilizamos varias técnicas para optimizar costos y velocidad. Estos secretos incluyen los conocimientos y técnicas que hemos acumulado a lo largo de más de 3 años de operación de servicios de AI. Estoy seguro de que la experiencia que adquiera en esta posición será un activo valioso para sus habilidades y carrera en la era de la AI que se avecina.
Tendrá la oportunidad de hacer funcionar el Fly Wheel de datos de AI de principio a fin: Desarrollar mejores tuberías de datos para crear datos aptos para el aprendizaje de AI, crear mejores modelos de AI y aumentar la satisfacción de los usuarios, lo que lleva a la recolección de más datos de alta calidad de más usuarios, no es fácil. Zeta recopila en tiempo real diversos eventos y registros del servicio y los utiliza directamente para mejorar los productos y entrenar los modelos de AI. El SRE de Zeta configura y mejora tuberías de datos eficientes para asegurar que estos datos se utilicen sin problemas y en los lugares adecuados. Esto significa que el SRE de Zeta no solo opera un servicio estable, sino que también contribuye directamente a mejorar la competitividad de nuestro producto. Además, la experiencia y el conocimiento para hacer funcionar un Fly Wheel con éxito en la era de la AI, donde los datos son el recurso principal, serán de gran ayuda para su competitividad.
Responsabilidades Principales
• Ingeniería para la operación estable y monitoreo del servicio.
- Operar el servicio de Zeta de manera estable, que es utilizado por cientos de miles de personas durante 3 horas al día.
- Construir una infraestructura de despliegue de AI escalable en un entorno de múltiples nubes.
- Implementar un sistema de monitoreo que pueda reaccionar rápidamente a las fallas del sistema.
- Identificar y optimizar cuellos de botella para asegurar un alto rendimiento y baja latencia en el servicio.
• Operación de sistemas/herramientas para DevOps
- Desarrollar herramientas de automatización internas para despliegues, monitoreo, etc.
- Automatizar tareas repetitivas que ocurren en la operación de servicios e infraestructura para mejorar la productividad general del equipo.
• Construir y gestionar la infraestructura de las tuberías de datos.
- Construir y gestionar tuberías que transforman los registros generados por la infraestructura del servicio en datos procesables y analizables.
- Construir tuberías que realizan diversas tareas, como transmisión de registros, refinamiento de datos y ejecución de tareas por lotes a gran escala, y desarrollar las herramientas necesarias para la operación.
Calificaciones Requeridas
• Más de 3 años de experiencia en SRE, DevOps, ingeniería backend.
• Experiencia en la operación de servicios en la nube que manejan tráfico masivo.
• Experiencia en la operación de sistemas utilizando Kubernetes e Istio.
• Sólidos conocimientos básicos en informática, centrados en sistemas operativos y redes.
Calificaciones Preferidas
• Experiencia en un entorno basado en IaC.
• Comprensión y experiencia con bases de datos relacionales, NoSQL y en memoria.
• Experiencia en la construcción de sistemas de transmisión de registros y análisis en servicios en la nube.
• Experiencia en la operación de servicios utilizando tecnologías basadas en AI.
• Experiencia en el desarrollo de aplicaciones web asíncronas/no bloqueantes.
Proceso de Contratación
• Revisión de documentos -> Prueba de codificación -> Entrevista laboral -> Entrevista de compatibilidad cultural -> Negociación de términos -> Contratación final