• Engenharia para operação estável e monitoramento do serviço.
- Operar o serviço da Zeta de forma estável, que é utilizado por centenas de milhares de pessoas durante 3 horas por dia.
- Construir uma infraestrutura de implantação de IA escalável em um ambiente multi-nuvem.
- Implementar um sistema de monitoramento que possa reagir rapidamente a falhas do sistema.
- Identificar e otimizar gargalos para garantir alta quantidade e baixa latência do serviço.
• Operação de sistemas/herramentas para DevOps
- Desenvolver ferramentas de automação internas para implementação, monitoramento, etc.
- Automatizar tarefas recorrentes que ocorrem na operação de serviços e infraestrutura para aumentar a produtividade geral da equipe.
• Construir e gerenciar a infraestrutura de pipelines de dados.
- Construir e gerenciar pipelines que transformam logs gerados pela infraestrutura de serviço em dados processáveis e analisáveis.
- Construir pipelines que realizam diversas tarefas, como streaming de logs, refinamento de dados e execução de operações em larga escala, e desenvolver ferramentas necessárias para a operação.
Principais responsabilidades
Descrição da posição
Estamos procurando um desenvolvedor capaz de lidar com tráfego maciço sem interrupções ou atrasos: Zeta é um serviço utilizado por centenas de milhares de pessoas por mais de 2 horas por dia, ou mais de 8 horas por semana, o que nos confronta diariamente com um enorme volume de tráfego. Esse tráfego está dobrando há meses. A equipe SRE da Zeta deve operar o serviço de forma estável, sem interrupções ou atrasos, enquanto realiza vários testes A/B simultaneamente de forma fluida e precisa. Para isso, procuramos engenheiros que possuam a capacidade de configurar eficientemente a infraestrutura e lidar com o tráfego.
Você ganhará experiência na operação de serviços de IA otimizados: O SRE da Zeta é responsável por operar e gerenciar a infraestrutura de implantação de modelos de IA, que é central para o produto, e trabalha com o Engenheiro de ML para encontrar maneiras de otimizar custos e velocidade. Como estamos servindo nossos próprios modelos de IA desenvolvidos internamente (incluindo LLM), estamos usando mais de 100 GPUs em tempo real, utilizando diversas técnicas para otimização de custos e velocidade. Esses segredos incluem os conhecimentos e técnicas que adquirimos ao longo de mais de 3 anos de operação de serviços de IA. Tenho certeza de que a experiência que você adquirirá nessa posição será um ativo valioso para suas habilidades e carreira na era da IA que já está chegando.
Você terá a oportunidade de fazer funcionar o Fly Wheel de dados de IA do início ao fim: Desenvolver melhores pipelines de dados para criar dados adequados para o aprendizado de IA, criar melhores modelos de IA e aumentar a satisfação dos usuários, o que leva à coleta de mais dados de alta qualidade de mais usuários, não é uma tarefa fácil. A Zeta coleta em tempo real diversos eventos e logs do serviço e os utiliza diretamente para aprimorar os produtos e treinar os modelos de IA. O SRE da Zeta configura e melhora pipelines de dados eficientes para garantir que esses dados sejam utilizados de forma fluida e correta. Isso significa que o SRE da Zeta não apenas opera um serviço estável, mas também contribui diretamente para aumentar a competitividade do nosso produto. Além disso, a experiência e conhecimento para fazer funcionar um Fly Wheel com sucesso na era da IA, onde os dados são o principal recurso, serão de grande ajuda para sua competitividade.
Responsabilidades principais
• Engenharia para operação estável e monitoramento do serviço.
- Operar o serviço da Zeta de forma estável, que é utilizado por centenas de milhares de pessoas durante 3 horas por dia.
- Construir uma infraestrutura de implantação de IA escalável em um ambiente multi-nuvem.
- Implementar um sistema de monitoramento que possa reagir rapidamente a falhas do sistema.
- Identificar e otimizar gargalos para garantir alta quantidade e baixa latência do serviço.
• Operação de sistemas/herramentas para DevOps
- Desenvolver ferramentas de automação internas para implementação, monitoramento, etc.
- Automatizar tarefas recorrentes que ocorrem na operação de serviços e infraestrutura para aumentar a produtividade geral da equipe.
• Construir e gerenciar a infraestrutura de pipelines de dados.
- Construir e gerenciar pipelines que transformam logs gerados pela infraestrutura de serviço em dados processáveis e analisáveis.
- Construir pipelines que realizam diversas tarefas, como streaming de logs, refinamento de dados e execução de operações em larga escala, e desenvolver ferramentas necessárias para a operação.
Qualificações necessárias
• Mais de 3 anos de experiência em SRE, DevOps, engenharia de backend.
• Experiência no funcionamento de serviços em nuvem lidando com tráfego maciço.
• Experiência na operação de sistemas utilizando Kubernetes e Istio.
• Sólidos conhecimentos básicos de computação, centrados em sistemas operacionais e redes.
Qualificações desejáveis
• Experiência em um ambiente baseado em IaC.
• Compreensão e experiência com bancos de dados relacionais, NoSQL e em memória.
• Experiência na construção de sistemas de streaming de logs e análise em serviços em nuvem.
• Experiência na operação de serviços utilizando tecnologias baseadas em IA.
• Experiência no desenvolvimento de aplicações web assíncronas/não bloqueantes.
Processo de contratação
• Revisão de documentos -> Teste de codificação -> Entrevista de trabalho -> Entrevista de adequação cultural -> Negociação de termos -> Contratação final