• Ingenieurwesen für den stabilen Betrieb und die Überwachung des Dienstes
- Den Dienst von Zeta, der täglich von Hunderttausenden von Menschen 3 Stunden lang genutzt wird, stabil betreiben.
- Eine skalierbare AI-Bereitstellungsinfrastruktur in einer Multi-Cloud-Umgebung aufzubauen.
- Ein Überwachungssystem zu schaffen, das schnell auf Systemausfälle reagieren kann.
- Engpässe zu identifizieren und zu optimieren, um einen hohen Durchsatz und eine niedrige Latenz für den Dienst sicherzustellen.
• Betriebsführungssysteme / -werkzeuge für DevOps
- Interne Automatisierungstools für Bereitstellungen, Überwachungen usw. zu entwickeln.
- Wiederkehrende Aufgaben, die bei der Dienst- und Infrastrukturverwaltung anfallen, zu automatisieren, um die Gesamteffizienz des Teams zu steigern.
• Infrastruktur von Datenpipelines aufbauen und verwalten
- Protokolle von der Dienstinfrastruktur zu sammeln, zu verfeinern und in analysierbare Datensätze umzuwandeln.
- Pipelines aufzubauen, die verschiedene Arbeiten durchführen, wie Protokoll-Streaming, Datenverfeinerung und große Batch-Operationen, und Werkzeuge zu entwickeln, die für den Betrieb erforderlich sind.
Positionsbeschreibung
Wir suchen einen Entwickler, der in der Lage ist, ohne Ausfallzeiten oder Verzögerungen mit großem Datenverkehr umzugehen: Zeta ist ein Dienst, der von Hunderttausenden von Menschen jeden Tag mehr als 2 Stunden und mindestens 8 Stunden pro Woche genutzt wird, sodass er täglich mit einem enormen Datenverkehr in der Größenordnung von Spielservern konfrontiert ist. Dieser Verkehr verdoppelt sich derzeit jeden Monat. Das SRE-Team von Zeta muss den Dienst stabil betreiben, ohne Unterbrechungen oder Verzögerungen, und gleichzeitig mehrere laufende A/B-Tests reibungslos und präzise durchführen können. Zu diesem Zweck suchen wir Ingenieure, die über die Fähigkeit zur effizienten Infrastrukturkonfiguration und Verkehrsbewältigung verfügen.
Sie werden Erfahrungen im Betrieb optimierter AI-Dienste sammeln: Das SRE-Team von Zeta übernimmt den Betrieb und die Verwaltung der Schlüssel-AI-Modellbereitstellungsinfrastruktur des Produkts und arbeitet mit dem ML-Ingenieur zusammen, um Möglichkeiten zur Kosten- und Geschwindigkeitsoptimierung zu finden. Da wir unsere eigenen entwickelten KI-Modelle (einschließlich LLM) direkt in der Cloud bereitstellen, verwenden wir in Echtzeit mehr als 100 GPUs und nutzen verschiedene Techniken zur Kosten- und Geschwindigkeitsoptimierung. Diese Geheimnisse beinhalten Kenntnisse und Techniken, die wir in den über 3 Jahren, in denen wir im AI-Dienstleistungsoperation tätig waren, gesammelt haben. Ich bin mir sicher, dass die Erfahrungen, die Sie in dieser Position sammeln werden, eine wertvolle Bereicherung für Ihre Fähigkeiten und Karriere in der bereits anstehenden AI-Ära sein werden.
Sie haben die Möglichkeit, das AI Data Fly Wheel von Anfang bis Ende zu erleben: Das Entwickeln besserer Datenpipelines, um Daten zu erstellen, die für das Lernen von AI geeignet sind, bessere AI-Modelle zu erstellen und die Zufriedenheit der Benutzer zu steigern, was mehr hochwertige Daten von mehr Benutzern sammelt, ist alles andere als einfach. Zeta sammelt in Echtzeit verschiedene Ereignisse und Protokolle aus dem Dienst und nutzt sie direkt zur Produktverbesserung und zum Training von AI-Modellen. Das SRE-Team von Zeta konfiguriert und verbessert effiziente Datenpipelines, um sicherzustellen, dass diese Daten nahtlos und an den richtigen Stellen genutzt werden. Das bedeutet, dass das SRE-Team von Zeta nicht nur für einen stabilen Dienst sorgt, sondern auch direkt zur Steigerung der Wettbewerbsfähigkeit unseres Produkts beiträgt. Darüber hinaus werden Erfahrungen und Kenntnisse in der erfolgreichen Rotation eines Fly Wheels in einer AI-Ära, in der Daten das wichtigste Material sind, Ihnen erheblich helfen.
Wesentliche Pflichten
• Ingenieurwesen für den stabilen Betrieb und die Überwachung des Dienstes
- Den Dienst von Zeta, der täglich von Hunderttausenden von Menschen 3 Stunden lang genutzt wird, stabil betreiben.
- Eine skalierbare AI-Bereitstellungsinfrastruktur in einer Multi-Cloud-Umgebung aufzubauen.
- Ein Überwachungssystem zu schaffen, das schnell auf Systemausfälle reagieren kann.
- Engpässe zu identifizieren und zu optimieren, um einen hohen Durchsatz und eine niedrige Latenz für den Dienst sicherzustellen.
• Betriebsführungssysteme / -werkzeuge für DevOps
- Interne Automatisierungstools für Bereitstellungen, Überwachungen usw. zu entwickeln.
- Wiederkehrende Aufgaben, die bei der Dienst- und Infrastrukturverwaltung anfallen, zu automatisieren, um die Gesamteffizienz des Teams zu steigern.
• Infrastruktur von Datenpipelines aufbauen und verwalten
- Protokolle von der Dienstinfrastruktur zu sammeln, zu verfeinern und in analysierbare Datensätze umzuwandeln.
- Pipelines aufzubauen, die verschiedene Arbeiten durchführen, wie Protokoll-Streaming, Datenverfeinerung und große Batch-Operationen, und Werkzeuge zu entwickeln, die für den Betrieb erforderlich sind.
Erforderliche Qualifikationen
• Mindestens 3 Jahre Erfahrung in SRE, DevOps, Backendi-Engineering
• Erfahrung im Betrieb von Cloud-Diensten mit hohem Datenverkehr
• Erfahrung im Betrieb von Systemen mithilfe von Kubernetes und Istio
• Solide Grundkenntnisse der Informatik, insbesondere OS und Netzwerk
Bevorzugte Qualifikationen
• Erfahrung in einer IaC-Umgebung
• Verständnis und Erfahrung mit RDB, NoSQL und In-Memory-Datenbanken
• Erfahrung beim Aufbau von Protokollstreaming- und Analyseinformationen in Cloud-Systemen
• Erfahrung im Betrieb von Diensten mit KI-Technologien
• Erfahrung in der Entwicklung asynchroner/ nicht blockierender Webanwendungen
Einstellungsverfahren
• Dokumentenprüfung -> Codierungstest -> Berufsinterview -> Kulturübereinstimmungsinterview -> Vergütungsverhandlung -> endgültige Einstellung