Bitcoin Stablecoins

Nahtlose Migration großer interaktiver Compute-Workloads zu Kubernetes bei Uber

Bitcoin Stablecoins
Migrating Large-Scale Interactive Compute Workloads to K8s Without Disruption

Eine detaillierte Betrachtung, wie Uber die Migration von tausenden interaktiven Jupyter- und RStudio-Sitzungen zu Kubernetes erfolgreich und störungsfrei umgesetzt hat. Dabei stehen technische Herausforderungen, Lösungsansätze und Effizienzgewinne im Fokus.

Die stetig wachsenden Anforderungen an datenintensive Applikationen und Machine-Learning-Workloads stellen Unternehmen vor komplexe infrastrukturelle Herausforderungen. Bei Uber, einem globalen Anbieter im Mobilitätssektor, werden täglich immense Mengen an Daten generiert, die in Echtzeit verarbeitet und analysiert werden müssen. Um dies zu ermöglichen, wurde die Data Science Workbench (DSW) entwickelt – eine interaktive Notebook-Plattform, die Datenwissenschaftlern und ML-Ingenieuren eine vielschichtige Umgebung für Analyse, Modelltraining und Visualisierung bietet. Die Plattform stellt individualisierte, isolierte Container bereit, in denen unter anderem Jupyter- und RStudio-Notebooks betrieben werden. Diese erfordern vielseitige Ressourcen wie GPU, Speicher und Rechenleistung, was die Infrastruktur besonders anspruchsvoll macht.

Die ursprüngliche Container-Orchestrierung fand mit Peloton statt, einem auf Apache Mesos basierenden System. Im Zuge der Modernisierung wurde die Migration zu Kubernetes geplant und durchgeführt – mit dem Ziel, den Betrieb ohne Unterbrechungen sicherzustellen und gleichzeitig die Verwaltung zu vereinfachen. Die Herausforderung, mehrere tausend interaktive Sitzungen mit unterschiedlichsten Anforderungen auf eine neue Orchestrierungsplattform zu übertragen, ohne die Nutzererfahrung zu beeinträchtigen, ist enorm. Kubernetes ist traditionell für kurzlebige Batch-Jobs konzipiert, nicht aber für langlaufende interaktive Workloads. Die Anpassung des Betriebsmodells war deshalb essenziell.

Uber entschied sich, jede DSW-Sitzung als Kubernetes Job mit modifizierten Parametern abzubilden. Dabei wurde die Parallelität auf einen einzelnen Pod begrenzt und eine sehr hohe Anzahl an „Completions“ gewählt, um eine permanente Laufzeit zu simulieren. Durch eine ausgefeilte Restart-Politik konnten Pods bei Fehlfunktionen automatisch neu gestartet werden, ohne dabei den Nutzer nachhaltig zu stören. Ein zentrales Problem betraf den Umgang mit NFS-Mounts, die für die Persistenz von Sitzungen über mehrere Starts hinweg notwendig sind. Während Kubernetes mittlerweile NFS durch Container Storage Interface (CSI)-Treiber gut unterstützt, war dies bei Ubbers frühem Kubernetes-Einsatz noch nicht möglich.

Die Lösung bestand darin, die NFS-Mounts weiterhin bei dedizierten Host-Gruppen bereitzustellen, jedoch mit einer Vermischung und Vereinheitlichung über den kompletten Kubernetes-Fleet hinweg. Dies garantierte eine nahtlose Datenverfügbarkeit unabhängig vom ausgeführten Cluster oder der Zone. Die Persistenz der vom Nutzer installierten Python- oder R-Pakete stellte eine weitere technische Hürde dar. Die in Memory oder lokalen Dateisystemen abgelegten Umgebungen gingen bei Containerneustarts verloren, was zu Produktivitätseinbußen führte. Uber entwickelte daher ein intelligentes Monitoring der Verzeichnisänderungen mittels „inotify“-Events, die durch ausgeklügeltes Debouncing gefiltert wurden.

So konnten Installationen und Deinstallationen der Pakete zuverlässig erkannt und in einem zentralen NFS-gespeicherten Index abgelegt werden. Beim Neustart einer Sitzung erfolgte dann eine automatisierte Wiederherstellung der fehlenden Pakete, wodurch die Nutzerumgebung nahezu unverändert erhalten blieb und Unterbrechungen minimiert wurden. Zur Steigerung der Verfügbarkeit und Effizienz kam die Kubernetes-Föderation, genannt Federator, zum Einsatz. Diese Abstraktionsschicht vermittelt zwischen den verschiedenen regional verteilten Kubernetes-Clustern und wählt stets optimal verfügbare Ressourcen nach aktuellen Bedarfen aus. Dies vermeidet Lastungleichgewichte, wie sie zuvor mit dedizierten Peloton-Cluster-Zuordnungen auftraten.

Ferner erhöht der Einsatz von Federator die Ausfallsicherheit, da ein Cluster- oder Zonen-Ausfall die DSW-Workloads nicht komplett beeinträchtigt. Neue Cluster können zudem ohne tiefgreifende Eingriffe in die DSW-Plattform hinzugefügt oder entfernt werden, was den Betrieb vereinfacht und Flexibilität erhöht. Ein weiterer Aspekt der Migration war die Wahrung der Nutzererwartungen hinsichtlich Monitoring und Bedienung. Peloton verfügte über eine ausgefeilte UI mit erweiterten Funktionen wie historischen Job-Daten und Ressourcenpool-Übersichten basierend auf Apache Cassandra als Datenbackend. Die native Kubernetes-Oberfläche ist im Vergleich limitiert, insbesondere bezüglich langfristiger Datenspeicherung.

Uber entwickelte deshalb ein System zur nahezu Echtzeit-Replikation von Kubernetes-Metadaten von etcd nach Cassandra. Diese Architektur ermöglichte es, die bewährte Peloton-UI zu verwenden – nun unter dem Namen Compute UI –, um auch Kubernetes-Workloads mit umfassender Beobachtbarkeit und Benutzerfreundlichkeit abzubilden. Die Migration brachte auch Veränderungen bei Log- und Sandbox-Browsing-Funktionen mit sich. Kubernetes verwaltet Container-Logs ephemer, sodass historische Daten nur eingeschränkt verfügbar sind. Uber implementierte eine Browse Sandbox-Funktion, mit der Nutzer Dateisysteminhalte live betrachten können.

Logs aktiver Pods werden über die Kubernetes-API gestreamt, während abgeschlossene Sitzungen archiviert und langfristig gespeichert werden. Diese Strategie sichert die Verfügbarkeit relevanter Informationen auch nach dem Container-Tod und verbessert die Diagnosemöglichkeiten der Nutzer. Ursprünglich hatte Uber die gesamte Nutzerumgebung inklusive installierter Pakete auf NFS synchronisieren wollen. Dies erwies sich jedoch als ineffizient, da die hohe Zahl an Klein-Dateien zu starken Input/Output-Operationen (IOPS) führte, die das System überlasteten. Die Entscheidung, nur eine Liste der zusätzlich installierten Pakete zu speichern und bei Neustart gezielt neu zu installieren, reduzierte die Last drastisch und bewahrte dennoch den Nutzerkomfort.

Zur Steuerung der Migration wurde eine neue Restart-API implementiert, die beim Umschalten von Peloton auf Kubernetes den Nutzer informiert, laufende Sitzungen sichert und eine transparente Umschaltung ermöglicht. So konnten über 3.500 interaktive Sessions von mehr als 2.000 Nutzern umgestellt werden, ohne dass es zu bedeutenden Ausfällen oder Beschwerden kam. Der Erfolg dieser Migration bei Uber zeigt, wie komplexe und interaktive Datenplattformen von der Umstellung auf Kubernetes profitieren können.

Die Implementierung von spezifischen Workarounds und innovativen Konzepten war maßgeblich, um disruptive Effekte zu vermeiden und gleichzeitig die Vorteile von Kubernetes wie Skalierbarkeit, Verfügbarkeit und Cloud-Portabilität zu nutzen. Langfristig plant Uber, native Kubernetes-Funktionen wie CSI-NFS-Treiber zu integrieren, um die Umgebungen noch portabler und wartungsfreundlicher zu gestalten. Das Projekt unterstreicht zudem, wie fundamentale Prinzipien moderner Infrastrukturmigration aussehen: Erweiterbarkeit, Standardisierung und Automatisierung stehen im Vordergrund, ergänzt durch eine konsequente Nutzerorientierung. Durch die enge Zusammenarbeit von Infrastruktur- und Datenplattform-Teams bei Uber konnten technische Hürden überwunden und eine moderne Compute-Plattform etabliert werden, die den Anforderungen heutiger datengetriebener Anwendungen gerecht wird. Zusammenfassend lässt sich sagen, dass die Migration großer interaktiver Compute-Workloads von einem proprietären Container-Orchestrator zu Kubernetes kein triviales Unterfangen ist.

Es erfordert tiefgreifendes Verständnis der Workloads, flexible Anpassungen an neue Paradigmen, intelligente Persistenzstrategien und eine umfassende Berücksichtigung der Nutzererfahrung. Ubers Data Science Workbench hat diese Herausforderung erfolgreich gemeistert und bietet wertvolle Erkenntnisse für Unternehmen, die ähnliche Transformationsprozesse durchführen wollen. Die Zukunft gehört offenen, hybriden Orchestrierungsplattformen, die sowohl Effizienz als auch Benutzerfreundlichkeit sicherstellen und den Weg in die Cloud und darüber hinaus ebnen.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Golden Age of Freelancing Is Over
Samstag, 14. Juni 2025. Das Ende des Goldenen Zeitalters des Freelancings: Herausforderungen und neue Perspektiven für Freiberufler

Die Welt des Freelancings erlebt einen tiefgreifenden Wandel. Die einst sprudelnden Möglichkeiten schwinden und Freiberufler sehen sich mit intensiver Konkurrenz, Budgetkürzungen und dem Aufstieg von KI konfrontiert.

Cooklang – Recipe Markup Language
Samstag, 14. Juni 2025. Cooklang – Die Revolution der Rezeptverwaltung für Hobbyköche und Profis

Entdecken Sie, wie Cooklang als innovative Rezeptauszeichnungssprache Ihre Kochroutine und Einkaufsplanung vereinfacht und optimiert. Erfahren Sie, wie Sie mit einfachen Textdateien Ihre Rezepte verwalten, Einkaufslisten automatisieren und dank passender Apps jederzeit mobil darauf zugreifen können.

Celsius's Mashinsky, Former Crypto High-Roller, Gets 12-Year Prison Sentence
Samstag, 14. Juni 2025. Celsius-Gründer Mashinsky Verurteilt: Ein Wendepunkt für die Kryptowährungsbranche

Die Verurteilung von Celsius-Gründer Alex Mashinsky zu einer 12-jährigen Haftstrafe markiert einen bedeutenden Einschnitt in der Kryptoindustrie und wirft ein Schlaglicht auf die Risiken und Herausforderungen der Kryptowährungsbranche.

Bumble reassures investors as first-quarter revenue meets expectations
Samstag, 14. Juni 2025. Bumble überzeugt Investoren mit stabilem Umsatz im ersten Quartal trotz Herausforderungen

Bumble zeigt im ersten Quartal 2025 eine solide Unternehmensleistung, indem der Umsatz die Erwartungen der Analysten erfüllt. Trotz eines Rückgangs in der Nutzerzahl und einem zunehmend schwierigen Marktumfeld kann Bumble durch innovative Produktverbesserungen und Kostensenkungsmaßnahmen das Vertrauen der Investoren stärken.

Apple's AI Disclosure Hits Alphabet Stock, ETFs Tumble
Samstag, 14. Juni 2025. Wie Apples KI-Initiative den Aktienkurs von Alphabet belastet und ETFs ins Wanken bringt

Die jüngsten Entwicklungen rund um Apples Einsatz von Künstlicher Intelligenz beeinflussen nicht nur den Aktienkurs von Alphabet erheblich, sondern wirken sich auch auf ETFs aus, in denen der Internetkonzern stark vertreten ist. Eine Analyse der Marktveränderungen, der Hintergründe und künftigen Auswirkungen auf die Tech-Branche und Investoren.

Ripple SEC Settlement Nears Final Phase as XRP Awaits Court Approval
Samstag, 14. Juni 2025. Ripple und die SEC: Die nahende Einigung im juristischen Endspurt und die Zukunft von XRP

Der lange Rechtsstreit zwischen Ripple Labs und der US-Börsenaufsicht SEC steht kurz vor einem entscheidenden Höhepunkt. Während die Gerichtsentscheidung über die Einigung noch aussteht, blicken Investoren und die Krypto-Community gespannt auf die Auswirkungen für XRP und den gesamten Kryptomarkt.

Safilo Posts Q1 Growth Amid Supply Chain Diversification and Resilient European Market
Samstag, 14. Juni 2025. Safilo verzeichnet Wachstum im ersten Quartal dank diversifizierter Lieferkette und starkem europäischen Markt

Safilo startet erfolgreich ins Jahr 2025 mit Umsatz- und Gewinnsteigerungen im ersten Quartal. Die strategische Diversifikation der Lieferkette und der besonders robuste europäische Markt tragen maßgeblich zum Wachstum des italienischen Brillenherstellers bei, während Nordamerika mit einem Aufschwung im Sport- und Korrekturbrillenbereich wieder an Dynamik gewinnt.