Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit	Krypto-Events Krypto-Startups und Risikokapital Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit	Krypto-Events Krypto-Startups und Risikokapital Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst	Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit Krypto-Events Krypto-Startups und Risikokapital	Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen	Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst	Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit Krypto-Events Krypto-Startups und Risikokapital	Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen	Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Samstag, 06. September 2025.

Wie Google Cloud durch Vernachlässigung seiner Qualitätskontrollen einen massiven Ausfall verursachte

Rechtliche Nachrichten Mining und Staking

Das Geld, dasgeld.co

Google caused outage by ignoring its quality protections

Ein tiefer Einblick in die Ursachen des Google Cloud-Ausfalls, der durch das Ignorieren etablierter Qualitätskontrollen entstand, und welche Konsequenzen und Verbesserungen daraus resultieren.

Im Juni 2025 erlebte Google Cloud einen der schwerwiegendsten Ausfälle seiner jüngeren Geschichte, der mehrere Stunden andauerte und zahlreiche Unternehmen weltweit massiv beeinträchtigte. Hinter diesem Ausfall stand, wie sich später herausstellte, ein verhängnisvoller Fehler innerhalb eines zentralen Systems, der durch das Ignorieren eigener Qualitätsstandards und Kontrollmechanismen verursacht wurde. Diese Situation wirft nicht nur ein Licht auf technische Herausforderungen bei Großanbietern wie Google, sondern offenbart auch strukturelle Schwachstellen in der Softwareentwicklung und Systembetreuung, die selbst globalen Marktführern nicht erspart bleiben. Der Vorfall ereignete sich, als Google am 29. Mai 2025 eine neue Funktion zur Erweiterung der Quotenrichtlinien in das sogenannte „Service Control“-System integrierte.

Dieses System ist essenziell für die Verwaltung von API-Anfragen, deren Autorisierung und die Einhaltung von Richtlinien wie Quotenbegrenzungen. Service Control arbeitet regional verteilt, wobei eine globale Replikation von Richtlinieninformationen die konsistente Umsetzung der Quoten sicherstellt. Dieses System stellt somit eine kritische Schicht dar, die sowohl die Zuverlässigkeit als auch die Sicherheit von Cloud-Diensten gewährleistet. Die neu eingeführte Funktion sollte zusätzliche Quotenprüfungen ermöglichen – ein Schritt, der eigentlich die Qualität und Kontrolle erhöhen sollte. Doch genau hier lag der Knackpunkt.

Während des schrittweisen Rollouts der neuen Funktion kam es zu einem Fehler in einem Codepfad, der nicht wie vorgesehen durch Tests abgesichert und durch Feature Flags geschützt war. Feature Flags dienen in der Softwareentwicklung dazu, neue Funktionen kontrolliert ein- oder auszuschalten und so Fehler frühzeitig erkennen zu können, ohne dass die gesamte Infrastruktur riskiert wird. Google teilte mit, dass dieser kritische Code keine angemessene Fehlerbehandlung besaß, was zu einem sogenannten Null-Pointer-Fehler führte – eine Programmierfehlerart, bei der das System versucht, auf nicht vorhandene Daten zuzugreifen. Dieser Fehler blieb während des Rollouts unentdeckt, da der fehlerhafte Codepfad nur durch das Vorhandensein bestimmter Richtlinien aktiviert wird. Erst am 12.

Juni, als eine Änderung an einer Richtlinie vorgenommen wurde, die unbeabsichtigte leere Felder enthielt, wurde der Fehler ausgelöst. Das System begann in einen Crash-Loop zu geraten, was bedeutet, dass die zuständigen Prozesse ständig abstürzten und neu gestartet wurden. Da das Service Control-System regional verteilt ist, zog sich der Fehler rasch durch die globalen Datenzentren und führte zu massiven Dienstunterbrechungen in vielen Google Cloud Regionen. Die unmittelbaren Auswirkungen waren gravierend. Kunden verloren den Zugriff auf wichtige Cloud-Ressourcen für mindestens drei Stunden.

Besonders betroffen war auch Cloudflare, ein bedeutender Anbieter von Sicherheits- und Performance-Dienstleistungen im Internet. Durch die Unterbrechungen bei Google Cloud kam es bei Cloudflare selbst zu Dienstwacklern, die wiederum deren Kunden vor Herausforderungen stellten. Dieser Dominoeffekt zeigt die starke Verwobenheit moderner Cloud-Infrastrukturen und unterstreicht, wie ein Fehler in einer Komponente eine Kettenreaktion von Ausfällen auslösen kann. Google selbst reagierte schnell, indem das Site Reliability Engineering Team den Vorfall innerhalb von zwei Minuten erkannte und nach zehn Minuten die Problemursache identifizierte. Dennoch gestaltete sich die Wiederherstellung auf Grund von Infrastrukturüberlastungen in einzelnen großen Regionen schwierig und zog sich in manchen Fällen auf fast drei Stunden.

Das lag daran, dass mit jedem Neustart der Service Control Komponenten eine „Herdenwirkung“ auf deren abhängige Infrastruktur entstand, die nicht für einen solchen Ansturm ausgelegt war. Ein wichtiger Punkt, den Google offen zugab, war, dass die fehlerhafte Funktion keine Feature Flag hatte, durch die man das Problem im Vorfeld hätte isolieren können. Dadurch wurde die Chance verpasst, den Bug bereits in Testumgebungen zu finden. Fehlende oder ungenügende Fehlerbehandlungen hatten das Risiko zusätzlich erhöht, weil der Null-Pointer-Fehler nicht abgefangen wurde und stattdessen zum Absturz der gesamten Komponente führte. Aus operativer Sicht sind solche Vorfälle für Cloud-Anbieter keine Seltenheit, auch wenn sie meist sehr viel länger gut funktionieren.

Die Komplexität der Systeme und die Geschwindigkeit von Softwareänderungen schaffen eine permanente Herausforderung. Googles Umgang mit dem Vorfall beinhaltet daher nicht nur eine öffentliche Entschuldigung, sondern auch konkrete Ankündigungen zur Verbesserung der betrieblichen Prozesse. Dazu zählt insbesondere die Verbesserung der externen Kommunikationswege. Kunden sollen zukünftig schneller und umfassender über Zwischenfälle informiert werden, um eigenständige Reaktionen und Maßnahmen zu ermöglichen. Ebenso plant Google, die eigenen Monitoring- und Kommunikationssysteme so zu gestalten, dass sie auch im Falle eines Ausfalls der primären Systeme stets funktionsfähig bleiben und einen reibungslosen Informationsfluss sicherstellen.

Diese Änderungen können als eine implizite Anerkennung gewertet werden, dass schwere Ausfälle sich nicht vollständig vermeiden lassen und das Krisenmanagement verstärkt in den Fokus rückt. Gerade bei Cloud-Services, die sich über komplexe und vernetzte Infrastruktur erstrecken, sind absolute Ausfallsicherheit und Null-Fehler-Toleranz schwer realisierbar. Daraus ergibt sich für Kunden eine wichtige Erkenntnis: Abhängigkeiten von einzelnen Anbietern bergen immer ein gewisses Risiko, das es durch Diversifikation oder Notfallstrategien zu minimieren gilt. Allerdings zeigt der Fall auch, dass selbst die größten Technologieunternehmen mit enormen Ressourcen und umfangreichen Qualitätskontrollprozessen nicht komplett vor Fehlern geschützt sind. Die Balance zwischen Innovation und stabiler Bestandsleistung ist heikel.

Während neue Funktionen und Updates essenziell sind, um den Kunden moderne und leistungsfähige Dienste anbieten zu können, müssen diese stets ausreichend getestet und abgesichert sein. Vor allem das Fehlen eines Feature Flags bei der kritischen Änderung war ein entscheidender Faktor. Feature Flags erlauben es Entwicklern, neue oder risikobehaftete Funktionen schrittweise und kontrolliert zu aktivieren. Ohne diesen Schutzmechanismus wurden die fehlerhaften Codes nicht vorab identifiziert und konnten ungehindert in Produktion gelangen. Die konsequente Nutzung von Feature Flags und automatisierten Tests gehört inzwischen zu den bewährten Praktiken moderner Softwareentwicklung.

Google hat mit seinem transparenten und detaillierten Incident Report zu dem Vorfall seine Verantwortung gezeigt und bietet interessante Einblicke in die technische Herkunft und die operativen Abläufe bei Krisenmanagement. Gleichzeitig öffnet er die Diskussion über das allgemeine Risiko von Cloud-Diensten und die notwendigen Mechanismen zur Sicherstellung von Zuverlässigkeit. Für Unternehmen, die auf Cloud-Ressourcen angewiesen sind, ist der Fall ein weiterer Weckruf, eigene Notfallpläne zu prüfen, umfangreiche Testumgebungen zu pflegen und das Monitoring zu optimieren. Im Idealfall sollten mehrere Anbieter und Redundanzen für kritische Dienste berücksichtigt werden, um bei Störungen möglichst schnell ausweichen zu können. Zusammenfassend lässt sich sagen, dass der Google Cloud Ausfall durch Vernachlässigung essentieller Qualitätskontrollen entstand und trotz schneller Reaktion und Behebung eine breite Welle von Störungen auslöste.

Die Lehren aus dem Vorfall umfassen sowohl Veränderungsbedarf bei der Softwareentwicklung als auch bei der Kundenkommunikation und dem Krisenmanagement. Der Vorfall zeigt, dass Kontinuität und Zuverlässigkeit in der digitalen Infrastruktur nie selbstverständlich sind und ständiger Aufmerksamkeit bedürfen – gerade in einer zunehmend cloudbasierten Welt.

Als Nächstes

Global warming may increase the burden of obstructive sleep apnea

Samstag, 06. September 2025. Globale Erwärmung und Schlafapnoe: Wie steigende Temperaturen die Gesundheit des Schlafs beeinträchtigen können

Exploration der Zusammenhänge zwischen globaler Erwärmung und der Zunahme der obstruktiven Schlafapnoe sowie deren Auswirkungen auf Gesundheit, Wohlbefinden und Wirtschaft weltweit.

France's Alpine May Start N.A. Expansion in Canada first due to Trump tariffs

Samstag, 06. September 2025. Alpine aus Frankreich startet Nordamerika-Offensive mit Fokus auf Kanada wegen Trump-Zöllen

Die französische Premiummarke Alpine plant ihre Expansion in Nordamerika zunächst in Kanada, da Handelszölle unter der Trump-Administration den US-Markt weniger attraktiv machen. Der Schritt ist strategisch klug, da Kanada kulturelle Verbindungen zu Frankreich und ein wachsendes Interesse an Elektrofahrzeugen aufweist.

Where Eiffel Fits: Part 1 – Introduction

Samstag, 06. September 2025. Wo Eiffel Passt: Eine Einführung in die Welt der Programmiersprache Eiffel

Ein umfassender Einstieg in die Programmiersprache Eiffel, ihre Ursprünge, Anwendungsgebiete und die Bedeutung in der modernen Softwareentwicklung. Erfahre, warum Eiffel trotz moderner Alternativen eine bedeutende Rolle spielt und wie sie sich in verschiedenen Bereichen integriert.

Smart Home Automation of Medacube Medication Pill Mixing Linux Robot

Samstag, 06. September 2025. Intelligente Heimautomatisierung mit dem Medacube Medikamentenmischroboter: Revolution in der Arzneimittelversorgung

Der Medacube Medikamentenmischroboter kombiniert fortschrittliche Linux-basierte Technologie mit Smart Home Automatisierung, um die Einnahme von Pillen sicherer, einfacher und effizienter zu gestalten. Eine innovative Lösung für die Verwaltung von Medikamenten im häuslichen Umfeld.

Show HN: I made a HTML parser with it's own matching language in C

Samstag, 06. September 2025. Leistungsstarker HTML-Parser in C mit eigener Matching-Sprache: Ein Durchbruch für Entwickler

Ein innovativer HTML-Parser in C mit einer einzigartigen Matching-Sprache hebt die Webdatenverarbeitung auf ein neues Level. Dieses leistungsstarke Tool ermöglicht effizientes Extrahieren und Analysieren von HTML-Inhalten und bietet Entwicklern vielseitige Anwendungsmöglichkeiten.

Samstag, 06. September 2025. Creatrlink – Die perfekte Link-in-Bio-Lösung für Podcaster im digitalen Zeitalter

Entdecken Sie, wie Creatrlink Podcastern dabei hilft, ihre Reichweite zu erhöhen und Hörer über alle Plattformen hinweg einfacher zu erreichen. Erfahren Sie mehr über die Funktionen und Vorteile der Plattform, die das Podcast-Marketing revolutioniert.

The ‘rug pull’: crypto investors lose $4b in new scam

Samstag, 06. September 2025. „Rug Pull“ – Wie Krypto-Investoren durch neue Betrugsmasche Milliardenverluste erleiden

Ein umfassender Einblick in die Betrugsmasche „Rug Pull“, die Krypto-Investoren weltweit Milliarden Dollar kostet, mit Analyse der Mechanismen, Risikofaktoren und Schutzmaßnahmen gegen diese gefährliche Form des Krypto-Betrugs.