Am 12. Juni 2025 erlebte Cloudflare einen der schwerwiegendsten Serviceausfälle in seiner Geschichte, der viele seiner Kernangebote für Kunden auf der ganzen Welt beeinträchtigte. In einer Ära, in der die Abhängigkeit von Cloud-Diensten immer weiter zunimmt, beleuchtet dieser Vorfall nicht nur die Zerbrechlichkeit globaler IT-Infrastrukturen, sondern liefert zudem wichtige Erkenntnisse für die Zukunft der Cloud-Technologie und der Ausfallsicherheit. Der Ausfall dauerte insgesamt zwei Stunden und 28 Minuten, in denen zahlreiche Cloudflare-Produkte wie Workers KV, WARP, Access, Gateway, Images, Stream, Workers AI, Turnstile, AutoRAG, Zaraz und Teile des Dashboards nicht verfügbar waren oder mit hohen Fehlerquoten zu kämpfen hatten. Besonders betroffen war der Workers KV-Dienst, eine zentrale Schlüssel-Wert-Speicherlösung, auf die viele andere Cloudflare-Dienste angewiesen sind.
Seine Funktionsbeeinträchtigung führte zu einer globalen Störung bei sämtlichen darauf basierenden Dienstleistungen. Die Ursache des Vorfalls lag bei einer Störung in der zugrundeliegenden Speicherinfrastruktur von Workers KV, die teilweise auf einen Drittanbieterdienst zurückzuführen war, der an diesem Tag eine eigene Störung erlebte. Trotz dieser externen Komponente erkannte Cloudflare die eigene Verantwortung für die Wahl der technischen Abhängigkeiten und die Architektur ihrer Systeme an, da solche Entscheidungen die Resilienz der gesamten Plattform maßgeblich beeinflussen. Die Probleme zeigten sich vor allem darin, dass etwa 90 Prozent der Anfragen an Workers KV fehlschlugen, sobald der Zugriff auf das zentrale Speichersystem nötig war. Zwar konnten einige Daten aus dem Cache bedient werden, jedoch führte der Ausfall in vielen Bereichen zu Fehlern mit HTTP-Statuscodes 500 und 503, was auf interne Serverfehler beziehungsweise vorübergehende Nichtverfügbarkeit hinweist.
Besonders gravierend war, dass der Ausfall nicht auf einen Angriff zurückzuführen war, sondern auf infrastrukturelle Schwächen, was bei vielen Cloud-Diensten eine fundamentale Herausforderung darstellt. Im Bereich Cloudflare Access, das für Authentifizierung und Zugriffskontrolle zentraler Anwendungen zuständig ist, kam es zu einem vollständigen Ausfall der personenbezogenen Authentifizierungsprozesse. Identitätsbasierte Logins waren unmöglich, was das Arbeiten und den Zugang für viele Nutzer erheblich einschränkte. Andere Authentifizierungsmethoden ohne KV-Abhängigkeit blieben funktionsfähig, was eine gewisse Abschwächung des Ausfalls ermöglichte. Der Gateway-Dienst war ebenfalls betroffen, vor allem bei DNS-over-HTTPS-Anfragen mit Identitätsabhängigkeit.
Proxy-Funktionen und Verschlüsselung über TLS konnten zeitweilig nicht genutzt werden, da Gateway seine Zugriffsregeln auf Worker KV stützt und bei Ausfall seiner Datenquellen in den Sicherheitsmodus „fail closed“ wechselte, um unerlaubten Datenverkehr zu verhindern. Auch WARP, das sichere VPN-Angebot von Cloudflare, konnte keine neuen Geräteregistrierungen oder Verbindungen ermöglichen. Bestehende Sessions waren ebenfalls beeinträchtigt, was insbesondere bei Unternehmen, die auf Zero Trust Netzwerke setzen, zu spürbaren Einschränkungen führte. Parallel dazu war die Cloudflare-Dashboardplattform betroffen, weshalb Admins häufig nicht auf ihre Verwaltungskonsolen zugreifen konnten. Die Login-Funktionen scheiterten auf verschiedenen Wegen, darunter Standardanmeldungen, Einmal-Logins per SSO und Login über Drittanbieter.
Die Herausforderungen verteilten sich auf weitere Dienste wie die Challenge- und Turnstile-Plattform, die zur Bot-Abwehr dienen. Hier kam es zu erhöhten Fehlerquoten bei API-Anfragen, was zeitweise eine geschwächte Token-Verifikation ermöglichte. Trotz dieser Schwäche war die Erkennung und Abwehr von Bots nicht beeinträchtigt, was einen weiteren Schutzlayer darstellte. Auch die Dienste rund um Medien wie Images und Stream zeigten deutliche Leistungseinbußen. Uploads und die Bereitstellung von Videoinhalten waren stark beeinträchtigt, was evidenziert, wie tiefgreifend die Worker KV-Funktionalität Cloudflares Servicearchitektur durchdringt.
Gleichzeitig waren neu initiierte Browser-Isolation-Sessions nicht möglich, da sie von Gateway- sowie Access-Diensten abhängen. Der Ausfall hatte nicht nur technische Auswirkungen, sondern verdeutlicht auch die Komplexität und das Risiko, die durch die intensive Abhängigkeit von miteinander vernetzten Cloud-Diensten entstehen. Beispielsweise zeigen die Verzögerungen und Fehlerquoten bei den D1-Datenbanken, Durable Objects und Queues, wie sich eine Störung elegant als Kaskadeneffekt durch das gesamte Ökosystem ziehen kann. Die Incident-Timeline illustriert zudem den Umgang des Unternehmens mit solchen Krisen. Bereits kurz nach Erkennung der Störung wurden die Ursachen analysiert, Prioritäten der Incident Response auf das höchste Level erhöht und Gegenmaßnahmen eingeleitet.
Teams versuchten, durch temporäre Arcitekturanpassungen, etwa das Umschalten auf alternative Speichersysteme, den Einfluss zu minimieren. Schließlich erholten sich die Dienste Schritt für Schritt parallel zur Wiederherstellung der Drittanbieter-Infrastruktur. Als Folge zieht Cloudflare weitreichende Lehren aus dem Vorfall. Neben der Beschleunigung der Umgestaltung von Workers KV zur Eliminierung kritischer Single Points of Failure plant Cloudflare die Einführung von Mechanismen, die progressive Wiederinbetriebnahmen während Infrastrukturproblemen ermöglichen. Eine gestiegene Redundanz und mehr Unabhängigkeit von Drittanbietern sollen in Zukunft die Resilienz deutlich erhöhen.
Die Bedeutung einer solch robusten Infrastruktur zeigt sich gerade für Unternehmen und Organisationen, die heutzutage auf umfassende Cloud-Dienste für ihre IT-Sicherheit und Betriebsfähigkeit setzen. Der Vorfall untermauert, wie wichtig investive Maßnahmen und Architekturentscheidungen in der Cloud sind, um Ausfälle zu vermeiden und das Vertrauen der Kunden langfristig zu erhalten. Insgesamt steht der Vorfall als mahnendes Beispiel im technologischen Umfeld, wie kritisch die Wahl und Umsetzung von Cloud-Infrastrukturen ist. Trotz fortschrittlicher Technologien kann ein einziger Schwachpunkt, etwa eine zentrale Speicherlösung bei einem Drittanbieter, gravierende Auswirkungen auf ein globales Netzwerk haben. Cloudflare zeigt durch die transparente Kommunikation und die schnelle Reaktion, wie professionelles Incident Management in solch komplexen Situationen aussehen kann.
Diese Ereignisse regen die gesamte Branche an, bestehende Abhängigkeiten kritisch zu untersuchen, die Cloud-Architekturen widerstandsfähiger zu gestalten und Innovationen voranzutreiben, die solche Vorfälle in Zukunft verhindern. Dabei bleibt die Cloud-Technologie ein Eckpfeiler für die digitale Infrastruktur, deren Sicherheit und Stabilität von allen Marktteilnehmern gemeinsam getragen werden müssen.