Cloudflare, einer der weltweit führenden Anbieter von Netzwerksicherheits- und Performance-Diensten, hat im Juni 2025 eine bedeutende Störung bei der Authentifizierung seiner Services erlebt. Diese Störung führte zu einer vorübergehenden Unterbrechung mehrerer Kernfunktionen, die von Millionen von Nutzern und Unternehmen weltweit verwendet werden. Die genaue Untersuchung des Vorfalls, die betroffenen Dienste und die umfangreichen Reaktionsmaßnahmen von Cloudflare werfen wichtige Fragen auf, wie solche Vorfälle entstehen, welche Konsequenzen sie haben und welche Schritte zur Vermeidung zukünftiger Ausfälle unternommen werden können. Zu Beginn des Vorfalls meldete Cloudflare eine Authentifizierungsstörung, die sich hauptsächlich auf „Access“, die Zero Trust-Lösung von Cloudflare zur sicheren Zugangskontrolle, und „WARP“, die VPN-ähnliche Datenschutzfunktion, auswirkte. Die Störung zeigte sich durch intermittierende Fehler beim Login und der Nutzung dieser Dienste.
Im Laufe der Ursachensuche identifizierten die Cloudflare-Ingenieure als hauptsächliche Ursache einen Ausfall in ihrer Workers KV-Service-Infrastruktur. Workers KV, ein verteiltes Key-Value-Datenspeichersystem, ist essentiell für die Speicherung und Verteilung von Daten in zahlreichen Cloudflare-Produkten. Da dieser Dienst von einem Drittanbieter abhängt, der ebenfalls eine Störung erlebte, geriet das gesamte Ecosystem in eine Produktkette instabiler Dienste. Die Auswirkungen dieses Ausfalls waren weitreichend. Neben Access und WARP waren weitere Dienste wie Browser Isolation, Browser Rendering, Durable Objects (speziell solche, die auf SQLite basieren), Realtime Services, Workers AI, Stream, Teile des Dashboards, Turnstile und AI Gateway betroffen.
Für Unternehmen und Entwickler, die auf diese Services angewiesen sind, bedeutete dies erhebliche Probleme im täglichen Betrieb, von der eingeschränkten Nutzeranmeldung bis hin zur fehlenden Verfügbarkeit kritischer Sicherheits- und Performance-Tools. Cloudflare reagierte schnell und proaktiv. Bereits wenige Minuten nach Erkennung der Störung wurde die Öffentlichkeit über den Status informiert. Innerhalb weniger Stunden konnten die technischen Teams die Kernfunktionalitäten Schritt für Schritt wiederherstellen. Dabei war die Wiederherstellung der Workers KV-Service der Schlüssel zum Zurückbringen der abhängigen Produkte.
Cloudflare identifizierte das Problem als Folge einer externen Störung, betonte jedoch die eigene Verantwortung für die schnelle Problemerkennung und das Krisenmanagement. Die Authentifizierungsstörung erinnerte die Industrie erneut daran, wie eng vernetzt moderne Cloud-Infrastrukturen sind und wie anfällig sie für Probleme in einem einzelnen Abhängigkeitsbereich sein können. Besonders deutlich wurde, dass Dienste wie Cloudflare, die auf zahlreiche Drittanbieter und komplexe verteilte Systeme angewiesen sind, eine strategische Redundanz und frühzeitige Risikoerkennung benötigen, um die Stabilität ihrer Angebote zu gewährleisten. Für Anwender bedeutet der Vorfall eine Warnung, die eigene Infrastruktur kritisch zu prüfen und Ausfallrisiken breit zu streuen. Unternehmen sollten ihre Sicherheits- und Performance-Abhängigkeiten genau kennen und zusätzlich eigene Backup- und Wiederherstellungsstrategien entwickeln.
Auch die Kommunikation mit Kunden im Falle von Ausfällen ist zentral, um Vertrauen zu erhalten. Cloudflare hat in der Folge des Vorfalls umfassende Maßnahmen zur Verbesserung seiner Widerstandsfähigkeit angekündigt. Dazu zählen der Ausbau eigener Speichersysteme, die Verringerung der Abhängigkeit von Drittanbietern, eine verbesserte Überwachung der Systemintegrität sowie intensivere Tests unter realen Störszenarien. Zudem soll die Transparenz gegenüber den Kunden in Bezug auf Vorfälle erhöht werden, um das Vertrauen auch in zukünftigen Krisenlagen zu festigen. Abschließend zeigt der Cloudflare-Ausfall exemplarisch, wie wichtig ein robustes, gut abgesichertes und transparentes Cloud-Service-Netzwerk heutzutage ist.