Seit Anfang 2024 sind die Wikimedia-Projekte mit einem starken Anstieg der Nachfrage nach ihren Inhalten konfrontiert. Besonders betroffen ist Wikimedia Commons, die zentrale Plattform für mehr als 144 Millionen Bilder, Videos und andere Mediendateien, die von der weltweiten Freiwilligengemeinschaft erstellt und verwaltet werden. Diese Entwicklung stellt die Infrastruktur der Wikimedia Foundation vor neue Herausforderungen und beeinflusst die Art und Weise, wie Wissen bereitgestellt und konsumiert wird. Die Wikimedia-Projekte sind die weltweit größte Sammlung offenen Wissens und dienen Millionen von Menschen täglich als verlässliche Quelle für Informationen. Neben den menschlichen Nutzern bedienen die Seiten auch eine Vielzahl von Unternehmen, die automatisch auf die Inhalte zugreifen.
Historisch gesehen war das vor allem für Suchmaschinen eine wichtige Quelle, um ihre Suchergebnisse mit verifizierten Informationen anzureichern. Dieses Zusammenspiel brachte häufig neue Nutzer zu den Wikimedia-Seiten zurück. Mit dem Aufkommen und der zunehmenden Verbreitung von Künstlicher Intelligenz, insbesondere großen Sprachmodellen, verändert sich dieses Nutzungsverhalten jedoch grundlegend. Die Wikimedia Foundation beobachtet seit Anfang 2024 eine exponentielle Zunahme von automatisierten Abrufen, die meist von sogenannten Scraping-Bots stammen. Diese Bots sammeln systematisch Inhalte, vor allem Bilder und andere Mediendateien von Wikimedia Commons, um sie als Trainingsdaten für KI-Modelle oder andere Anwendungen zu verwenden.
Während die Inhalte frei und offen zugänglich sind, entstehen durch diesen umfangreichen und automatisierten Zugriff nicht unerhebliche Lasten für die technische Infrastruktur. Ein anschauliches Beispiel lieferte der plötzliche Anstieg der Zugriffe auf die Seite des ehemaligen US-Präsidenten Jimmy Carter unmittelbar nach dessen Tod im Dezember 2024. Mit über 2,8 Millionen Seitenaufrufen an einem Tag und der parallelen Nutzung eines längeren Videos aus seiner Präsidentschaftsdebatte wurde der Netzwerkverkehr nahezu verdoppelt. Obwohl das Wikimedia-Team solche Verkehrsspitzen durch menschliches Nutzerverhalten gut handhaben kann, führte diese Situation zu einer temporären Überlastung der Verbindungen einiger Server, was Ladeverzögerungen für manche Nutzer verursachte. Dies deutet darauf hin, dass, obwohl die Systeme grundsätzlich gut für hohe Lasten ausgelegt sind, der zusätzliche Druck durch automatisierte Zugriffe die Belastungsgrenzen ausweiten.
Der wesentliche Treiber für die erhöhte Bandbreitennutzung ist jedoch nicht die menschliche Leserschaft, sondern automatisierte Zugriffe. Seit Anfang 2024 verzeichnet die Wikimedia Foundation eine Steigerung des gesamten Multimedia-Datenverkehrs um 50 Prozent, der fast ausschließlich durch Bots verursacht wird, welche die umfangreiche Datenbank mit offenen Bildern und anderen Mediendateien durchforsten und herunterladen. Diese Entwicklung stellt eine neue Dimension an Belastung dar, die über normale Besucherspitzen hinausgeht. Die technische Infrastruktur von Wikimedia basiert auf einem Netzwerk global verteilter Rechenzentren, die Inhalte für Leser weltweit möglichst schnell bereitstellen sollen. Inhalte, die häufig abgerufen werden, werden lokal zwischengespeichert, was die Zugriffszeiten verkürzt und gleichzeitig die Belastung der zentralen Server verringert.
Im Gegensatz zu menschlichen Nutzern, die tendenziell wiederholt spezifische und oft ähnliche Inhalte aufrufen, agieren Crawler-Bots anders: Sie navigieren systematisch durch große Mengen an Seiten, auch weniger populäre oder selten abgerufene Inhalte. Dadurch verursachen diese sogenannten „Bulk-Leseanfragen“ häufiger Aktivität auf den Hauptrechenzentren, was die Kosten und Belastungen im Betrieb erhöht. Während der Migration von Wikimedia-Systemen zeigte sich zudem, dass mindestens 65 Prozent des ressourcenintensivsten Traffics auf der Website von Bots stammt. Das ist deutlich höher als der Anteil der Bot-Seitenaufrufe insgesamt, der bei etwa 35 Prozent liegt. Diese unverhältnismäßige Nutzung belastet nicht nur die Infrastruktur, sondern erfordert auch fortwährende Maßnahmen durch die Site Reliability Teams, um Überlastungen zu verhindern und die Nutzererfahrung nicht zu beeinträchtigen.
Dieses Problem ist allerdings kein Einzelphänomen der Wikimedia-Projekte. Die zunehmende Nutzung von KI-Technologien hat eine globale Jagd auf verifizierte, menschlich erstellte Inhalte ausgelöst. Viele Websites und Open-Source-Projekte berichten von ähnlichen Schwierigkeiten, da Crawler nahezu alle URLs erfassen und abfragen. Innerhalb der Wikimedia-Infrastruktur werden nicht nur die Benutzerinhalte, sondern auch Entwicklerressourcen wie Code-Review-Plattformen oder Bug-Tracker von Bots in großem Umfang abgerufen. Somit bindet das Crawler-Verhalten erhebliche Ressourcen, die andernfalls zur Weiterentwicklung und zum Support eingesetzt werden könnten.
Angesichts dessen ist es für die Wikimedia Foundation essenziell, einen verantwortungsvollen Umgang mit der Infrastruktur zu etablieren. Die Bereitstellung von Wissen als Service wird zunehmend zu einer Gratwanderung zwischen Offenheit und technischer Nachhaltigkeit. Es gilt, die freie Verfügbarkeit der Inhalte beizubehalten, gleichzeitig aber automatische Zugriffe so zu regulieren, dass eine dauerhafte und stabile Betriebsumgebung gewährleistet bleibt. Die Wikimedia Foundation arbeitet daher daran, nachhaltige Zugangsmöglichkeiten für Entwickler und Wiederverwerter zu schaffen. Dies soll durch klare Richtlinien, technische Maßnahmen und unterstützte Schnittstellen erfolgen, die Anreize für eine verantwortungsvolle Nutzung bieten und gleichzeitig unnötige Belastungen reduzieren.
Die Ziele sind Teil des geplanten Jahresprogramms, das unter dem Schlagwort „Responsible Use of Infrastructure“ die Balance zwischen freiem Zugang und Schutz der Ressourcen anstrebt. Für die Zukunft bedeutet dies, dass die Wikimedia-Projekte nicht nur technologisch weiter ausgebaut werden müssen, sondern auch die Community und externe Nutzer stärker in Lösungen für eine nachhaltige Infrastruktur eingebunden werden. Gleichzeitig ist es wichtig, dass die Öffentlichkeit das Verständnis für die technischen und finanziellen Herausforderungen einer solchen Wissensplattform vertieft. Die zunehmenden Anforderungen zeigen auf eindrückliche Weise, wie wertvoll die von der Freiwilligengemeinschaft erzeugten Inhalte sind. Sie bilden eine unverzichtbare Grundlage für die Wissensgesellschaft und innovative Technologien wie Künstliche Intelligenz.
Die nachhaltige Sicherung dieser Ressourcen erfordert jedoch ein Zusammenspiel von Technologie, Community-Engagement und verantwortungsbewusstem Umgang mit digitalen Ressourcen. In einem Zeitalter, in dem Daten und Wissen zu den zentralen globalen Rohstoffen zählen, ist es entscheidend, dass Projekte wie Wikimedia auch in Zukunft als stabile, zugängliche und offene Quellen bestehen bleiben. Die Herausforderungen durch automatisierte Crawler verdeutlichen dabei eindrucksvoll die Notwendigkeit, technische Infrastruktur ständig den verändernden Anforderungen anzupassen und neue Konzepte für den Zugang zu entwickeln. Nur so kann die Mission, Wissen frei und für alle zugänglich zu machen, langfristig erfolgreich umgesetzt werden.