In den letzten Jahren hat die Nachfrage nach Daten zum Trainieren von KI-Modellen signifikant zugenommen. Dabei spielen sogenannte Bots eine zentrale Rolle: automatisierte Programme, die große Mengen an Webinhalten sammeln, um sie für künstliche Intelligenz zu nutzen. Während diese Praxis für die Entwicklung moderner KI-Systeme unerlässlich ist, bringt sie gleichzeitig gravierende Probleme für Webseitenbetreiber mit sich – allen voran Museen, Bibliotheken, Archive und Galerien, die ihre Kultursammlungen digital zugänglich machen wollen. Der jüngste Bericht des GLAM-E Labs, einer Forschungsinitiative der Universität Exeter und der New York University, offenbart, dass diese Institutionen durch die Masse an KI-Bots traumatische Belastungen erfassen, die ihre digitale Infrastruktur überfordern und ihre Inhalte gefährden.Die gemeinnützigen und kulturellen Einrichtungen, die oft mit begrenzten Mitteln arbeiten, sind zunehmend mit einem massiven Anstieg des Webtraffics konfrontiert, der von den KI-Bots ausgelöst wird.
Dabei handelt es sich um automatisierte Webcrawler, die systematisch Inhalte herunterladen, um so Datensätze für die Ausbildung von AI-Modellen zu erstellen. Obwohl das Web grundsätzlich ein offener Raum für den Austausch von Wissen sein soll, stellt das aggressive Absaugen von Daten aus den digitalen Sammlungen dieser Institutionen eine enorme technische und finanzielle Herausforderung dar.Untersuchungen zeigen, dass nahezu 90 Prozent der befragten Institutionen stärkere Zugriffe verzeichnen, die sie auf KI-Bots zurückführen. Teilweise erkennen die Einrichtungen die Bots erst, wenn es zu spürbaren Problemen wie Serverüberlastungen oder sogar dem zeitweisen Ausfall der Online-Angebote kommt. Diese extremen Belastungen verursachen erhebliche Mehrkosten, die viele Organisationen nicht ohne weiteres stemmen können.
Die zusätzlichen Investitionen in Serverkapazitäten, modernere Firewalls und zusätzliche IT-Fachkräfte sind für viele kulturelle Einrichtungen keine nachhaltige Lösung.Ein wesentlicher Knackpunkt ist, dass viele dieser KI-Bots nicht auf die etablierten Kontrollmechanismen wie die robots.txt-Datei achten, welche eigentlich Webseitenbetreibern die Möglichkeit gibt, bestimmte Bereiche für Crawler zu sperren oder einzuschränken. Die freiwilligen Verhaltensrichtlinien bleiben in diesem Kontext weitgehend wirkungslos, da zahlreiche skrupellose Bots diese Vorgaben ignorieren oder sich als andere legitime Crawler ausgeben. Gleichzeitig sind einige Bots durchaus legitim, etwa solche, die Webseiten für Suchmaschinen indexieren und so die Auffindbarkeit der digitalen Bestände unterstützen.
Eine vollständige Blockade sämtlicher Bots ist daher keine praktikable Option, wenn das Ziel der kulturellen Institutionen die größtmögliche öffentliche Zugänglichkeit ihrer Inhalte ist.Der Bericht des GLAM-E Labs stellt außerdem heraus, dass die Wurzeln der Probleme unterschiedlich wahrgenommen werden. Einige Organisationen berichten bereits seit 2021 von einem starken Anstieg der KI-Bot-Aktivitäten, während andere erst in diesem Jahr einen signifikanten Anstieg beobachten. Dies zeigt nicht nur den dynamischen und rasanten Wandel im Umgang mit Online-Daten, sondern auch die Schwierigkeit, zeitnah und angemessen auf technische Herausforderungen zu reagieren.Die Problematik ist jedoch nicht auf die Kulturinstitutionen beschränkt.
Ähnliche Beschwerden wurden von anderen wichtigen Online-Organisationen wie der Wikimedia Foundation, dem Software-Projekt Sourcehut oder der DIY-Reparaturplattform iFixit geäußert. Generell zeigt sich ein Trend, dass KI-Bots mittlerweile eine derart invasive Rolle im Internet einnehmen, dass die Belastungen für Webseitenbetreiber massiv steigen und gleichzeitig der Dialog zwischen den Betreibern und den Unternehmen hinter den Bots unzureichend ist.Ein weiterer Bericht der Confederation of Open Access Repositories (COAR) bestätigt die Ergebnisse des GLAM-E Labs. Demnach erleben über 90 Prozent der befragten Institutionen aggressive Bot-Angriffe, die häufig zu einer spürbaren Verlangsamung der Server führen oder gar temporäre Ausfälle verursachen. Auch wenn die definitive Zweckbestimmung der Bots nicht immer mit letzter Sicherheit festgestellt werden kann, gehen Experten davon aus, dass der Großteil der Aktivitäten darauf ausgerichtet ist, Daten für generative KI-Modelle zu ernten.
Angesichts dieser Entwicklungen wächst der Ruf nach einer verantwortungsvolleren und nachhaltigeren Interaktion der KI-Anbieter mit den Inhabern digitaler Ressourcen. Die Forderung lautet, dass nicht nur technische Gegenmaßnahmen zum Einsatz kommen sollten, sondern auch rechtliche und ethische Rahmenbedingungen stärker berücksichtigt werden müssen. Nur so lässt sich verhindern, dass wertvolle kulturelle Bestände durch die Überbeanspruchung der digitalen Infrastruktur langfristig verloren gehen oder nur noch eingeschränkt zugänglich sind.Dabei stehen Technologieunternehmen, die die KI-Modelle entwickeln, in der Verantwortung, Lösungen zu entwickeln, die den Bedarf an hochwertigen Trainingsdaten befriedigen, ohne den digitalen Mittelstand bzw. kulturelle Einrichtungen auszubeuten.
Dies könnte beispielsweise durch Technologie erfolgen, die Bot-Anfragen besser authentifiziert, Quoten für das Crawlen festlegt oder Partnerschaften zur legitimen Datennutzung etabliert. Zudem könnten alternative Wege der Datenerhebung diskutiert werden, die über die derzeitigen, oftmals ungeregelten Massenabfragen hinausgehen.Weiterhin bleibt das Spannungsfeld zwischen dem Wunsch nach freiem öffentlichen Zugang und dem Schutz der digitalen Ressourcen bestehen. Kulturelle Einrichtungen sind bemüht, ihr Wissen und ihre Bestände möglichst allen interessierten Menschen online anzubieten. Zugleich müssen sie sicherstellen, dass ihre Websites stabil, nachhaltig und finanziell tragbar betrieben werden können.
Login-Schranken oder andere Zugangsbeschränkungen sind zwar technisch denkbar, stehen aber im Widerspruch zur Aufgabenstellung, frei zugängliche Bildungs- und Kulturerlebnisse zu ermöglichen.Ein zusätzlicher Aspekt betrifft die rechtliche Lage bezüglich der Urheberrechte und Eigentumsrechte der von den Bots gesammelten Inhalte. Gerade bei Kulturgütern, die oftmals durch Urheberrechte geschützt sind oder einen direkt herkunftsgebundenen Wert haben, bedarf es klarer Regelungen, wie diese Daten von KI-Systemen genutzt werden dürfen. Die rechtliche Beratung und die politische Gesetzgebung sind gefordert, diesen komplexen Fragen angemessen Rechnung zu tragen.In der Gesamtschau zeigt sich, dass die aktuelle Entwicklung ein klarer Weckruf für die gesamte digitale Gemeinschaft ist.
Die Verfügbarkeit von qualitativ hochwertigen Trainingsdaten ist für die Zukunft der KI essentiell, doch darf dies nicht auf Kosten des kulturellen Erbes und der Stabilität digitaler Infrastrukturen geschehen. Es gilt, neue Formen der Zusammenarbeit zwischen den Betreibern von digitalen Sammlungen und den KI-Anbietern zu etablieren, um eine Balance zwischen öffentlichem Nutzen und technischem Schutz zu gewährleisten.Langfristig sind innovative Ansätze gefragt, die Datenschutz, Zugänglichkeit, technische Machbarkeit und wirtschaftliche Tragfähigkeit unter einen Hut bringen. Nur durch gegenseitiges Verständnis und gemeinsame Standards kann die wachsende Last, die von KI-Bots erzeugt wird, dauerhaft gemindert werden. Kulturinstitutionen benötigen zudem stärkere Unterstützung auf politischer und gesellschaftlicher Ebene, um ihre digitale Mission auch im Zeitalter der künstlichen Intelligenz ohne Qualitätsverluste fortführen zu können.
Abschließend lässt sich festhalten, dass die Flut an KI-Bots für Webseitenbetreiber eine der großen Herausforderungen des digitalen Zeitalters darstellt. Kulturinstitutionen, die online ihre Schätze zugänglich machen, sind in dieser Entwicklung besonders betroffen und benötigen pragmatische Lösungen, die technisch, rechtlich und wirtschaftlich sinnvoll sind. Die Verantwortung, einen nachhaltigen und fairen Umgang mit den Daten dieser digitalen Kulturgüter zu gewährleisten, liegt sowohl bei den Entwicklern der KI als auch bei den politischen Entscheidungsträgern und der Gesellschaft insgesamt. Nur mit gegenseitigem Respekt und innovativen Konzepten lässt sich die digitale Zukunft im Einklang mit der Bewahrung unseres kulturellen Erbes gestalten.