Google steht im Mittelpunkt intensiver Debatten über die Nutzung von Webinhalten zur Trainingsdatengrundlage seiner KI-gesteuerten Suchtechnologien. Eine kürzlich vor Gericht gegebene Aussage eines DeepMind-Vizepräsidenten hat nun offengelegt, dass Googles Such-KI-Modelle Suchinhalte aus dem gesamten Internet verwenden können, selbst wenn Publisher sich dagegen entscheiden, ihre Daten für KI-Trainings zuzulassen. Dieses Vorgehen wirft eine Reihe von Fragen auf, die von Urheberrecht und Datenschutz bis hin zu Wettbewerb und Transparenz reichen. Die Funktionsweise der KI-gestützten Suchergebnisse verändert sich grundlegend. Google fasst mittlerweile die Antworten auf Suchanfragen in KI-generierten Übersichtsgrafiken zusammen, die direkt an oberster Stelle der Suchergebnisse erscheinen.
Diese Art der Darstellung führt dazu, dass Nutzer seltener auf die ursprünglichen Webseiten klicken, was für unabhängige Publisher negative finanzielle Folgen haben kann. Die Inhalte, auf denen diese KI-Antworten basieren, stammen jedoch oft von genau jenen Websites, deren Betreiber versuchen, die Nutzung ihrer Daten zu kontrollieren oder zu unterbinden. Im Kern dreht sich der Streit um die sogenannte Opt-out-Möglichkeit für Publisher. Google hat erklärt, dass Publisher nur dann verhindern können, dass ihre Inhalte für das Training der Such-KI verwendet werden, wenn sie gleichzeitig auch das Indexieren ihrer Seiten durch die Suchmaschine komplett untersagen. Das bedeutet, dass ein einfaches Verbot zur KI-Nutzung nicht ausreicht, um ausgenommen zu werden.
Diese Einschränkung basiert auf dem etablierten Web-Standard namens robots.txt, einer Datei, die auf Websites platziert wird und Webcrawlern vorgibt, ob und welche Teile der Website durchsucht und indexiert werden dürfen. Wenn ein Publisher von der Indexierung ausgeschlossen ist, wird auch das Training der Such-KI mit seinen Daten blockiert. Ohne diese Maßnahme jedoch fließen die Inhalte in die KI-Modelle ein, unabhängig von einer separaten KI-Nutzungsopt-out-Anfrage. Diese Praxis hat nicht nur technische, sondern auch rechtliche und ethische Dimensionen.
Bei einer gerichtlichen Anhörung im Rahmen eines laufenden Kartellverfahrens gegen Google in den USA gab Eli Collins, Vizepräsident bei Google DeepMind, eine detaillierte Erklärung ab. Er bestätigte, dass die Suchabteilung von Google Zugriff auf Daten hat, die über das hinausgehen, was DeepMind für seine eigenen KI-Trainings verwendet. So könne die Suchorganisation die großen KI-Modelle mit Webinhalten trainieren, selbst falls die Publisher für DeepMind eine Sperre für Trainingsdaten gesetzt hätten. Als Beispiel wurde eine interne Präsentation diskutiert, die zeigt, dass Google von 160 Milliarden Datenabschnitten (so genannten Token) 80 Milliarden nach Herausfiltern der Publisher-Opt-outs entfernt habe. Dies bedeutet zwar eine Verringerung von 50 Prozent der potenziellen Trainingsdaten, aber immer noch eine enorme Datenmenge, die zur Verbesserung der Such-KI eingesetzt wird.
Darüber hinaus kann Google weitere Datenquellen wie Suchverlaufs-Sitzungsdaten oder YouTube-Videos zur Optimierung seiner Modelle nutzen. Diese umfassende Datenbasis von Google bringt einen Wettbewerbsvorteil, der von der US-Justiz als monopolistisch eingestuft wird. Die Ermittler fordern daher nicht nur strukturelle Veränderungen hin zu mehr Wettbewerb auf dem Suchmarkt, sondern auch Einschränkungen für Google bei der Nutzung von Standard-Partnerschaften, etwa als voreingestellte Suchmaschine. Dabei sollen auch Googles AI-Produkte wie die KI-gestützte Suchübersicht Gemini reguliert werden. Die Frage nach der Kontrolle über Webinhalte im Zeitalter von KI ist von grundlegender Bedeutung.
Während Verlage und Website-Betreiber auf Einnahmen durch Klicks und Werbung angewiesen sind, greift die künstliche Intelligenz zunehmend direkt auf ihre Daten zu, um Nutzer sofort mit Antworten zu versorgen. Dies führt dazu, dass der ursprüngliche Informationsanbieter an Reichweite und Umsatz verliert, obwohl er maßgeblich zum Informationsangebot beiträgt. Google argumentiert, dass alternative Wege zur Monetarisierung und zur Wahrung von Rechteinhabern bestehen. Zudem gebe es für Publisher wirksame Tools zur Kontrolle ihrer Inhalte in der Suche, die sich auf bewährte technische Standards stützen. Letztlich sieht Google seine KI-Produkte auch als Service zur Verbesserung der Nutzererfahrung, der den Zugang zu Informationen erleichtert und beschleunigt.
Technisch basiert die Nutzung von Webinhalten für das KI-Training auf der Aufbereitung riesiger Textmengen zu Daten, die KI-Modelle verstehen und verarbeiten können. Diese Trainingsdaten sind essenziell, um umfangreiche Sprachmodelle wie Gemini zu entwickeln, die komplexe Fragen beantworten und kontextbezogene Zusammenfassungen liefern können. Die Qualität und Vielfalt der Trainingsquellen wirken sich dabei direkt auf die Effektivität der KI aus. Kritiker hingegen warnen vor einer schleichenden Übermacht großer Technologiekonzerne, die mit ihren umfassenden Datenbeständen und KI-Fähigkeiten die Marktdynamik beeinflussen und gleichzeitig die Rechte einzelner Inhaltsersteller unterminieren. Die Diskussionen auf gesetzlicher und regulatorischer Ebene spiegeln die Suche nach einem Gleichgewicht wider zwischen Innovation, Datenschutz, Urheberrecht und fairen Wettbewerbsbedingungen.
Auch international folgen verschiedene Regulierungsbehörden genau, wie Google und andere Unternehmen KI-Modelle mit Webdaten trainieren. Einige Länder investieren in alternative Suchtechnologien und fördern Open-Source-Lösungen, um die Abhängigkeit von großen Konzernen zu verringern. Gleichzeitig diskutieren Experten über neue Lizenzmodelle und Datenzugangsregeln, welche die Interessen aller Beteiligten – von Nutzern über Publisher bis hin zu Technologieentwicklern – berücksichtigen. Für Publisher bleibt es entscheidend, ihre robots.txt-Dateien korrekt zu konfigurieren, um zumindest den Indexierungszugriff zu steuern.
Gleichwohl zeigt sich, dass reine Opt-out-Erklärungen für KI-Trainingsnutzen an der Realität der Datenverwertung bislang vorbeigehen. Neue Richtlinien und technische Mechanismen könnten notwendig sein, um zukünftig eine differenzierte Kontrolle über die Verwendung von Webinhalten für KI-Trainings zu ermöglichen. Nutzer profitieren zwar von schnelleren, prägnanteren Antworten durch KI, müssen sich gleichzeitig aber bewusst sein, dass sie damit möglicherweise zum Teil ohne direkte Klicks auf Originalinhalte bleiben. Dies hat langfristige Folgen für die Vielfalt von Online-Informationsquellen und die finanzielle Basis des freien Internets. Zusammenfassend lässt sich sagen, dass Google beim KI-Training auf eine enorme Menge an Webinhalten zurückgreift, auch wenn einzelne Publisher dies eigentlich verhindert sehen möchten.
Die starre Verknüpfung von Webindexierung und KI-Training erschwert den Schutz von Urheberrechten und geschützten Inhalten. Die Debatte um faire Nutzung, Datenhoheit und den Einfluss großer Technologieunternehmen wird damit noch bedeutender und betrifft alle Akteure im digitalen Ökosystem. Die kommenden Monate und Jahre werden zeigen, wie Gesetzgeber, Gerichte und die Industrie diesen Herausforderungen begegnen und wie sich das Kräfteverhältnis zwischen Innovation und Rechtewahrung neu austariert.