Virtuelle Realität Krypto-Startups und Risikokapital

Wie Google Such-KI trotz Opt-out von Publishern mit Webinhalten trainiert

Virtuelle Realität Krypto-Startups und Risikokapital
Google can train search AI on web content even if publishers opt out

Ein Blick auf Googles kontroverse Praxis, Such-KI mit Inhalten zu trainieren, selbst wenn Website-Betreiber das Trainieren ihrer Daten ablehnen. Welche Auswirkungen hat das auf Publisher, Nutzer und den Wettbewerb im digitalen Ökosystem.

Google steht im Mittelpunkt intensiver Debatten über die Nutzung von Webinhalten zur Trainingsdatengrundlage seiner KI-gesteuerten Suchtechnologien. Eine kürzlich vor Gericht gegebene Aussage eines DeepMind-Vizepräsidenten hat nun offengelegt, dass Googles Such-KI-Modelle Suchinhalte aus dem gesamten Internet verwenden können, selbst wenn Publisher sich dagegen entscheiden, ihre Daten für KI-Trainings zuzulassen. Dieses Vorgehen wirft eine Reihe von Fragen auf, die von Urheberrecht und Datenschutz bis hin zu Wettbewerb und Transparenz reichen. Die Funktionsweise der KI-gestützten Suchergebnisse verändert sich grundlegend. Google fasst mittlerweile die Antworten auf Suchanfragen in KI-generierten Übersichtsgrafiken zusammen, die direkt an oberster Stelle der Suchergebnisse erscheinen.

Diese Art der Darstellung führt dazu, dass Nutzer seltener auf die ursprünglichen Webseiten klicken, was für unabhängige Publisher negative finanzielle Folgen haben kann. Die Inhalte, auf denen diese KI-Antworten basieren, stammen jedoch oft von genau jenen Websites, deren Betreiber versuchen, die Nutzung ihrer Daten zu kontrollieren oder zu unterbinden. Im Kern dreht sich der Streit um die sogenannte Opt-out-Möglichkeit für Publisher. Google hat erklärt, dass Publisher nur dann verhindern können, dass ihre Inhalte für das Training der Such-KI verwendet werden, wenn sie gleichzeitig auch das Indexieren ihrer Seiten durch die Suchmaschine komplett untersagen. Das bedeutet, dass ein einfaches Verbot zur KI-Nutzung nicht ausreicht, um ausgenommen zu werden.

Diese Einschränkung basiert auf dem etablierten Web-Standard namens robots.txt, einer Datei, die auf Websites platziert wird und Webcrawlern vorgibt, ob und welche Teile der Website durchsucht und indexiert werden dürfen. Wenn ein Publisher von der Indexierung ausgeschlossen ist, wird auch das Training der Such-KI mit seinen Daten blockiert. Ohne diese Maßnahme jedoch fließen die Inhalte in die KI-Modelle ein, unabhängig von einer separaten KI-Nutzungsopt-out-Anfrage. Diese Praxis hat nicht nur technische, sondern auch rechtliche und ethische Dimensionen.

Bei einer gerichtlichen Anhörung im Rahmen eines laufenden Kartellverfahrens gegen Google in den USA gab Eli Collins, Vizepräsident bei Google DeepMind, eine detaillierte Erklärung ab. Er bestätigte, dass die Suchabteilung von Google Zugriff auf Daten hat, die über das hinausgehen, was DeepMind für seine eigenen KI-Trainings verwendet. So könne die Suchorganisation die großen KI-Modelle mit Webinhalten trainieren, selbst falls die Publisher für DeepMind eine Sperre für Trainingsdaten gesetzt hätten. Als Beispiel wurde eine interne Präsentation diskutiert, die zeigt, dass Google von 160 Milliarden Datenabschnitten (so genannten Token) 80 Milliarden nach Herausfiltern der Publisher-Opt-outs entfernt habe. Dies bedeutet zwar eine Verringerung von 50 Prozent der potenziellen Trainingsdaten, aber immer noch eine enorme Datenmenge, die zur Verbesserung der Such-KI eingesetzt wird.

Darüber hinaus kann Google weitere Datenquellen wie Suchverlaufs-Sitzungsdaten oder YouTube-Videos zur Optimierung seiner Modelle nutzen. Diese umfassende Datenbasis von Google bringt einen Wettbewerbsvorteil, der von der US-Justiz als monopolistisch eingestuft wird. Die Ermittler fordern daher nicht nur strukturelle Veränderungen hin zu mehr Wettbewerb auf dem Suchmarkt, sondern auch Einschränkungen für Google bei der Nutzung von Standard-Partnerschaften, etwa als voreingestellte Suchmaschine. Dabei sollen auch Googles AI-Produkte wie die KI-gestützte Suchübersicht Gemini reguliert werden. Die Frage nach der Kontrolle über Webinhalte im Zeitalter von KI ist von grundlegender Bedeutung.

Während Verlage und Website-Betreiber auf Einnahmen durch Klicks und Werbung angewiesen sind, greift die künstliche Intelligenz zunehmend direkt auf ihre Daten zu, um Nutzer sofort mit Antworten zu versorgen. Dies führt dazu, dass der ursprüngliche Informationsanbieter an Reichweite und Umsatz verliert, obwohl er maßgeblich zum Informationsangebot beiträgt. Google argumentiert, dass alternative Wege zur Monetarisierung und zur Wahrung von Rechteinhabern bestehen. Zudem gebe es für Publisher wirksame Tools zur Kontrolle ihrer Inhalte in der Suche, die sich auf bewährte technische Standards stützen. Letztlich sieht Google seine KI-Produkte auch als Service zur Verbesserung der Nutzererfahrung, der den Zugang zu Informationen erleichtert und beschleunigt.

Technisch basiert die Nutzung von Webinhalten für das KI-Training auf der Aufbereitung riesiger Textmengen zu Daten, die KI-Modelle verstehen und verarbeiten können. Diese Trainingsdaten sind essenziell, um umfangreiche Sprachmodelle wie Gemini zu entwickeln, die komplexe Fragen beantworten und kontextbezogene Zusammenfassungen liefern können. Die Qualität und Vielfalt der Trainingsquellen wirken sich dabei direkt auf die Effektivität der KI aus. Kritiker hingegen warnen vor einer schleichenden Übermacht großer Technologiekonzerne, die mit ihren umfassenden Datenbeständen und KI-Fähigkeiten die Marktdynamik beeinflussen und gleichzeitig die Rechte einzelner Inhaltsersteller unterminieren. Die Diskussionen auf gesetzlicher und regulatorischer Ebene spiegeln die Suche nach einem Gleichgewicht wider zwischen Innovation, Datenschutz, Urheberrecht und fairen Wettbewerbsbedingungen.

Auch international folgen verschiedene Regulierungsbehörden genau, wie Google und andere Unternehmen KI-Modelle mit Webdaten trainieren. Einige Länder investieren in alternative Suchtechnologien und fördern Open-Source-Lösungen, um die Abhängigkeit von großen Konzernen zu verringern. Gleichzeitig diskutieren Experten über neue Lizenzmodelle und Datenzugangsregeln, welche die Interessen aller Beteiligten – von Nutzern über Publisher bis hin zu Technologieentwicklern – berücksichtigen. Für Publisher bleibt es entscheidend, ihre robots.txt-Dateien korrekt zu konfigurieren, um zumindest den Indexierungszugriff zu steuern.

Gleichwohl zeigt sich, dass reine Opt-out-Erklärungen für KI-Trainingsnutzen an der Realität der Datenverwertung bislang vorbeigehen. Neue Richtlinien und technische Mechanismen könnten notwendig sein, um zukünftig eine differenzierte Kontrolle über die Verwendung von Webinhalten für KI-Trainings zu ermöglichen. Nutzer profitieren zwar von schnelleren, prägnanteren Antworten durch KI, müssen sich gleichzeitig aber bewusst sein, dass sie damit möglicherweise zum Teil ohne direkte Klicks auf Originalinhalte bleiben. Dies hat langfristige Folgen für die Vielfalt von Online-Informationsquellen und die finanzielle Basis des freien Internets. Zusammenfassend lässt sich sagen, dass Google beim KI-Training auf eine enorme Menge an Webinhalten zurückgreift, auch wenn einzelne Publisher dies eigentlich verhindert sehen möchten.

Die starre Verknüpfung von Webindexierung und KI-Training erschwert den Schutz von Urheberrechten und geschützten Inhalten. Die Debatte um faire Nutzung, Datenhoheit und den Einfluss großer Technologieunternehmen wird damit noch bedeutender und betrifft alle Akteure im digitalen Ökosystem. Die kommenden Monate und Jahre werden zeigen, wie Gesetzgeber, Gerichte und die Industrie diesen Herausforderungen begegnen und wie sich das Kräfteverhältnis zwischen Innovation und Rechtewahrung neu austariert.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
High Court orders Worldcoin to delete biometric data of Kenyans
Freitag, 06. Juni 2025. Kenias Höchstgericht ordnet Löschung biometrischer Daten durch Worldcoin an: Ein Wendepunkt im Datenschutz

Das kenianische Höchstgericht hat Worldcoin verpflichtet, biometrische Daten von kenianischen Bürgern zu löschen. Dieses Urteil markiert einen wichtigen Meilenstein im Datenschutzgesetz und wirft Fragen zur gesetzlichen Kontrolle von Kryptowährungsprojekten auf.

I built a 7-day calendar app – no months, no years, just the next 7 days
Freitag, 06. Juni 2025. Effizientes Zeitmanagement mit WeekLong: Der innovative 7-Tage-Kalender ohne Monats- und Jahresangaben

WeekLong ist eine neuartige 7-Tage-Planer-App, die den Fokus auf die kommenden sieben Tage legt. Ohne Monats- und Jahresangaben bietet sie eine einfache, benutzerfreundliche Oberfläche, die das Zeitmanagement erleichtert und die tägliche Produktivität steigert.

Odysee Drops Stripe for USDC Payments, Citing Censorship Concerns
Freitag, 06. Juni 2025. Odysee setzt Stripe ab und führt USDC-Zahlungen ein: Ein Schritt gegen Zensur und für finanzielle Freiheit

Odysee verabschiedet sich von Stripe als Zahlungsabwickler und setzt künftig auf USDC-Stablecoin, um Zensur zu umgehen und Nutzern sowie Content-Erstellern mehr finanzielle Autonomie und niedrigere Gebühren zu bieten.

Trump Administration Disqualifies Harvard from Future Research Grants
Freitag, 06. Juni 2025. Trump-Administration entzieht Harvard die Förderung für zukünftige Forschungsprojekte

Die Entscheidung der Trump-Administration, Harvard von der Vergabe neuer Bundesforschungszuschüsse auszuschließen, hat weitreichende Auswirkungen auf den Wissenschaftsbetrieb und die akademische Freiheit an einer der renommiertesten Universitäten der USA.

A militarized conspiracy theorist group believes radars are 'weather weapons'
Freitag, 06. Juni 2025. Verschwörungstheorien und die Bedrohung der Wetterradare: Wenn Milizen Doppler-Radare als 'Wetterwaffen' betrachten

Ein tiefer Einblick in die gefährliche Verschwörungserzählung einer militanten Gruppe, die Doppler-Wetterradare als 'Wetterwaffen' bezeichnet und versuchen will, sie zu zerstören. Analyse der Folgen für die Wettervorhersage und die Sicherheitsmaßnahmen der National Weather Service in den USA.

Show HN: Moss – AI-Powered Semantic Search Running In-Browser (No Cloud)
Freitag, 06. Juni 2025. Moss: Die Zukunft der semantischen Suche – KI-basierte Suche direkt im Browser ohne Cloud

Entdecken Sie Moss, die innovative semantische Suchlösung, die KI-Technologie direkt im Browser nutzt und vollkommen ohne Cloud-Server auskommt. Erfahren Sie, wie diese Technologie die Art und Weise verändert, wie wir Informationen finden, mit Fokus auf Datenschutz, Effizienz und Benutzerfreundlichkeit.

Umarell – Men Who Watch Construction Sites Giving Advice
Freitag, 06. Juni 2025. Umarell: Die liebenswerte Tradition der Baustellenbeobachter in Italien

Umarells, die Rentner, die Baustellen beobachten und gerne Ratschläge geben, sind eine charmante italienische Erscheinung, die weit mehr ist als nur ein Klischee. Dieses Phänomen erzählt viel über Gemeinschaft, Alter und kulturelle Identität in Italien, besonders in Bologna.