Seit der Markteinführung von ChatGPT im November 2022 hat sich die Landschaft der Künstlichen Intelligenz grundlegend verändert. Die Auswirkungen dieses Meilensteins erreichen nicht nur Entwickler und Forscher, sondern durchdringen bald sämtliche Bereiche, in denen Daten und maschinelles Lernen eine Rolle spielen. Manche Experten vergleichen die Einführung von ChatGPT sogar mit dem Zeitpunkt des ersten Atomtests 1945, da beide Ereignisse langfristige und teils irreversible Veränderungen hervorgerufen haben. Die Analogie basiert auf dem Konzept der sogenannten „Datenverschmutzung“ oder „AI pollution“, die durch die stetige Wiederverwertung von KI-generierten Inhalten im Trainingsprozess neuer Modelle entsteht. Dieser Blogbeitrag erklärt, was es mit dieser Digitalverschmutzung auf sich hat, welche Risiken sie birgt und welche Lösungen Forscher und Juristen aktuell diskutieren, um eine nachhaltige und wettbewerbsfähige KI-Zukunft zu gewährleisten.
Bis zum Jahr 2022 basierten KI-Modelle überwiegend auf von Menschen erstellten Daten, die als „sauber“ und vertrauenswürdig galten. Dieses Prinzip ähnelt der Verwendung von sogenannten „low-background steel“, einem Begriff, der ursprünglich aus der Nukleartechnik stammt. Hierbei handelt es sich um Metalle, die vor dem ersten Atomtest hergestellt wurden und daher frei von nuklearer Kontamination sind – unverzichtbar für sensible medizinische oder technische Geräte. Übertragen auf KI bedeutet das: Daten, die vor der Welle generativer KI erstellt wurden, gelten als unverfälscht und ausreichend zuverlässig. Sobald aber KI-Modelle beginnen, auf den Outputs anderer KI-Modelle zu trainieren, entstehen Rückkopplungseffekte, die die Qualität und Vertrauenswürdigkeit zukünftiger Modelle zunehmend beeinträchtigen können.
Diese digitale Kontamination wird heute unter dem Begriff „Model Collapse“ oder „MAD“ (Model Autophagy Disorder) diskutiert. Es beschreibt das Phänomen, dass der Einsatz synthetischer Daten aus KI-Systemen zur Ausbildung weiterer KI-Modelle langfristig die Datenbasis erodiert, was das Potential hat, die Zuverlässigkeit von AI-Generationen sukzessive zu verschlechtern. Einige Experten befürchten, dass wir einem Punkt gegenüberstehen, an dem KI-Modelle zunehmend auf fehlerhafte, verzerrte oder sogar grundlegend falsche Informationen zurückgreifen, da sie in einem ständig reproduzierten „Kreislauf“ trainiert werden, der kaum noch mit original menschlichen Daten durchsetzt ist. Die Konsequenzen für Forschung, Wirtschaft und Gesellschaft wären tiefgreifend. Ein Kernproblem besteht darin, dass saubere, menschlich generierte Daten immer rarer werden.
Große Tech-Unternehmen mit frühzeitigen Zugriffen auf diese Datenquellen könnten so einen gewaltigen Wettbewerbsvorteil erlangen. Start-ups oder Neulinge auf dem Markt könnten es sich hingegen schwerer machen, auf hochwertige Trainingsdaten zurückzugreifen. Das Risiko einer monopolartigen Entwicklung hin zu wenigen großen Akteuren steigt, da der Zugang zu unverfälschten Datenquellen entscheidend für die Qualität und Innovationskraft von KI-Lösungen sein wird. Ein weiterer Aspekt ist die Frage der Vertrauenswürdigkeit der von KI generierten Inhalte. Wie Maurice Chiodo vom Centre for the Study of Existential Risk an der Universität Cambridge erklärt, lässt sich ein KI-Modell durchaus so trainieren, dass es plausibel und „brauchbar“ erscheint, selbst wenn die Informationen falsch oder verfälscht sind.
Der Wert von Kreativität, menschlichem Stil und der natürlichen Sprache geht dabei oftmals verloren, wenn reine KI-generierte Datenmengen überhand nehmen. Die Feinheiten echten menschlichen Denkens, Schreibens und Kommunizierens sind schwerlich durch verzögerte KI-Generationen zu ersetzen. Die technische und rechtliche Gemeinschaft arbeitet intensiv an möglichen Gegenmaßnahmen und politischen Lösungen. Einige der diskutierten Ansatzpunkte umfassen die Einführung von Kennzeichnungen für KI-generierte Inhalte, um deren Ursprung nachvollziehbar zu machen. Allerdings gestaltet sich das in der Praxis schwierig, da Wasserzeichen mit fortschrittlichen Techniken leicht entfernt oder umgangen werden können.
Zudem obliegt es nicht einzelnen Staaten, sondern vielmehr einem internationalen Zusammenspiel, solche Regeln durchzusetzen, zumal KI-Daten grenzüberschreitend im Netz verfügbar sind. Ein weiterer vorgeschlagener Lösungsansatz ist der Ausbau von sogenanntem „federated learning“. Dabei bleibt der Datensatz beim Eigentümer, während Modelle extern auf diesen Daten trainiert werden können, ohne die Daten selbst zu transferieren. Diese Technik könnte dazu beitragen, sensible und saubere Daten zu schützen und gleichzeitig Modelltrainings zu ermöglichen. So ließe sich ein Zugang zu hochwertigen, unverfälschten Daten auch für kleinere Anbieter gewährleisten, wodurch sich der Wettbewerb verbessert und zugleich Datenschutzbedenken adressiert werden können.
Gleichzeitig warnen Experten vor einer zentralisierten Sammlung sauberer Daten durch Regierungen oder große Institutionen. Der Umgang mit riesigen Datenmengen stellt nicht nur immense technische Herausforderungen an Sicherheit und Stabilität, sondern birgt auch Risiken politischer Beeinflussung. Datensilos könnten entstehen, die durch technologische Fehler, politische Instabilität oder wirtschaftliche Dominanz ihre Unabhängigkeit und Fairness einbüßen. Daher wird statt Zentralisierung zunehmend eine Diversifizierung und dezentrale Verwaltung solcher Datenbestände gefordert. Europa hat mit dem AI Act als erstes großes Regulierungsvorhaben begonnen, bestimmte Rahmenbedingungen für den verantwortungsvollen Einsatz von KI festzulegen.
Die USA und Großbritannien verfolgen aktuell einen eher zurückhaltenden Ansatz, um Innovationen nicht zu behindern, doch auch hier wächst der Druck innerhalb der Forschung und Industrie, frühzeitig Steuerungsmechanismen einzuführen, um künftig eine ähnliche Konzentration der Macht und Daten nicht wie in der sozialen Medienlandschaft zuzulassen. Die unvermeidliche Verschmutzung der digitalen Datenumgebung durch generative KI stellt eine gewaltige Herausforderung dar, deren Auswirkungen heute noch nicht in vollem Umfang abschätzbar sind. Sollte das Phänomen des Model Collapse weiter voranschreiten, könnten sich nachhaltige Nutzbarkeit, Transparenz und Vertrauen in KI-Modelle verschlechtern. Die Gefahr besteht darin, dass spätere Generationen von KI-Systemen effektiv auf den eigenen Verzerrungen aufbauen und schlussendlich in einem analytischen „Endlosschleifenpark“ landen. Die Situation ist ein Weckruf an Politik, Wissenschaft und Wirtschaft zugleich.
Es erfordert eine koordinierte Anstrengung, um Datenqualität zu schützen, verantwortungsvolle Nutzung anzuregen und digitale Infrastrukturen sinnvoll zu regulieren. Nur damit bleibt die Vision einer KI erhalten, die die Menschheit unterstützt, anstatt durch Datenverschmutzung und Monopolisierung behindert zu werden. Indem wir Datenquellen vor der Kontamination schützen, die Weitergabe von sauberem Datenmaterial fördern und moderne Technologien wie föderiertes Lernen vorantreiben, können wir sicherstellen, dass Künstliche Intelligenz weiterhin wachsen und zu einem vertrauenswürdigen Werkzeug für Innovation, Kommunikation und Entscheidungsfindung werden kann. Im digitalen Zeitalter ergibt sich die Notwendigkeit eines „low-background data“-Ansatzes – so wie wir einst Metalle ohne atomare Strahlung bewahrten, sollten wir heute den Wert unkontaminierter menschlicher Daten als kostbare Ressource schützen. Denn eines ist klar: Die Zukunft von KI hängt unmittelbar davon ab, wie wir heute mit den Daten von morgen umgehen.
Es ist an der Zeit, dieser Herausforderung verantwortungsbewusst zu begegnen, um die weiteren Schritte der künstlichen Intelligenz nachhaltig zu gestalten und eine gesunde „digitale Umwelt“ für künftige Generationen zu schaffen.