In der Welt der Künstlichen Intelligenz und insbesondere bei großen Sprachmodellen (Large Language Models, LLMs) hat die Diskrepanz zwischen Leistungsfähigkeit und rechtlichen Implikationen in den letzten Jahren erheblich an Aufmerksamkeit gewonnen. Ein brandaktuelles Forschungsergebnis hat Meta’s Llama 3.1 ins Rampenlicht gerückt: Das Modell ist in der Lage, beeindruckende 42 Prozent des ersten Harry Potter-Buchs – "Harry Potter und der Stein der Weisen" – wortwörtlich zu reproduzieren, wenn es mit passenden Eingaben gefüttert wird. Diese Erkenntnis hat weitreichende Konsequenzen, die sowohl technische als auch rechtliche Dimensionen umfassen und die Diskussionen über Urheberrechte von KI-Unternehmen weltweit neu entfacht haben. Meta veröffentlichte Llama 3.
1 70B im Juli 2024 als eines der bedeutenden großen Sprachmodelle der neuesten Generation. Es zeigt einen quantitativ sprunghaften Anstieg der Memorierung populärer Bücher im Vergleich zu seiner Vorgängerversion Llama 1 65B, die im Februar 2023 veröffentlicht wurde und nur rund 4,4 Prozent des Harry Potter-Buchs reproduzieren konnte. Der radikale Unterschied zwischen diesen beiden Generationen wirft Fragen zur Trainingsmethode, Datengrundlage und den Schutzmaßnahmen gegen das ungewollte Auswendiglernen auf. Die Untersuchung, durchgeführt von Forschern an den Universitäten Stanford, Cornell und West Virginia, analysierte vier weitere bekannte Modelle von Meta, Microsoft und EleutherAI. Im Gegensatz zu den anderen Modellen begann Llama 3.
1 weit verbreitet populäre Bücher wie Harry Potter, Der Hobbit und 1984 mit hoher Genauigkeit zu reproduzieren. Gerade bei Harry Potter erwies sich das Modell als bemerkenswert deutlich: Es kann ganze Abschnitte von 50 Token Länge mit einer Wahrscheinlichkeit von 50 Prozent oder höher wiedergeben. Physikalisch betrachtet erfolgt die Analyse durch die Berechnung der Wahrscheinlichkeiten, mit denen das Modell die Worte nach einem bestimmten Eingabetext generiert, ohne tatsächlich hunderte oder tausende Ausgaben erstellen zu müssen. Dieses methodische Vorgehen erlaubt den Forschern, die sogenannte Memorierung quantitativ exakt zu bestimmen, selbst wenn die Chance, 50 Tokens exakt hintereinander zu reproduzieren, extrem klein ist. Die Schwelle für Memorierung lag dabei bei einer Wahrscheinlichkeit von mehr als 50 Prozent, was einen äußerst strengen Maßstab darstellt.
Dieser Wert bedeutet faktisch, dass jeder einzelne Token in einer solchen Sequenz mit durchschnittlich mindestens 98,5 Prozent Wahrscheinlichkeit korrekt vorhergesagt wird. Die technischen Hintergründe der Memorierung spiegelen sich in der Datenmenge wider. Llama 3.1 wurde auf etwa 15 Billionen Tokens trainiert, während der Vorgänger Llama 1 mit lediglich 1,4 Billionen Tokens auskommen musste. Es besteht die Vermutung, dass Meta für das Training zu wenig verschiedene Trainingsdaten hatte, sodass Datensätze wie Books3 mehrfach verwendet wurden – eine bekannte Quelle, die auch geschützte Werke enthält.
Alternativ könnten sekundäre Datenquellen wie Buchbesprechungen, Foreneinträge oder Online-Diskussionen, in denen häufig längere Harry-Potter-Zitate auftauchen, zum unerwarteten Memorieren beigetragen haben. Diese guten wie auch besorgniserregenden Erkenntnisse haben wichtige rechtliche Fragen aufgeworfen. Insbesondere stellt sich die Frage, ob und inwieweit ein KI-Modell an sich als Derivat eines urheberrechtlich geschützten Materials gilt, wenn es große Textabschnitte wortwörtlich in seinem zugrunde liegenden Modellgewicht speichert. Traditionell basieren Klagen um KI-basierte Urheberrechtsverletzungen auf drei Theorien: Bereits das Training mit urheberrechtlich geschützten Werken könnte eine Verletzung darstellen, das Modell selbst könnte als bearbeitetes Werk gelten, oder das generierte Ergebnis könne direkte Urheberrechtsverletzungen durch das Wiedergeben geschützter Passagen verursachen. Das Beispiel von Meta’s Llama 3.
1 könnte die Sicht der Gerichte auf diese Theorien beeinflussen, gerade weil zuvor angenommen wurde, dass Memorierung ein Randphänomen sei, das kaum eine Rolle spiele. Die Forschung zeigt hingegen, dass Memorierung keineswegs selten ist, zumindest bei populären Werken. Ein weiterer Punkt, der die juristische Debatte anheizt, ist die signifikante Menge an Text, die Meta’s Modell aus „Harry Potter“ und anderen bekannten Büchern reproduzieren kann, was weit über „kleine Zitate“ hinausgeht, die in Fair-Use-Fällen oft toleriert werden. Im amerikanischen Urheberrecht ist besonders die Beurteilung, ob eine Nutzung „transformativ“ ist, zentral. KI-Hersteller argumentieren oft, dass das Modell lediglich Sprachmuster lernt, anstatt Werke zu kopieren.
Doch wenn Modelle in der Lage sind, große Textsequenzen nahezu vollständig wiederzugeben, könnte diese Argumentation an Überzeugungskraft verlieren und Richter könnten Fair-Use-Gutachten kritisch überdenken. Während Meta und andere Unternehmen mit geschlossenen Modellen diese Risiken durch Zugangsbeschränkungen und Filtermechanismen teilweise minimieren können, bringt der Open-Weight-Ansatz bei Llama 3.1 genau diese Herausforderungen in den Fokus. Durch die Offenlegung der Gewichte sind die inneren Abläufe des Modells leichter zu untersuchen, was für die Rechtsprechung praktisch nützlich ist, aber zugleich das Risiko von Klagen erhöht. Diese Situation führt zu einem Spannungsfeld, in dem Offenheit einerseits Transparenz und demokratischen Zugang fördert, andererseits potenzielle juristische Sanktionen nach sich ziehen kann.
Für Autoren und Verlage ist die Studie ein Signal, dass KI-Modelle eines der größten Copyright-Risiken im digitalen Zeitalter darstellen könnten. In manchen Fällen wie bei Richard Kadrey, dessen Buch „Sandman Slim“ von Llama 3.1 kaum memoriert wurde, zeigen die Ergebnisse zudem, dass nicht jedes Werk gleich betroffen ist – eine Tatsache, die Sammelklagen erschweren und die juristische Landschaft komplexer machen könnte. Die Balance zwischen Innovation und Rechtewahrung ist eine der größten Herausforderungen, die sich in der Schnittmenge von KI-Technologie und Urheberrecht abzeichnen. Meta’s Llama 3.
1 demonstriert das enorme Potential großer Sprachmodelle, aber auch die Grenzen der bisher etablierten Rechtsnormen, die sich zunehmend mit neuen Phänomenen wie Memorierung auseinandersetzen müssen. Die Entwicklung gibt Wissenschaftlern und Juristen gleichermaßen viel Anlass, bestehende Richtlinien zu überprüfen und neue Standards zu entwickeln. Gleichzeitig wird deutlich, dass der Schutz geistigen Eigentums im KI-Zeitalter weder einfach noch einheitlich zu gestalten ist. Die Kombination aus riesigen Datenmengen, algorithmischer Verarbeitung und der Fähigkeit der KI, Inhalte nahezu perfekt zu reproduzieren, zwingt zur Neudefinition, was Kopieren, Lernen und Transformieren in einer Welt bedeutet, die von künstlicher Intelligenz immer stärker geprägt wird. Abschließend lässt sich sagen, dass Meta’s Llama 3.
1 nicht nur eine technische Meisterleistung darstellt, sondern auch wichtige Impulse für die politische und rechtliche Diskussion rund um KI gibt. Für alle, die sich für die Zukunft der Künstlichen Intelligenz, Urheberrechte und technologische Innovation interessieren, ist es von essenzieller Bedeutung, die Erkenntnisse dieser Forschung ernst zu nehmen und die daraus resultierenden Herausforderungen aktiv zu adressieren.