Personalisierte Text-to-Image Diffusionsmodelle haben die Welt der künstlichen Intelligenz revolutioniert und erlauben Nutzern, hochqualitative Bilder allein anhand von Texteingaben zu generieren. Dabei spielen vortrainierte Modelle eine zentrale Rolle, die durch Feinabstimmung – auch Fine-Tuning genannt – auf individuelle Datensätze angepasst werden, um einzigartige und personalisierte Ergebnisse zu erzeugen. Diese Entwicklung eröffnet neue kreative Freiräume, wirft jedoch gleichzeitig erhebliche ethische und juristische Fragen bezüglich des Schutzes von Urheberrechten auf. Die Problematik dreht sich vor allem um die Nutzung geschützter Datensätze für das Fine-Tuning, ohne explizite Genehmigung der Urheberrechtsinhaber. Um den Missbrauch zu verhindern, haben Forscher sogenannte Dataset Ownership Verification (DOV) Mechanismen entwickelt, die Dataset-Wasserzeichen mithilfe von Backdoor-Techniken in den Trainingsdatensatz einbetten.
Diese Wasserzeichen bleiben unter normalen Umständen unsichtbar, können aber durch spezielle Trigger aktiviert werden, um Besitzansprüche zu belegen. Diese Schutzmaßnahmen stehen jedoch vor einer neuen Herausforderung: den sogenannten Copyright Evasion Attacks (CEA), auf Deutsch etwa Urheberrechtsumgehungsangriffen. Im Kern ermöglichen diese Angriffe es, Wasserzeichen zu umgehen, sodass ein Modell trotz Wasserzeichen-verziertem Trainingsdatensatz Wasserzeichen nicht berücksichtigt oder entfernt. Die neuesten Forschungen zeigen, dass speziell entwickelte Angriffsmethoden gegenüber Küchenzurialeignen Bypass-Techniken an Effektivität gewinnen. Eine wegweisende Studie, die mit dem Kürzel CEAT2I bezeichnet wird, beschreibt genau eine solche Attacke, die auf personalisierte Text-to-Image Diffusionsmodelle abzielt und DOV-Mechanismen gezielt aushebeln kann.
Die Methode von CEAT2I basiert auf einem mehrstufigen Verfahren. Zunächst wird eine Detektion der mit Wasserzeichen versehenen Trainingsbeispiele durchgeführt. Dabei zeigen sich charakteristische Verhaltensmuster: Modelle konvergieren während des Fine-Tunings nämlich deutlich schneller auf wasserzeichenbehafteten Eingabedaten, was sich durch erkennbare Abweichungen in den Zwischenfeatures offenbart. Diese Erkenntnis ist ein entscheidender Hebel, um gezielt jene Trainingsbeispiele zu identifizieren, die einen Wasserzeichen-Trigger enthalten. Anschließend erfolgt die genaue Lokalisierung des Triggers innerhalb der Texteingaben.
Dies gelingt durch ein iteratives Ablationsverfahren, bei dem Tokens aus dem Eingabe-Prompt stufenweise entfernt und zugleich die jeweilige Veränderung der Modellausgabe und der Zwischenfeatures beobachtet wird. Nur jene Tokens, deren Entfernen eine signifikante Reduktion des Wasserzeichensignals bewirkt, werden als Trigger identifiziert. Abschließend findet ein gezieltes Entfernen der Wasserzeichenbegriffe statt, basierend auf sogenannten Konzept-Auslöschungsverfahren (closed-form concept erasure), die es erlauben, den Einfluss der Wasserzeichen im Modell effizient und möglichst ohne Leistungseinbußen zu neutralisieren. Die Bedeutung solcher Angriffe ist vielschichtig. Einerseits verweist sie auf die fortgeschrittene technische Weiterentwicklung im Bereich des Schutzes von Trainingsdaten und geistigem Eigentum in KI-Systemen – eine wichtige Voraussetzung, um Innovationen sicher und ethisch vertretbar voranzutreiben.
Andererseits offenbart die Existenz und Wirksamkeit von CEAT2I und ähnlichen Copyright Evasion Attacken die Risiken, die mit zunehmender Verbreitung personalisierter KI-Modelle einhergehen: Trainer von KI-Systemen können Urheberrechtsschutzmechanismen aushebeln und so widerrechtlich geschützte Inhalte als Grundlage nutzen, ohne dass dies vom ursprünglichen Eigentümer nachweisbar wäre. Dies gefährdet nicht nur wirtschaftliche Interessen von Künstlern, Fotografen, Designern und Unternehmen, sondern schafft auch einen Graubereich hinsichtlich der Verantwortung, wem die entstehenden KI-Bilder eigentlich zugeordnet werden können. Für Unternehmen und Entwickler, die mit personalisierten Diffusionsmodellen arbeiten, bedeutet das: Es reicht nicht mehr aus, lediglich Wasserzeichen als Schutzmechanismus einzubauen. Es müssen vielschichtige Strategien und vielleicht auch technische Innovationen jenseits traditioneller Backdoorsysteme entwickelt werden, um eine langfristige Sicherheit der Datenherkunft und Rechteinhaberschaft zu gewährleisten. Rechtlich betrachtet sind diese Entwicklungen ebenfalls hochspannend.
Während das geistige Eigentum heute grundsätzlich durch gesetzliche Vorgaben geschützt ist, verlangen Angriffe wie CEAT2I eine Neubewertung und Anpassung bestehender Richtlinien. Insbesondere die digitale Transformationsphase in der KI bedarf neuer Gesetze und Standards, um eine klare Abgrenzung zu ermöglichen, wie und in welchem Rahmen personalisierte Modelle aus geschützten Datensätzen trainiert und verwendet werden dürfen. Technisch zeichnet sich ab, dass der Trend hin zu immer komplexeren Methoden der Erkennung und Manipulation von Wasserzeichen weiter zunehmen wird. Forschung in den Bereichen Robustheit, erklärbare künstliche Intelligenz und Sicherheitsmechanismen wird zunehmend wichtiger. Denn um zukünftige Angriffe frühzeitig zu erkennen, ist ein umfassendes Verständnis der Modellinterne Dynamiken und der mutmaßlichen Angriffsmuster zentral.
Parallel dazu gibt es eine wachsende Nachfrage nach Lösungen, die eine transparente und nachvollziehbare Nachverfolgung von Datenherkunft erlauben. Ansätze wie Blockchain-basierte Trackingsysteme, verifizierbare Lernprotokolle oder verstärkte Regulierung von Trainingsdatenquellen könnten zukünftig hilfreich sein, um das Urheberrecht in der Ära der KI besser zu schützen. Für die Gesellschaft hat das alles weitreichende Konsequenzen. Einerseits profitieren kreative Industrien und Nutzer von den Vorteilen personalisierter Modelle, die ihnen Erleichterungen, schnellere Iterationen und neuartige Ausdrucksmöglichkeiten bieten. Andererseits steigen Unsicherheiten bezüglich der verantwortungsvollen Nutzung und der Wahrung der Rechte in der digitalen Welt.