Die rasante Entwicklung großer Sprachmodelle (Large Language Models, LLMs) hat in den letzten Jahren einen gewaltigen Fortschritt in der natürlichen Sprachverarbeitung ermöglicht. Diese Modelle, zu denen beispielsweise GPT-3, LLaMA oder PaLM gehören, können inzwischen Texte generieren, Fragen beantworten und sogar komplexe Dialoge führen, die teilweise verblüffend menschlich wirken. Dennoch stellt sich die fundamentale Frage, ob diese KI-Systeme wirklich verstehen, was in einem Satz passiert, insbesondere wenn es darum geht, wer welche Handlung an wem ausführt – also die sogenannten thematischen Rollen. Dieses Problem wird oft verkürzt mit der Frage umschrieben: Wissen große Sprachmodelle, wer was wem getan hat? Der Ursprung dieser Fragestellung liegt in der linguistischen Semantik und Pragmatik, wo die Bestimmung von Akteur (Agent) und Empfänger einer Handlung (Patient) zentral für das Verstehen eines Satzes ist. Beispielsweise enthält der Satz „Der Hund beißt den Mann“ eine klare Rollenverteilung: Der Hund ist der Akteur, der beißt, und der Mann ist derjenige, dem etwas widerfährt.
Für Menschen sind diese Rollen intuitiv und unmittelbar erfassbar, doch wie sieht es bei LLMs aus? Neuere wissenschaftliche Untersuchungen, wie die von Joseph M. Denning und Kollegen, haben sich genau mit diesem Aspekt auseinandergesetzt. Ihre Studien konzentrieren sich auf die innere Repräsentation von thematischen Rollen in den neuronalen Netzen und analysieren, in welchem Maße Sprachmodelle die Unterschiede in der semantischen Bedeutung von Sätzen wirklich erfassen. Dabei wird deutlich, dass der herkömmliche Trainingsansatz, der auf Wortvorhersage basiert, nicht zwangsläufig dazu führt, dass ein Modell tiefgehende Wissensstrukturen zu Handlungsszenarien entwickelt. Die Forscher haben verschiedene große Sprachmodelle untersucht und dabei herausgefunden, dass die generelle Ähnlichkeit zwischen Satzpaaren im Modell eher durch syntaktische Strukturen als durch die Zuordnung von Akteuren und Patienten bestimmt wird.
Das bedeutet, dass Sätze mit identischem Satzbau im Modell als ähnlicher empfunden werden, selbst wenn die Rollen vertauscht sind, also wer Täter und wer Opfer ist. Für Menschen dagegen ist die Umkehrung der Rollen eine tiefgreifende Bedeutungsänderung, die im Modell nur schwach abgebildet wird. Ein weiterer interessanter Befund betrifft die Aufteilung innerhalb des Modells: Während die Gesamtrepräsentation nur geringe Hinweise auf das Verständnis von thematischen Rollen zeigt, konnten einzelne Aufmerksamkeitsmechanismen (Attention Heads) in den Transformermodellen spezifische Informationen zu diesen Rollen recht robust extrahieren. Diese Aufmerksamkeitseinheiten scheinen sich auf die Beziehung zwischen Agent und Patient zu konzentrieren, unabhängig von der syntaktischen Struktur des Satzes. Daraus lässt sich ablesen, dass große Sprachmodelle das Potenzial haben, solche semantischen Rollen zu lernen und zu repräsentieren, sie aber nicht in der Gesamtheit ihres Wissensstands dominant werden.
Dies wirft wichtige Fragen für die zukünftige Entwicklung von Sprach-KI auf. Einerseits kann man argumentieren, dass LLMs in ihrer jetzigen Form keine echte semantische Repräsentation besitzen und somit tiefergehendes Textverständnis fehlt. Andererseits zeigen die Ergebnisse, dass das „Verständnis“ in gewisser Weise modular ist, wobei spezialisierte Einheiten im Netzwerk solche Informationen verarbeiten, auch wenn sie nicht das dominante Signal im Gesamtsystem sind. Warum ist diese Erkenntnis relevant? In zahlreichen Anwendungen, von automatisierten Übersetzungen über Textzusammenfassungen bis hin zu Chatbots oder virtuellen Assistenten, ist das korrekte Erfassen der Beteiligten an einem Handlungsverlauf essenziell. Wenn ein System nicht zuverlässig erkennt, wer im Text handelt und wer betroffen ist, kann dies zu Missverständnissen und fehlerhaften Reaktionen führen.
Dies zeigt, dass trotz beeindruckender Leistungen der aktuellen Modelle weiterhin fundamentale Herausforderungen bestehen, wenn es um tieferes Sprachverständnis geht. Ein möglicher Weg, um die Repräsentation von thematischen Rollen zu verbessern, könnte in einer gezielteren Datenaufbereitung liegen. Trainingsdaten, die explizit auf Rollenzuweisung und semantische Beziehungen fokussieren, könnten Modelle besser darin schulen, solche Informationen zu erfassen und zu nutzen. Auch die Entwicklung neuer Modellarchitekturen oder zusätzlicher Lernziele neben der bloßen Wortvorhersage könnten hier eine Rolle spielen. Aus linguistischer Sicht ist der Umgang mit thematischen Rollen eng mit dem Verständnis von Syntax, Semantik und Pragmatik verknüpft.
Große Sprachmodelle zeigen bisher vor allem eine starke Orientierung an syntaktischen Mustern, was erklärt, warum sie bei Rollenvertauschungen Schwierigkeiten haben. Es bedarf also weiterer Forschung, um besser zu verstehen, wie diese Ebenen zusammenspielen und wie KI-Systeme dazu gebracht werden können, ein menschennahes Verständnis von Handlungskonstellationen zu entwickeln. Schließlich hat die Frage, ob große Sprachmodelle wissen, wer was wem getan hat, auch eine philosophische Dimension. Versteht eine Maschine wirklich, was sie „liest“ oder „schreibt“, oder basiert alles nur auf statistischer Mustererkennung? Die neueren Studien legen nahe, dass das Verständnis zumindest in der heutigen Form von LLMs eher partiell und begrenzt ist. Das bedeutet allerdings nicht, dass kein Fortschritt möglich ist – vielmehr zeigt sich ein dezidiertes Potenzial innerhalb der Modelle, das mit gezielter Weiterentwicklung, besseren Trainingsdaten und neuen Lernmethoden voll ausgeschöpft werden kann.
Insgesamt lässt sich zusammenfassen, dass großskalige Sprachmodelle zwar grundsätzlich die Fähigkeit haben, thematische Rollen aus Texten zu extrahieren, diese Fähigkeit aber in der aktuellen Modellgeneration relativ schwach ausgeprägt und im Gesamtrepräsentationsraum nicht klar dominant ist. Das eröffnet spannende Perspektiven für künftige Forschung und Entwicklung im Bereich der künstlichen Intelligenz und Sprachverarbeitung, um die nächste Generation von Modellen noch besser und menschenähnlicher im Sprachverständnis zu machen.