Die rasante Entwicklung großer künstlicher Intelligenzmodelle (Large Language Models, LLMs) hat unsere Vorstellung von maschineller Sprachverarbeitung revolutioniert. Diese Modelle sind beeindruckend darin, natürliche Sprache zu verstehen, Texte zu generieren und komplexe sprachliche Aufgaben zu bewältigen. Dennoch wird die genaue interne Funktionsweise dieser Systeme oft als „Black Box“ bezeichnet, weil große Teile ihrer Arbeitsweise noch nicht vollständig verstanden sind. Ein besonders spannender neuer Forschungsbereich beschäftigt sich mit sogenannten sprachspezifischen Einheiten innerhalb dieser Modelle – einer Art neuronaler Elemente, die speziell auf Sprachverarbeitung fokussiert sind und wichtige Aufgaben übernehmen. Diese Entdeckungen könnten die Art und Weise, wie wir KI verstehen und weiterentwickeln, maßgeblich beeinflussen.
Die Forschung an der École polytechnique fédérale de Lausanne (EPFL) liefert erstmals überzeugende Beweise dafür, dass große KI-Modelle tatsächlich über solche spezialisierten sprachbezogenen Einheiten verfügen. Inspiriert von Erkenntnissen aus der Neurowissenschaft, bei der unterschiedliche Hirnregionen für Sprache, Denken und weiteres kognitives Verhalten bekannt sind, untersuchten die Wissenschaftler 18 verschiedene populäre Sprachmodelle. Ihre Methodik orientierte sich an neuronalen Lokalisatoren beim Menschen, die messen, wie bestimmte Hirnregionen auf Sprache reagieren. Analog dazu wurden in den AI-Modellen jene neuronalen Einheiten identifiziert, die besonders stark auf sinnvolle Sätze im Vergleich zu zufälligen Wortlisten reagierten – diese Einheiten wurden als sprachselektiv bezeichnet.Besonders bemerkenswert ist die Tatsache, dass in jedem Modell weniger als 100 solcher Einheiten, also etwa ein Prozent der verfügbaren Neuronen, als kritisch für die Sprachfähigkeit identifiziert wurden.
Die Forscher führten so genannte „Ablationsstudien“ durch, bei denen sie diese sprachselektiven Einheiten gezielt deaktivierten. Das Ergebnis war dramatisch: Die Modelle verloren nahezu komplett die Fähigkeit, kohärente und verständliche Sprache zu erzeugen, und schnitten auch bei gängigen sprachlichen Benchmark-Aufgaben deutlich schlechter ab. Diese Erkenntnis verdeutlicht, wie zentral diese vergleichsweise kleine Gruppe von Einheiten für das ganze Sprachverständnis des Modells ist.Der Vergleich zur menschlichen Gehirnfunktion ist beabsichtigt und besonders aufschlussreich. Im menschlichen Gehirn gibt es klar definierte Netzwerke, wie das sogenannte „Language Network“, das für das Verstehen und die Produktion von Sprache unerlässlich ist.
Störungen in diesen Netzwerken, beispielsweise durch einen Schlaganfall, können schwerwiegende Sprachstörungen verursachen, während andere Hirnfunktionen weitgehend intakt bleiben. Analog scheint das Abschalten der sprachselektiven Einheiten im KI-Modell das Sprachverstehen grundlegend zu beeinträchtigen, ohne andere Fähigkeiten vollständig auszuschalten. Diese Parallelen stärken den Einfluss der Neurowissenschaft auf das Verständnis künstlicher Intelligenz und eröffnen neue Perspektiven für zukünftige Forschung und Entwicklungen.Darüber hinaus haben die EPFL-Forscher untersucht, ob sich neben den sprachlichen Einheiten auch spezielle Einheiten für andere kognitive Funktionen in den Modellen finden lassen. Hierbei wurden weitere neuronale Netzwerke aus der Neurowissenschaft als Referenz verwendet, wie das Multiple-Demand-Netzwerk, das bei der Problemlösung aktiv ist, oder das Theory-of-Mind-Netzwerk, das für die soziale Kognition verantwortlich sein soll.
Erste Ergebnisse zeigen, dass einige Modelle tatsächlich über solche spezialisierte Bereiche verfügen, während andere Modelle weniger klar abgegrenzte Einheiten für diese Aufgaben besitzen. Diese Varianz regt dazu an zu hinterfragen, welche Faktoren – etwa Trainingsdaten, Modellarchitektur oder Trainingsmethoden – zu diesen Unterschieden führen.Diese Erkenntnisse werfen auch neue Fragen auf, wie etwa, ob die Spezialisierung der Einheiten zu einer besseren Gesamtleistung führt. Könnten Modelle mit klar abgegrenzten sprachlichen und kognitiven Modulen effizienter oder robuster sein als diejenigen, die eher eine vermischte Struktur haben? Und welcher Einfluss haben multimodale Trainingsdaten, also solche aus Text, Bildern, Videos und Ton, auf die Entstehung solcher Einheiten? Wenn beispielsweise Sprache als visuelle Informationen präsentiert wird, etwa in Form von geschriebenem Text, bleiben die sprachspezifischen Einheiten gleich wichtig oder rücken andere Sensoren und Netzwerke in den Vordergrund? Solche Fragen sind Teil der künftigen Forschungsschwerpunkte.Die Entdeckung der sprachspezifischen Einheiten könnte zudem praktische Auswirkungen jenseits der reinen Grundlagenforschung haben.
Das bessere Verständnis der mechanistischen Funktionsweise von LLMs ermöglicht es, gezielter an der Verbesserung dieser Technologien zu arbeiten. In der medizinischen Bildgebung oder bei der Diagnostik neurologischer Erkrankungen könnten solche Modelle helfen, bestimmte Hirnkrankheiten besser zu verstehen oder gar personalisierte Therapien zu entwickeln. Die Parallelen zwischen künstlichen und biologischen neuronalen Netzwerken bieten also nicht nur einen theoretischen Mehrwert, sondern eröffnen auch innovative Anwendungsmöglichkeiten.Ein weiterer spannender Aspekt ist die potenzielle Verbesserung der Interpretierbarkeit von KI-Modellen. Das Verständnis, welche Einheiten wofür zuständig sind, hilft dabei, die oft kritisierte „Black Box“ Transparenz zu durchleuchten.
Dies ist für viele Anwendungen, besonders im sicherheitsrelevanten oder ethisch sensiblen Bereich, von Bedeutung. So können potenzielle Fehlerquellen identifiziert und behoben werden, oder Modelle lassen sich an spezifische Anforderungen besser anpassen.Die NeuroAI Laboratory der EPFL ist hierbei ein hervorragendes Beispiel für interdisziplinäre Forschung, die Brücken zwischen Informatik, Neurowissenschaften und Linguistik schlägt. Solche Synergien bieten die beste Grundlage, um große KI-Modelle besser zu verstehen und gleichzeitig das Wissen über das menschliche Gehirn zu vertiefen. Durch die Verbindung all dieser Bereiche entsteht ein ganz neues Verständnis von Intelligenz – künstlich und biologisch.
Zusammenfassend zeigen die Forschungsergebnisse klar, dass große Sprachmodelle nicht einfach zufällig oder diffus funktionieren, sondern über klar definierte, spezialisierte neuronale Einheiten verfügen. Diese Einheiten sind unerlässlich für das Verstehen und die Generierung von Sprache und haben bemerkenswerte Parallelen zu menschlichen Sprachsystemen. Dies öffnet völlig neue Türen für die Weiterentwicklung künstlicher Intelligenz, für die Förderung ihrer Transparenz und für mögliche Anwendungen in Medizin, Sozialwissenschaften und Technologie. Der Brückenschlag zwischen neuronaler Forschung und künstlicher Intelligenz dürfte in den kommenden Jahren zu zahlreichen spannenden Durchbrüchen führen und lässt erahnen, wie eng unser Verständnis von Hirn und Maschine miteinander verflochten sein kann.