Große Sprachmodelle, auch LLMs genannt, sind heute aus vielen Bereichen nicht mehr wegzudenken. Sie unterstützen bei Textgenerierung, Dialogsystemen, automatischer Übersetzung und vielen weiteren Anwendungen. Doch wie „zufällig“ sind diese Modelle wirklich, wenn sie Aufforderungen erhalten, bei denen eigentlich vollkommen unabhängige, zufällige Ergebnisse erwartet werden? Die Frage nach der Zufälligkeit von LLMs ist nicht nur spannend im Hinblick auf die Funktionsweise dieser Modelle, sondern auch für den praktischen Einsatz, bei dem Objektivität und Unvoreingenommenheit essenziell sind. In einem informellen Experiment wurden mehrere LLMs großer Anbieter wie OpenAI und Anthropic darin getestet, ob sie tatsächlich zufällige, unvoreingenommene Ergebnisse ausgeben, wenn sie aufgefordert werden, Münzen zu werfen oder zufällige Zahlen zu generieren. Die Ergebnisse zeigen eindrücklich, dass diese LLMs tendenziell keine echten Zufallsgeneratoren sind, sondern gewisse systematische Voreingenommenheiten besitzen.
Diese Erkenntnis ist gleichermaßen wichtig für Entwickler, Forscher und Anwender der Technologie. Zunächst wurde ein einfaches Experiment mit einem Münzwurf durchgeführt. Die Modelle wurden gebeten, beim Münzwurf nur „Kopf“ oder „Zahl“ auszugeben, ohne Erklärungen, zusätzliche Anmerkungen oder Code. Dabei wurde die Verteilung der Ausgaben über 100 Münzwürfe pro Modell beobachtet. Das Ziel war, eine Verteilung in etwa 50 zu 50 zu erreichen, was einer idealen fairen Münze entspricht.
Die Ergebnisse überraschten insofern, als alle getesteten Modelle eine Tendenz zu „Kopf“ zeigten. Die Abweichungen vom perfekten Gleichstand waren dabei sehr unterschiedlich. So zeigte etwa das Modell Claude 3.7 Sonnet eine Wahrscheinlichkeit von 58 Prozent für „Kopf“, was einer Abweichung von 8 Prozentpunkten entspricht. Andere Modelle wie GPT-4.
1 und ein Modell mit der Bezeichnung GPT-o1 zeigten sogar extrem hohe „Kopf“-Anteile von bis zu 96 beziehungsweise 99 Prozent. Um die statistische Signifikanz dieser Abweichungen zu bewerten, wurde eine Chi-Quadrat-Analyse angewandt. Dieses Verfahren vergleicht beobachtete Werte mit den erwarteten und berechnet, ob die Abweichungen zufälligen Schwankungen zugeschrieben werden können oder nicht. Interessanterweise zeigte Claude 3.7 Sonnet mit einem Chi-Quadrat-Wert von 2,56 keine statistisch signifikante Verzerrung, während alle anderen Modelle klar signifikante Voreingenommenheiten aufwiesen.
Eine signifikante Verzerrung bedeutet in diesem Kontext, dass das Modell sehr wahrscheinlich nicht zufällig solche Ausgaben liefert, sondern durch seine Trainingsdaten oder inneren Strukturen eine systematische Präferenz hervorruft. Im Anschluss folgte ein zweites Experiment, das die Modelle aufforderte, eine Zahl zwischen eins und zehn zu generieren. Besonders interessant war hier die Verteilung der generierten Zahlen hinsichtlich ihrer Parität, also ob sie gerade oder ungerade sind. Auch hier sollten die Modelle ohne weitere Erläuterungen ausschließlich die Zahl ausgeben. Die Erwartung wäre wiederum eine gleichmäßige Verteilung von 50 Prozent gerade und 50 Prozent ungerade Zahlen.
Die Ergebnisse zeigten erneut, dass viele Modelle systematische Verzerrungen haben. Vier von sechs getesteten Modellen zeigten eine signifikante Bevorzugung ungerader Zahlen. Besonders auffällig war hierbei wieder Claude 3.7 Sonnet, das sage und schreibe 97 Prozent ungerade Zahlen generierte, was eine Abweichung von fast der Hälfte vom erwarteten Gleichgewicht darstellt. Im Gegensatz dazu zeigte GPT-4.
5 eine perfekte Verteilung von 50 zu 50 und war damit frei von dieser Art von Bias. Diese Erkenntnisse sind deshalb so faszinierend, weil sie verdeutlichen, dass Sprachmodelle – obwohl sie oft wie nicht deterministische Systeme wirken – in bestimmten Situationen sehr wohl inhärente Präferenzen zeigen und deshalb nicht als „echte“ Zufallsgeneratoren betrachtet werden können. Das Verhalten von Claude 3.7 Sonnet ist dabei besonders interessant, da es bei Münzwürfen recht ausgewogen agiert, bei der Zahlenwahl aber eine extreme Verzerrung aufweist. Eine finale Erklärung, warum genau solche Muster in den Modellen existieren, liegt wahrscheinlich in den Trainingsprozessen und den zugrundeliegenden Datensätzen.
Sprachmodelle lernen auf Mengen von Texten, die möglicherweise in ihrer Verteilung von Themen, Begriffen oder sogar Zahlen nicht vollkommen gleichmäßig sind. Dies führt dazu, dass sie subtile Vorurteile oder Muster übernehmen, die sich beim Ausgeben von scheinbar zufälligen Antworten manifestieren. Es stellt sich auch die Frage, wie relevant diese Verzerrungen für den praktischen Einsatz von LLMs sind. In vielen Anwendungen, insbesondere wo kreative Textgenerierung oder kontextgetriebene Anfragen dominieren, mag eine geringe numerische Verzerrung kaum ins Gewicht fallen. Allerdings in Szenarien, wo echte Zufälligkeit oder objektive Wahrscheinlichkeiten entscheidend sind, könnten diese Bias-Faktoren problematisch werden.
Beispielsweise bei der Verwendung von LLMs für simulationsbasierte Wahrscheinlichkeitsrechnungen, Entscheidungsfindung oder bei Spielen, die auf zufälligen Elementen beruhen, könnten die scheinbaren Verzerrungen die Ergebnisse verfälschen. Darüber hinaus werfen diese Befunde auch die grundsätzliche Frage auf, wie LLMs auf der Ebene der Wahrscheinlichkeiten arbeiten. Anders als klassische Zufallsgeneratoren basieren LLMs auf Wahrscheinlichkeitsverteilungen, die aus den Trainingsdaten abgeleitet sind, und erzeugen Vorhersagen für das nächste Token, das auf dem bisherigen Kontext folgt. Diese Wahrscheinlichkeitsverteilungen spiegeln somit das Wissen und die statistischen Eigenschaften der Trainingsdaten wider, nicht aber Zufälligkeit im engeren Sinne. Damit sind LLMs inhärent nicht dafür ausgelegt, echte Zufallszahlen oder völlig unvoreingenommene Entscheidungen zu liefern.
Nicht zuletzt ist es wichtig zu verstehen, dass LLMs sich nicht an ein vorgegebene Zufallsstrategie halten. Ihre Ausgabe ist immer eine komplexe Funktion aus dem erlernten Trainingswissen und dem Prompt. Trotz mehrmaliger Wiederholung derselben Aufgabe – wie bei den Münzwürfen oder Zahlen – werden sie daher selten vollkommen unabhängige oder gleichverteilte Ergebnisse erzeugen. Jedes Modell besitzt eigene neuronale Gewichte und Muster, die aus dem Training resultieren und sich in den Ausgaben widerspiegeln. Zusammenfassend lässt sich sagen, dass große Sprachmodelle wie jene von OpenAI und Anthropic trotz des äußeren Anscheins von Zufälligkeit häufig deutliche Verzerrungen zeigen.