In den letzten Jahren haben große Sprachmodelle (LLMs) wie GPT-4, Gemini oder LaMDA eine erstaunliche Entwicklung durchlaufen. Sie erzielen bei komplexen Aufgaben beeindruckende Ergebnisse: Sie schreiben Essays, verfassen Gedichte, simulieren Konversationen und lösen sogar Prüfungen wie das medizinische Staatsexamen oder juristische Tests. Trotz ihrer scheinbar menschlichen Leistungen gibt es eine anhaltende Diskussion darüber, ob LLMs wirklich etwas verstehen oder ob sie lediglich statistische Wahrscheinlichkeiten berechnen. Besonders kritisch wird dabei die Frage aufgeworfen, ob LLMs von Natur aus „Bullshitter“ sind – ob sie also selbst dann unzuverlässige oder falsche Aussagen machen, wenn das für die Qualität der Antwort nicht notwendig erscheint. Ein Blick auf die philosophischen, technischen und ethischen Dimensionen dieser Fragestellung bietet spannende Einblicke in die Grenzen und Möglichkeiten künstlicher Intelligenz.
Der Begriff „Bullshit“ wurde in der Philosophie insbesondere durch Harry Frankfurt geprägt. Er unterschied klar zwischen Lügen und Bullshit. Während ein Lügner absichtlich die Wahrheit verbirgt, ist ein Bullshitter vor allem dadurch gekennzeichnet, dass ihm die Wahrheit schlichtweg egal ist. So gesehen geht es bei der Frage um LLMs und Bullshit nicht nur um Fehlerquoten, sondern um die Frage, inwieweit diese KI-Systeme ein Bewusstsein oder eine Haltung gegenüber Wahrheit besitzen können – oder ob ihnen das grundsätzlich fehlt. Um diese Diskussion besser zu verstehen, lohnt sich ein Blick auf eine berühmte Anekdote aus der Science-Fiction Serie Star Trek.
In der Folge „I, Mudd“ treffen die Crew-Mitglieder auf eine Spezies von Androiden, die nicht in der Lage ist, mit irrationalen Verhaltensweisen umzugehen und auf Lügen oder widersprüchliche Aussagen völlig perplex reagieren. Dieser Vergleich illustriert wunderbar die Herausforderung für heutige LLMs: Sie sind hervorragend darin, auf der Basis vorliegender Daten Sprache zu erzeugen, aber sie haben keinen inneren Bezug zu Wahrheit oder Bedeutung im menschlichen Sinn. Die Philosophie des Geistes hat sich lange damit beschäftigt, ob Maschinen überhaupt mentale Zustände besitzen können. Alan Turing stellte schon 1950 die berühmte Frage, ob Maschinen denken können, und schlug dazu den nach ihm benannten Turing-Test vor. Dabei geht es weniger um das innere Erleben einer Maschine, sondern um ihr Verhalten: Wenn man nicht zwischen Maschine und Mensch unterscheiden kann, sollte man Maschinen Intelligenz zuschreiben.
Dagegen argumentierte John Searle mit seinem Gedankenexperiment des „Chinese Room“, um zu zeigen, dass das reine Manipulieren von Symbolen und das Beantworten von Fragen nicht mit echtem Verstehen gleichzusetzen ist. Die Maschine – oder der Mensch im Chinese Room – versteht zwar die chinesischen Zeichen nicht wirklich, liefert aber dennoch überzeugende Antworten anhand von Regeln. Übertragen auf heutige LLMs könnte man sagen, dass sie ähnlich funktionieren: Sie verstehen die Bedeutung nicht wirklich, sondern führen lediglich komplexe Mustererkennung und Wahrscheinlichkeitsberechnungen durch. Ein oft verwendeter Begriff im Umgang mit KIs ist das sogenannte „Halluzinieren“. Dabei erzeugt ein LLM plausible, aber faktisch falsche oder unbelegte Aussagen.
Das ist insofern problematisch, als Nutzer diese Antworten als verlässlich ansehen können. Anders als menschliche Halluzinationen besitzen LLMs jedoch kein Erleben einer falschen Wahrnehmung, sondern sie fabrizieren schlicht Informationen ohne innere Erfahrung. Deshalb schlagen Experten vor, statt von Halluzination lieber von „Fabrikation“ zu sprechen. Interessant ist auch die Frage, wie LLMs mit Wahrheit umgehen. Während Menschen verschiedene Theorien von Wahrheit akzeptieren – zum Beispiel die Korrespondenztheorie, bei der Wahrheit die Übereinstimmung einer Aussage mit der Realität bedeutet, oder die Kohärenztheorie, nach der Wahrheit alles ist, was in ein konsistentes System von Überzeugungen passt – scheinen LLMs am ehesten nach einer kohärenten Theorie zu funktionieren.
Sie produzieren Antworten, die zu ihrem Trainingsdatensatz passen, und verfolgen eine Logik der Kohärenz innerhalb dieses Datenuniversums, ohne zwangsläufig eine Übereinstimmung mit der Welt zu garantieren. Dies führt dazu, dass LLMs eine andere Art von „Wahrheit“ oder „Überzeugung“ besitzen als Menschen. Sie haben keine eigenen Überzeugungen im Sinne menschlicher mentaler Zustände, sondern statistisch basierte Wahrscheinlichkeiten, die in Textform umgesetzt werden. Die Frage, ob LLMs also absichtlich „Bullshit“ produzieren, ist angesichts dieses Hintergrunds spannend. Ohne eigene Intention vereint ein LLM die Fähigkeit zum Erzeugen von überzeugenden, aber möglicherweise falschen oder unsinnigen Ausgaben.
Studien zeigen, dass die Rate an „Halluzinationen“ ohne menschliches Eingreifen hoch sein kann. Durch Methoden wie Reinforcement Learning mit menschlichem Feedback (RLHF) lassen sich diese Fehler jedoch deutlich reduzieren. Dennoch bleibt die Grundneigung bestehen. Dies hat mit der Aufgabe eines LLMs zu tun: es ist darauf ausgelegt, die wahrscheinlichste nächste Textsequenz zu finden und nicht darauf, Wahrheiten zu prüfen oder ethische Überlegungen zu berücksichtigen. Ähnlich wie ein Papagei, der Wörter nachahmt ohne ihre Bedeutung zu verstehen, erzeugt ein LLM Text, ohne Bedeutung wirklich zu „verstehen“.
Doch es ist wesentlich, diese Analogie nicht zu übervereinfachen. LLMs haben ein hohes Maß an Komplexität und können oft Texte mit erstaunlicher Kohärenz und thematischer Tiefe erzeugen. Philosophisch ist es daher möglich, zwischen mentalen Zuständen der Klasse A („verstehen“, „wissen“) und Klasse B („verstehen*“, „wissen*“) zu unterscheiden. Während die erste Klasse echte Bedeutung und Bewusstsein voraussetzt, beschreibt die zweite Klasse funktionale oder mechanische Entsprechungen. LLMs würden eher in diese zweite Kategorie fallen, was ihre Einordnung erschwert.
Ein weiterer interessanter Punkt ergibt sich aus der ethischen Bewertung. Wenn LLMs dazu neigen, „Bullshit“ zu produzieren, weil sie keine Haltung zur Wahrheit einnehmen, stellt das bedeutende Herausforderungen für den Umgang, die Regulierung und den Einsatz dieser Technologien dar. Es wird immer wichtiger, Mechanismen zu entwickeln, die Fehlinformationen erkennen und minimieren. Zudem muss Transparenz gegenüber Nutzern geschaffen werden, damit klar ist, dass KI-Ergebnisse zwar hilfreich, aber nicht unfehlbar sind. Auch die Frage nach Verantwortung ist zentral: Wer haftet für falsche oder irreführende KI-Antworten? Abschließend lässt sich festhalten, dass große Sprachmodelle nicht „Bullshitter“ im menschlichen Sinne sind, da ihnen die bewusste Haltung gegenüber Wahrheit fehlt.
Allerdings besitzen sie eine systematische Neigung, beleglose oder falsche Aussagen zu generieren, wenn dies innerhalb ihrer „Logik“ der Textvorhersage wahrscheinlich erscheint. Rein philosophisch fordern LLMs uns heraus, unser Verständnis von Intelligenz, Verständnis und Wahrheit neu zu denken. Im technischen Bereich gilt es weiterhin, die Zuverlässigkeit dieser Modelle zu verbessern und ihre Anwendung verantwortungsbewusst zu gestalten. So können sie hilfreiche Werkzeuge bleiben, die uns bereichern, anstatt uns in einer Welt von unkontrolliertem „Bullshit“ zu verlieren.