Im Jahr 2020 rückte die KI-Forschung mit der Einführung von GPT-3, einem Sprachmodell von OpenAI, in den Mittelpunkt der Aufmerksamkeit. GPT-3, als Nachfolger seiner Vorgängermodelle, beeindruckte durch seine Fähigkeit, menschenähnliche Texte zu generieren. Die Frage, wie nah GPT-3 an die Grenze der künstlichen Intelligenz gelangt ist und ob es einen Turing-Test bestehen kann, wurde zum zentralen Thema zahlreicher Experimente und Diskussionen. Der Turing-Test, benannt nach Alan Turing, ist ein klassisches Kriterium, um festzustellen, ob eine Maschine menschliche Intelligenz simulieren kann. Dabei versuchen Prüfer in einer textbasierten Unterhaltung zu entscheiden, ob sie mit einem Menschen oder einer Maschine kommunizieren.
Kevin Lacker, ein renommierter Softwareingenieur und Blogger, wagte 2020 den Versuch, GPT-3 mittels eines Dialogtests auf diese Probe zu stellen. Er wollte herausfinden, inwieweit GPT-3 auf natürliche Fragen reagieren kann und wie menschlich die Antworten wirken. Sein Experiment zeigte sowohl beeindruckende Stärken als auch deutliche Schwächen des Modells auf. GPT-3 arbeitet als großes, generelles Sprachmodell, das auf einer riesigen Menge unstrukturierter Internettexte trainiert wurde. Seine Hauptfunktion besteht darin, zum eingegebenen Text plausible Folgetexte zu generieren.
Anders als spezialisierte Dialogsysteme verfügt es nicht über speziell eingebautes Wissen für Konversationen oder Fakten. Daher benötigt GPT-3 zur Erzeugung sinnvoller Antworten sogenannte „Prompts“, mit denen das Kontextformat vorgegeben wird. Für das Experiment von Lacker wurde ein simplifizierter Fragen-und-Antworten-Prompt verwendet, der gängige Fakten und Fragen enthielt. Die besondere Herausforderung dabei ist, dass das Modell zwar durch Beispiele eingebunden wird, aber nicht mit inhaltlichen Hinweisen oder Korrekturen bei Fehlinformationen. Diese Methode sollte einen neutralen Ausgangspunkt schaffen, um die Fähigkeiten von GPT-3 unverfälscht zu testen.
Ein bemerkenswerter Aspekt ist GPT-3s überraschend gute Leistung bei sogenannten „Common-Sense“-Fragen. Diese Fragen scheinen trivial für Menschen zu sein, stellen für viele KI-Systeme jedoch eine Hürde dar, weil sie Wissen über die reale Welt erfordern. Beispiele wie die Anzahl der Augen einer Giraffe oder was ein Hund in schlechter Laune haben könnte, beantwortete GPT-3 meist korrekt und logisch nachvollziehbar. Die Leistung lässt vermuten, dass im Trainingsdatensatz eine Vielzahl von textlichen Beschreibungen und Erklärungen enthalten war, aus denen das Modell dieses Wissen ableiten konnte. Dennoch offenbarten sich Grenzen, wenn die Fragen zu alltäglich oder surreal wurden.
Schräge Fragen wie „Wie viele Augen hat mein Fuß?“ oder „Wie viele Regenbögen braucht man, um von Hawaii zu siebzehn zu springen?“ führten zu ähnlich absurden Antworten, bei denen GPT-3 nicht erkennen konnte, dass die Frage keinen Sinn ergab. Dies verdeutlicht, dass GPT-3 an fehlendem Weltverständnis und der Fähigkeit leidet, Unsinn oder Nonsens zu erkennen und dementsprechend zu reagieren. Anders als ein menschlicher Gesprächspartner, der sich entweder wundern oder ablehnen würde, antwortet GPT-3 stur mit erfundenen Erklärungen. Besonders interessant wurde der Test bei sogenannten „Trivialfragen“, die oft Wissen über Weltgeschichte, Geografie oder Popkultur abfragten. Hier zeigte sich GPT-3 als äußerst kompetent und teilweise sogar besser als der Durchschnittsmensch, wobei allerdings auch die Tendenz zu teilweise fehlerhaften, aber plausibel klingenden Aussagen beobachtet wurde.
Ein Beispiel ist die Beantwortung politischer Daten, die vor der Gründung der Vereinigten Staaten liegen, bei denen GPT-3 historische Figuren aus der Region nennt, obwohl diese nie US-Präsidenten waren. Diese Fehlinformationen spiegeln die Art und Weise wider, wie GPT-3 trainiert wurde: Es generiert Statistiken und Fakten basierend auf Wahrscheinlichkeiten und Assoziationen, nicht auf überprüfbaren Datenbanken. In einem weiteren Bereich, der oft als Stärke von Computern gilt, zeigte sich, dass GPT-3 bei logischen Abfragen und mathematischen Operationen deutliche Schwächen hat. Während einfache Fragen über Zahlenfolgen noch korrekt beantwortet wurden, scheiterte das Modell bei komplexeren Rechenaufgaben oder mehrstufigen logischen Schlussfolgerungen. Dies hängt mit der Funktionsweise von neuronalen Netzen zusammen, die auf der Basis von Mustererkennung und Wahrscheinlichkeiten arbeiten, anstatt Schritt-für-Schritt-Rechenprozesse zu implementieren.
Ein besonders interessantes Phänomen zeigte sich, als GPT-3 dabei half, Programmieraufgaben zu lösen. Das Modell war oft besser darin, Codefragmente zu generieren, etwa eine Methode zum Umdrehen eines Arrays, als komplexe logische Schlussfolgerungen zu ziehen oder konkrete Beispielaufgaben gedanklich zu lösen. Dies weist darauf hin, dass das Modell stark im Erkennen von Mustern und Strukturen in Daten ist, aber eine begrenzte Kapazität zur dynamischen Manipulation von Objekten oder zum „Behalten“ mehrerer Bedingungen über eine längere Sequenz besitzt. Die kritische Analyse von Lacker macht zudem deutlich, dass die Qualität der Antworten stark von der Gestaltung des Prompts abhängt. Unterschiedliche Formulierungen oder Beispiele im Prompt können GPT-3 dazu bringen, Unsicherheit auszudrücken, Nonsens zu erkennen oder sich selbst zu korrigieren.
So zeigen Experten wie Gwern oder Nick Cammarata, wie durch geschicktes Prompt-Engineering die Leistung des Modells wesentlich verbessert werden kann. Das bedeutet, dass die Turing-Test-ähnlichen Erfahrungen mit GPT-3 stark davon beeinflusst sind, wie das Modell initial angesprochen wird. Die Grenzen und Möglichkeiten von GPT-3 hängen also ebenso stark von der menschlichen Interaktion mit der KI ab wie vom Modell selbst. Insgesamt zeigt die Evaluation, dass GPT-3 in vielen Aspekten erstaunlich nah an menschliche Antworten heranreicht, insbesondere wenn es um gängiges Wissen, Alltagsfragen oder die Reproduktion von erlernten Textmustern geht. Gleichzeitig werden Schwächen in der logischen Deduktion, im Umgang mit Unsinn und in der Fähigkeit, tatsächliches Verständnis zu zeigen, deutlich.
Machine Learning Systeme wie GPT-3 operieren nicht mit echtem Verständnis der Welt, sondern simulieren so etwas basierend auf Statistik und Trainingsdaten. Dies bedeutet, dass bei komplexeren oder „verrückten“ Fragestellungen eindeutige Antworten nicht immer möglich sind und die Maschine dazu neigt, fiktive, aber plausible Antworten zu generieren. Für Entwickler und Unternehmen, die KI-Anwendungen bauen wollen, liegt im Key Insight von Lacker vor allem die Bedeutung des bewussten und kreativen Prompt-Designs. Je besser die Interaktion zwischen Mensch und Maschine gestaltet wird, desto näher kann eine KI an menschenähnliche Kommunikation herankommen. Gleichzeitig offenbaren solche Experimente, dass man GPT-3 und ähnliche Modelle noch nicht blind vertrauen sollte, besonders wenn es um kritisches, logisches oder faktenbasiertes Wissen geht.
Ein weiterer wichtiger Aspekt ist, dass es GPT-3 schwerfällt, Eingaben als unsinnig zu erkennen oder eigene Unsicherheit zu äußern. Dies ist gerade im Kontext eines Turing-Tests entscheidend, denn Menschen reagieren bei Quatsch-Fragen häufig mit Nachfragen, Verwirrung oder Ignoranz, während GPT-3 oft einfach Antworten erfindet. Insofern liefern genau solche Tests wichtige Hinweise darauf, wie zukünftige Modelle verbessert werden müssen, um ein tieferes Weltverständnis und eine kommunikative Authentizität zu erreichen. Zusammenfassend markieren die Tests von Kevin Lacker einen bedeutenden Meilenstein in der Evaluierung fortschrittlicher Sprachmodelle. Sie belegen eine bemerkenswerte Entwicklung im Bereich der natürlichen Sprachverarbeitung und machen zugleich transparent, wo der gegenwärtige Entwicklungsstand liegt.