In den letzten Jahren hat die künstliche Intelligenz enorme Fortschritte gemacht und wird in vielfältigen Bereichen eingesetzt – von automatisierter Textgenerierung über Bildverarbeitung bis hin zur Unterstützung komplexer Entscheidungsprozesse. Insbesondere Large Language Models (LLMs) wie GPT-4 gelten als Meilenstein der Technologie, weil sie augenscheinlich fähig sind, logisch zu argumentieren und komplexe Probleme Schritt für Schritt zu lösen. Doch eine neue Studie von Apple hinterfragt diese Fähigkeiten eindrücklich und wirft die provokante Frage auf: Denken KI-Modelle wirklich oder simulieren sie bloß das Denken? Die Studie mit dem Titel „The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity“ wurde von einem Team um Parshin Shojaee und Iman Mirzadeh veröffentlicht. Die Forscher konzentrieren sich darin auf sogenannte „simulierte Denkmodelle“ oder Simulated Reasoning (SR) Modelle, die komplexe Denkprozesse durch sogenannte Chain-of-Thought-Strategien nachahmen. Diese Methode verspricht, Schritt-für-Schritt-Lösungen zu generieren, um Probleme strukturiert zu bearbeiten.
Zu den getesteten Modellen zählten bekannte Vertreter wie OpenAIs o1 und o3, DeepSeek-R1 sowie Claude 3.7 Sonnet Thinking. Apple testete die Leistungsfähigkeit dieser Modelle anhand von vier klassischen Denkspielen: dem Türme von Hanoi Puzzle, dem Dame-Springen, dem Flussüberquerungsrätsel sowie der Blocks-Welt. Diese Rätsel sind berühmt für ihre Fähigkeit, logisches und systematisches Denken zu fordern. Dabei wurden die Aufgaben in ihrer Komplexität skaliert – von ganz einfachen Anfängen bis hin zu äußerst anspruchsvollen, die theoretisch Millionen von Berechnungsschritten erfordern.
Ein zentrales Anliegen der Studie ist, dass bisherige Bewertungen von KI eher auf das reine Endergebnis fokussieren, also darauf achten, ob die Antwort korrekt ist. Dabei bleibt jedoch offen, wie das KI-Modell zu dieser Lösung gekommen ist. Waren es echte logische Deduktionen, oder handelte es sich um eine ausgeklügelte Form des Mustererkennens auf Basis bisheriger Trainingsdaten? Hier setzt die Apple-Studie an und untersucht explizit die Qualität des Denkprozesses hinter den Antworten. Die Ergebnisse sind ernüchternd. Bei den wirklich komplexen Fragestellungen, etwa einem Türme von Hanoi mit mehr als zehn Scheiben, versagten sowohl SR-Modelle als auch „Standard“-KI-Modelle komplett.
Die Modelle zeigten eine dramatische Verschlechterung der Leistung, wenn es darauf ankam, über viele Schritte hinweg systematisch zu argumentieren. Die erzielten Lösungen blieben oft fragmentarisch und inkonsistent. Ähnliches gilt für mathematische Beweisaufgaben, deren korrekte Abarbeitung für menschliche Experten bereits eine Herausforderung darstellt. Dort erreichten die Modelle im Schnitt unter fünf Prozent korrekter Nachweise und in vielen Fällen keine einzige perfekte Lösung. Der bekannte KI-Kritiker Gary Marcus bewertete die Studie als einen „vernichtenden Beweis“ für die derzeitigen Fähigkeiten großer Sprachmodelle.
Er verwies darauf, dass solche logischen Aufgaben wie das Türme von Hanoi schon seit Jahrzehnten algorithmisch gelöst wären – seit den 1950er Jahren liegen bewährte Strategien vor. Dass moderne KI-Modelle diese nicht zumindest zuverlässig reproduzieren könnten, sei enttäuschend und zeige fundamentale Schwächen insbesondere in der Generalisierung auf neue, unbekannte Probleme. Bemerkenswert ist auch die Beobachtung eines skalenbedingten Phänomens: Während die KI-Modelle bei einfachen Aufgaben in der Lage waren, ausgiebig zu „denken“ und lange Ketten von Zwischenschritten zu produzieren, futterten sie bei zu schwierigen Aufgaben die zur Verfügung stehende Kapazität an Token rapide auf und reduzierten dann plötzlich ihre Denkaktivität, offenbar ohne einen zielführenden Lösungsweg zu finden. Dies legt nahe, dass bei zunehmender Komplexität der Verarbeitungsspielraum der Modelle stark eingeschränkt ist – ein Effekt, der mit der Trainingstechnik erklärbar sein könnte, aber auch fundamentale Beschränkungen des derzeitigen Designs offenlegt. Trotz der ernüchternden Bewertungen bleiben allerdings nicht alle Experten bei dieser Einschätzung.
Einige argumentieren, dass die Studiendaten eher auf bewusst gesetzte Beschränkungen in der Trainings- und Einsatzphase der Modelle zurückzuführen seien als auf echte Denkunfähigkeiten. Kevin A. Bryan vom University of Toronto weist beispielsweise darauf hin, dass Modelle per Reinforcement Learning so trainiert werden, übermäßiges „Überdenken“ zu vermeiden, um in der Praxis effizienter zu sein. Im realen Einsatz müsse eine KI oft schnell und plausibel antworten, ohne sich in zeitraubende Tiefenanalyse zu verlieren. Diese Sichtweise interpretiert die Apple-Ergebnisse eher als Ausweis einer technisch notwendigen Kompromisslösung.
Die Limitierungen seien also zum Teil absichtlich eingebaut, um ein übermäßiges Aufblähen des Denkprozesses zu verhindern, was in vielen Anwendungsszenarien sinnvoll und sogar erwünscht sei. Das solle aber nicht mit einer generellen Unfähigkeit zum logischen Schlussfolgern verwechselt werden. Auch andere Kritiker halten die gewählten Puzzle-Bewertungen für wenig repräsentativ. Simon Willison etwa betont, dass das Testing mit den Türme von Hanoi Varianten aufgrund der begrenzten Kontextfenster der Modelle nicht schlüssig sei. Die KI stoße hier einfach an technische Grenzen der Textverarbeitung und nicht unbedingt an Denkblockaden.
Er bezeichnet die Studie als möglicherweise etwas überbewertet, mit einem zugkräftigen Titel, der zu starken Meinungsbildung führe. Diese divergierenden Betrachtungen zeigen, wie kontrovers und noch offen die Debatte über die eigentliche Natur von KI-Denken ist. Klar ist, dass die aktuellen simulierten Denkmodelle zwar beeindruckende Fähigkeiten besitzen, aber in hochkomplexen und systematisch strukturierten Problemlösungen an ihre Grenzen stoßen. Das bedeutet jedoch nicht, dass sie nutzlos sind. Im Gegenteil: In vielen Anwendungen wie Textgenerierung, Programmierung, Ideenfindung oder Datenauswertung leisten sie bereits wertvolle Dienste.
Die Studienergebnisse fordern Entwickler und Forscher jedoch heraus, bestehende Annahmen über die Intelligenz von KI kritisch zu hinterfragen. Möglicherweise erfordert der Weg zu echter maschineller Intelligenz radikal neue Architekturen oder Lernansätze, die über das reine Musterableiten hinausgehen und ein tieferes Verständnis von Konzepten und Schlussfolgerungen ermöglichen. Vor allem aber zeigen die Untersuchungen, wie wichtig Transparenz im Umgang mit KI-Fähigkeiten ist. Öffentlichkeitswirksame Marketingaussagen sollten nicht über die tatsächlichen Grenzen der Technik hinwegtäuschen. Ein realistisches Bild hilft Anwendern, Chancen und Risiken richtig einzuschätzen und technologische Fortschritte in einen sinnvollen gesellschaftlichen Kontext zu setzen.
So wartet die KI-Gemeinschaft noch auf den Durchbruch zu einer Lösung, die echte, über längere Zeiträume belastbare logische Schlussfolgerungen erlaubt. Die Apple-Studie ist ein Weckruf und eine Einladung zur intensiven wissenschaftlichen Auseinandersetzung darüber, wie man über das Mustererkennen hinaus tatsächliches Denken in Maschinen abbilden könnte. Bis dahin bleiben KI-Systeme kraftvolle Werkzeuge, deren Leistungen aber mit gesundem Maß erkannt werden müssen. Auch prominente Kritiker wie Gary Marcus räumen ein, dass die derzeitigen Sprachmodelle in Bereichen wie Programmierung, Textproduktion oder kreativer Ideenentwicklung weiterhin sehr hilfreich sein können – solange Nutzer ihre Grenzen kennen und das Verhalten der Systeme richtig interpretieren. Insgesamt markiert die neue Apple-Studie einen wichtigen Meilenstein in der KI-Forschung, indem sie nicht nur Erfolge, sondern gerade auch die Schwächen transparenter macht.
Diese Reflexion ist essentiell auf dem Weg zu robusteren, verlässlicheren und letztlich intelligenteren KI-Systemen der Zukunft.