In der sich schnell entwickelnden Debatte um die Leistungsfähigkeit von Large Reasoning Models (LRMs) hat Apples kürzlich veröffentlichte Studie für großes Aufsehen gesorgt. Diese Studie stellt die Fähigkeiten moderner KI-Modelle in der exakten Berechnung und beim komplexen algorithmischen Denken infrage. Eine darauf folgende Reaktion in Form eines Kommentarspapers mit Ko-Autor Claude, einem KI-Modell, wurde vielfach diskutiert. Doch bei genauerer Betrachtung erweist sich dieses Kommentarpapier als schwache und wenig überzeugende Antwort auf die zentralen Thesen der Apple-Studie. Die Gründe hierfür sind vielfältig, betreffen sowohl methodische Fehler als auch das grundlegende Missverständnis des Ursprungsproblems und der dahinterstehenden Forschung.
Zunächst einmal ist festzustellen, dass das Kommentarpapier mit mathematischen Ungenauigkeiten aufwartet. Insbesondere die Behauptung, dass die Tokenanzahl, die für die Lösung komplexer Aufgaben wie die Türme von Hanoi notwendig sei, quadratisch mit der Anzahl der Schritte wachse, ist nicht korrekt. Die Realität zeigt vielmehr, dass der Tokenverbrauch linear mit der Anzahl der Schritte skaliert. So demonstriert das Modell Gemini 2.5 Pro etwa die Fähigkeit, eine Lösung für zehn Scheiben im Türme-von-Hanoi-Problem mit weniger als zehntausend Tokens zu generieren, was ausgezeichneten Beleg für diese lineare Skalierung ist.
Diese simplifizierte Auffassung der Token-Limits untergräbt somit die Glaubwürdigkeit des Kommentarpapers bereits an diesem Punkt. Ein weiteres zentrales Problem liegt in der unzureichenden Trennung zwischen mechanischer Ausführung und echter reasoning-Komplexität. Das Kommentarpapier vermengt hier häufig die Länge der generierten Lösungsschritte mit der Schwierigkeit der zugrunde liegenden Problemstellung. Doch diese beiden Aspekte sind keinesfalls gleichzusetzen. Während die Türme von Hanoi formal viele Schritte erfordern, handelt es sich hierbei um eine mechanische Ausführung mit einem sehr kleinen Verzweigungsfaktor und minimaler Entscheidungsfindung.
Im Gegensatz dazu sind etwa River Crossing-Probleme mit einer wesentlich komplexeren Struktur versehen. Sie haben einen hohen Verzweigungsfaktor und bedürfen einer intensiven Suche und komplexer Beschränkungen, die in vielen Fällen sogar als NP-schwer gelten. Daraus folgt, dass KI-Modelle hier deutlich größere Schwierigkeiten haben, was in der Apple-Studie als Beleg für fundamentale Limitationen im reasoning-Prozess interpretiert wird. Das Kommentarpapier ignoriert diese Differenzierung weitgehend und zieht somit unsachgemäße Schlussfolgerungen. Im Widerspruch zu den eigenen Theorien liefert das Kommentarpapier zudem Daten, die genau das Gegenteil dessen belegen, was es zu widerlegen versucht.
Es zeigt beispielsweise, dass Modelle wie Claude-3.7-Sonnet und OpenAI o3 komplexe Probleme wie Türme von Hanoi mit 15 Scheiben sehr effizient lösen können und dabei in weniger als 5.000 Tokens bleiben. Das widerspricht direkt der Behauptung, dass Token-Limits Modelle in ihrem reasoning grundsätzlich einschränken. Gleichzeitig bleibt unerklärt, warum diese Modelle in der Apple-Studie dennoch häufig dazu neigen, komplexe Aufgaben vorzeitig abzubrechen oder ineffizient zu lösen, anstatt die verfügbaren Tokens optimal zu nutzen.
Dieses Paradoxon untermauert vielmehr die ursprüngliche These von systematischen Einschränkungen der reasoning-Fähigkeiten moderner LRMs. Ein besonders gravierender Kritikpunkt am Kommentarpapier ist dessen grundsätzliche Ignoranz gegenüber dem Hauptanliegen der Apple-Studie. Diese legt den Fokus nicht auf die bloße Genauigkeit der Antworten, sondern analysiert systematisch das reasoning-Verhalten, also den Prozess und die Struktur hinter der Lösungsfindung. Dabei wird festgestellt, dass die Modelle zunächst proportional zum Schwierigkeitsgrad des Problems mehr Tokens zur Problemlösung einsetzen. Ab einem bestimmten kritischen Punkt, der mit einem Leistungsabfall einhergeht, reduzieren sie jedoch überraschenderweise ihren Rechenaufwand.
Dieses Verhalten beschreibt eine fundamentale Schwäche der aktuell vorherrschenden Modellarchitekturen – eine Erkenntnis, die im Kommentarpapier schlichtweg ignoriert wird. Eine solche Vernachlässigung wichtiger Erkenntnisse und das Fehlen eines Erklärungsversuchs für die beobachteten Phänomene lassen die Erwiderung oberflächlich und unvollständig erscheinen. Die kritische Diskussion um die Grenzen moderner LLMs und LRMs wird von weiteren renommierten Forschern wie Subbaro Kambhampati und Yann LeCun unterstützt. Ihre Arbeiten zeigen auf, dass heutige Modelle trotz der beeindruckenden Fortschritte im Bereich des maschinellen Lernens grundlegende Probleme im reasoning haben, die über Token-Limitierungen hinausgehen. Das Kommentarpapier verfehlt es, diese wissenschaftliche Diskussion angemessen einzubeziehen oder gar konstruktiv darauf einzugehen.
Zudem zeigt sich, dass das Kommentarpapier als Ganzes ein zu enges Blickfeld besitzt. Es konzentriert sich fast ausschließlich auf einzelne Diskrepanzen und Fakten, ohne das komplexe Gesamtbild der Forschungslage und der zugrundeliegenden Herausforderungen zu erfassen. Vernachlässigt wird dabei auch die Bedeutung von Output-Formaten und wie sie die Effizienz und Genauigkeit von Modellen beeinflussen können – ein Aspekt, der von der Apple-Studie und anderen Forschungen als zentral herausgestellt wird. Abschließend lässt sich konstatieren, dass Claude’s Kommentarpapier als Erwiderung auf Apples LRM-Studie weder inhaltlich noch methodisch überzeugen kann. Es leidet an mathematischen Fehlern, übersieht essenzielle Differenzierungen in der reasoning-Komplexität und ignoriert maßgebliche konzeptionelle Erkenntnisse der ursprünglichen Studie.
Statt die begründeten Zweifel an der reasoning-Fähigkeit aktueller LS-Modellarchitekturen zu entkräften, bestätigt die Erwiderung letztlich deren grundlegende Schwächen. Für alle, die sich intensiv mit den Grenzen und Möglichkeiten moderner KI-Modelle beschäftigen möchten, empfiehlt es sich daher, die Originalarbeit Apples sowie vertiefende Forschung von Kambhampati und anderen führenden Wissenschaftlern genauer zu studieren. Nur so lässt sich ein fundiertes Verständnis dafür entwickeln, warum das reasoning-Verhalten von KI-Modellen trotz beeindruckender Fortschritte noch weit davon entfernt ist, menschliche Denkprozesse vollständig zu imitieren oder gar zu übertreffen.