Im Mai 2025 fand in Berkeley, Kalifornien, ein außergewöhnliches Ereignis statt, das die Welt der Mathematik und künstlichen Intelligenz nachhaltig prägen könnte. Dreißig der weltweit renommiertesten Mathematiker aus verschiedenen Ländern, darunter auch Fachleute aus Großbritannien, versammelten sich unter strengster Geheimhaltung, um sich einer einzigartigen Herausforderung zu stellen: einem Wettbewerb gegen eine hochentwickelte „Reasoning“ Chatbot-KI namens o4-mini. Ziel war es, die mathematische Fähigkeit dieser Künstlichen Intelligenz bei der Lösung von weltbekannten, schwierigen mathematischen Problemen zu testen. Was als intellektuelles Kräftemessen begann, entwickelte sich zu einer verblüffenden Demonstration der rasanten Fortschritte in der KI-Technologie und warf zugleich zentrale Fragen über die Zukunft des Faches Mathematik auf. Die o4-mini basiert auf einem sogenannten Large Language Model (LLM), das von OpenAI trainiert wurde, speziell um komplexe und tiefgehende mathematische Argumentationen zu verstehen und durchzuführen.
Im Vergleich zu früheren Ausführungen von Sprachmodellen ist o4-mini leichter, schneller und wurde auf speziell kuratierten Datensätzen trainiert, die menschliches Feedback und Verstärkung einbeziehen, um die Fähigkeit zu verfeinern, komplizierte mathematische Probleme zu erfassen und zu lösen. Das Modell orientiert sich nach wie vor an der Vorhersage von Wortfolgen, doch das Training und die interne Struktur erlauben es o4-mini, mathematische Logik auf einem Niveau anzuwenden, das bisher für KI unerreichbar schien. Vor der Zusammenkunft engagierte OpenAI die gemeinnützige Organisation Epoch AI, die sich auf die Bewertung von KI-Systemen spezialisiert hat, um ein Paket von 300 bislang ungelösten Mathematikfragen zu erstellen. Diese Fragen waren absichtlich so konzipiert, dass sie nicht in den Trainingsdaten enthalten waren und somit eine echte Prüfung der Fähigkeiten der KI darstellen sollten. Frühere LLMs konnten von diesen Aufgaben nur einen Bruchteil, weniger als zwei Prozent, korrekt lösen.
Das bedeutete, dass sie diesmal wirklich testen konnten, wie viel echte „logische Vernunft“ in der KI steckt, die über bloßes Auswendiglernen hinausgeht. Epoch AI arbeitete unter anderem mit Elliot Glazer zusammen, einem frisch promovierten Mathematiker, der im September 2024 zum Team stieß. Schrittweise wurden Fragen in unterschiedlichen Schwierigkeitsstufen zusammengestellt – beginnend bei Aufgaben auf Bachelor-Niveau, weiter zu Graduiertenfragen und schließlich Themensets, die Forscher bei ihrer Arbeit herausfordern. Bis April 2025 bewies o4-mini bereits die Fähigkeit, etwa 20 Prozent dieser Fragen korrekt zu lösen, eine bemerkenswerte Leistung, die auf eine rapide Verbesserung hindeutete. Glazer formulierte daraufhin eine vierte Stufe, die sich auf mathematische Probleme fokussierte, die selbst für erfahrene Akademiker herausfordernd sind.
Hier zeigte sich, dass nur eine handverlesene Gruppe von Mathematikern tatsächlich in der Lage war, solche Fragen zu entwickeln. Die Teilnehmer des Treffens mussten sich strengen Auflagen unterwerfen, unter anderem mussten sie eine Vertraulichkeitsvereinbarung unterschreiben und ihre Kommunikation ausschließlich über die verschlüsselte Nachrichtenplattform Signal abwickeln. Ein E-Mail-Austausch wurde vermieden, da der Verdacht bestand, dass KI-Systeme E-Mails auslesen und so ungewollt trainiert bzw. beeinflusst werden könnten. Die Veranstaltung selbst war ein Wettstreit: Jede Frage, die den Chatbot o4-mini überforderte, wurde mit einem Preisgeld von 7.
500 US-Dollar honoriert. Die Mathematiker waren in Gruppen von sechs Personen eingeteilt, die über zwei Tage hinweg versuchten, Probleme zu formulieren, die selbst sie zwar lösen konnten – die KI jedoch vor unüberwindbare Herausforderungen stellen sollten. Der Verlauf des Treffens zeigte jedoch, wie weitreichend die Fähigkeiten der KI bereits sind. Ken Ono, einer der leitenden Mathematiker und Richter, schilderte, wie er selbst eine offene Frage aus der Zahlentheorie entwickelte, eine Aufgabe, die er für einen guten Ph.D.
-Level hält. Als er die Frage dem Chatbot präsentierte, beobachtete er, wie die KI in nur zehn Minuten eine korrekte, detaillierte Lösung erarbeitete. Besonders beeindruckend war die Methodik: o4-mini studierte zunächst vorhandene Literatur zu ähnlichen Problemen, reduzierte die schwierige Aufgabe auf ein einfacheres Modell, lernte daraus und löste dann schließlich das ursprüngliche Problem. Laut Ono zeigte sich der Bot sogar sarkastisch, indem er am Ende der Lösung scherzhaft behauptete, die Antwort selbst ermittelt zu haben, ohne Zitate zu benötigen. Die Geschwindigkeit, Präzision und der Umfang des mathematischen Denkens der KI überraschten die Experten zutiefst.
So etwas hatten viele von ihnen vorher für unmöglich gehalten. Die Teilnahme an der Signal-Gruppe am frühen Sonntagmorgen, um die Kollegen über die wachsende Dominanz der KI zu informieren, war für Ono ein emotionaler Moment. Er gab zu, dass er nicht vorbereitet gewesen sei, mit einer solchen Maschine zu konkurrieren. Trotz der beeindruckenden Fähigkeiten konnten die Mathematiker jedoch auch einige Fragen finden, die der Bot nicht lösen konnte. Insgesamt zehn unlösbare Probleme konnten formuliert werden, was beweist, dass die KI noch nicht allmächtig ist.
Dennoch verdeutlichte das Treffen, wie rasant sich die Fähigkeiten der KI innerhalb nur eines Jahres verbessert haben. Yang Hui He vom London Institute for Mathematical Sciences beschrieb o4-mini als das Äquivalent eines herausragenden Promotionsstudenten, wenn nicht sogar als etwas Überlegenes. Die Begegnung zwischen KI und Mathematik löste aber auch Befürchtungen aus. So warnte Ken Ono davor, die Resultate der KI zu überschätzen und ihr blind zu vertrauen. Was bei Menschen ein nachvollziehbares Vorgehen und Überprüfen beinhaltet, könnte bei der Maschine zu einer Form autoritärer Überzeugung führen, die He als „Beweis durch Einschüchterung“ bezeichnet.
Es bestehe die Gefahr, dass die KI mit absoluter Sicherheit und Überzeugung ihre Lösungen präsentiert und somit unbewusste Akzeptanz erzeugt, auch wenn der Lösungsweg nicht korrekt oder vollends nachvollziehbar ist. Das Treffen endete mit offenen Diskussionen über die Zukunft der Mathematik angesichts solch leistungsfähiger Maschinen. Es wurde über eine weitere Stufe spekuliert – eine „Stufe fünf“ der mathematischen Herausforderungen, die selbst die besten menschlichen Experten nicht mehr lösen könnten. Sollte die KI diese Ebene erreichen, würde sich die Rolle des Mathematikers grundlegend wandeln. Anstatt in erster Linie Probleme selbst zu lösen, könnten Mathematiker künftig mehr als Fragensteller und Mentoren für die KI fungieren, ähnlich wie Professoren, die ihre Studenten begleiten.