Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte in zahlreichen Bereichen erzielt. Sie generiert beeindruckende Bilder, verfasst menschenähnliche Texte, hilft bei komplexen Programmieraufgaben und löst Prüfungen mit beachtlichen Ergebnissen. Trotz dieser Fähigkeiten hat eine neue Studie, die jüngst auf der International Conference on Learning Representations (ICLR) 2025 vorgestellt und auf dem Preprint-Server arXiv veröffentlicht wurde, eine verblüffende Schwäche dieser Systeme entlarvt: Ihre Unfähigkeit, die Zeit auf analogen Uhren korrekt zu lesen und Kalendertage präzise zu bestimmen. Dieses Ergebnis wirft ein neues Licht auf die Grenzen der gegenwärtigen KI-Technologien und eröffnet wichtige Diskussionen über die praktischen Einsatzmöglichkeiten und zukünftigen Entwicklungsrichtungen dieser Systeme. Die Untersuchung wurde von Forschern der University of Edinburgh unter der Leitung von Rohit Saxena durchgeführt.
Sie analysierten die Leistung mehrerer multimodaler großer Sprachmodelle (MLLMs), darunter Meta's Llama 3.2-Vision, Anthropic's Claude-3.5 Sonnet, Google's Gemini 2.0 und OpenAI's GPT-4o, die in der Lage sind, sowohl visuelle als auch textuelle Informationen zu verarbeiten. Die Ergebnisse zeigten, dass die Systeme das Ablesen von analogen Uhren nur in 38,7 Prozent der Fälle korrekt ausführten und bei Kalenderbestimmungen sogar noch schlechter abschnitten: Hier lag die korrekte Antwortquote bei lediglich 26,3 Prozent.
Diese Zahlen erscheinen auf den ersten Blick überraschend niedrig, gerade weil viele menschliche Nutzer schon in jungen Jahren mühelos mit Uhren und Kalendern umgehen können. Doch die Studie unterstreicht, dass der bislang oft unterschätzte Bereich der Zeit- und Datumserkennung für KI eine besondere Herausforderung darstellt. Ein wesentlicher Grund für die Fehlerquoten liegt in der Art und Weise, wie KI-Systeme trainiert werden. Traditionelle KI-Modelle basieren meist auf riesigen Mengen gelabelter Daten und erkennen Muster in diesen Trainingsbeispielen. Während viele visuelle Objekte – etwa Tiere, Fahrzeuge oder Alltagsgegenstände – relativ einheitlich dargestellt werden, variieren analoge Uhren stark in Design und Darstellung.
Es gibt Zifferblätter mit römischen Zahlen, vereinfachte Strichmarkierungen, verschiedenfarbige und unterschiedlich geformte Zeiger sowie diverse stilistische Spielarten, die das korrekte Erkennen erschweren. Zusätzlich müssen die Systeme räumliche Beziehungen erkennen, zum Beispiel wie sich die Position von Stunden- und Minutenzeigern zueinander verhält, um genaue Zeitwerte bestimmen zu können. Diese Art von räumlichem und visuellem Schlussfolgern stellt eine Herausforderung dar, die weit über bloße Objekterkennung hinausgeht. Ähnlich schwierig gestaltet sich die Aufgabe, aus einem Datum den Wochentag zu berechnen. Auf den ersten Blick erscheint dies wie eine rein mathematische Operation – eine Stärke traditioneller Computer, die jedoch für große Sprachmodelle nicht selbstverständlich ist.
Große Sprachmodelle wie GPT-4o arbeiten nicht mit klassischen algorithmischen Verfahren, sondern erzeugen Antworten basierend auf statistischen Mustern in ihren Trainingsdaten. Die Berechnung des Wochentags erfordert jedoch eine konsistente und regelbasierte Logik, die über das bloße Erkennen von Datenmustern hinausgeht. Dadurch entstehen teils erhebliche Fehler, insbesondere bei komplexeren Fragen wie der Bestimmung des 153. Tages eines Jahres oder der Berücksichtigung von Schaltjahren, die im Datenbestand nur selten explizit vorkommen. Das Ergebnis verdeutlicht einen grundsätzlichen Unterschied in der „Intelligenz“ von Maschinen im Vergleich zum menschlichen Verstehen.
Menschen erwerben früh ein intuitives Verständnis von Zeit, Raum und Zahlenlogik, das es ihnen ermöglicht, analytisch und kreativ auf neue Situationen zu reagieren. KI-Modelle dagegen simulieren Verständnis, indem sie massive Datenmengen analysieren und Wahrscheinlichkeiten berechnen, was in alltäglichen, gut dokumentierten Fällen gut funktioniert, jedoch bei spezifischen oder abstrakten Aufgaben oft versagt. Diese Erkenntnisse haben weitreichende Folgen für den Einsatz von KI in zeitkritischen Anwendungen wie Terminplanung, Automatisierung von Abläufen und assistiven Technologien. Wenn KI-Systeme beispielsweise in der Lage sein sollen, Kalenderdaten präzise zu interpretieren und zu verwalten, sind ihre derzeitigen Fähigkeiten offensichtlich unzureichend. Fehler bei der Zeit- oder Datenerkennung könnten zu fatalen Konsequenzen führen, etwa bei der Steuerung von Maschinen, in der Medizin oder im Verkehrswesen.
Die Studie fordert folgerichtig eine Neuausrichtung der Trainingsmethoden und der Architektur der KI-Modelle. Spezifische und gezielte Datensätze, die räumliches und logisches Denken stärker fördern, könnten die Lücken schließen. Ebenso bedürfe es innovativer Methoden, die klassische Algorithmen und maschinelles Mustererkennen besser miteinander kombinieren, um etwa mathematische Berechnungen und räumliche Wahrnehmung robust umzusetzen. Eine rein datengetriebene Herangehensweise stößt hier offensichtlich an ihre Grenzen. Darüber hinaus plädiert Rohit Saxena und sein Team dafür, dass KI-Anwendungen, die mit wichtigen realen Aufgaben betraut sind, weiterhin mit menschlicher Kontrolle und rigoroser Qualitätsprüfung begleitet werden sollten.
So könne man Fehlerquellen minimieren und das Vertrauen in die Systeme erhalten. Zusammengefasst zeigt die neue Forschung, dass KI trotz beeindruckender Fortschritte keineswegs fehlerfrei ist und sich in einigen scheinbar simplen, aber fundamental wichtigen Alltagsaufgaben noch beträchtliche Defizite offenbaren. Die Fähigkeit, Zeit abzulesen und Kalenderdaten korrekt zu interpretieren, ist nicht nur eine technische Herausforderung, sondern symbolisiert auch die tieferliegenden Grenzen heutiger künstlicher Intelligenz. Diese Ergebnisse sollten nicht als Rückschritt verstanden werden, sondern als wichtige Orientierung für die Weiterentwicklung von KI-Systemen. Die Zukunft der künstlichen Intelligenz liegt nicht allein in der Erhöhung der Datenmenge oder der Größe der Modelle, sondern in einer gezielten Verbesserung der Fähigkeit, logisches Denken, räumliche Wahrnehmung und symbolisches Rechnen zu meistern.