Die rasanten Fortschritte im Bereich der Künstlichen Intelligenz (KI) bestimmen zunehmend unseren Alltag und verändern viele Lebensbereiche grundlegend. Während das klassische Mooresche Gesetz durch die Verdopplung der Transistoranzahl auf Mikrochips alle zwei Jahre eine stetige Leistungssteigerung der Computerhardware beschreibt, zeichnet sich nun eine neue Art von exponentiellem Wachstum ab – eine Version des Mooreschen Gesetzes für KI. Diese beschreibt nicht nur eine Verbesserung der Leistung, sondern vor allem die zunehmende Fähigkeit von KI-Systemen, immer längere und komplexere Aufgaben autonom zu bewältigen. Im Zentrum der Forschung steht die Fragestellung, wie man die Fähigkeiten moderner KI-Agenten objektiv messen und quantifizieren kann. Eine innovative Herangehensweise ist die Bewertung der Aufgabenlänge, die ein KI-Modell mit einer bestimmten Erfolgswahrscheinlichkeit ohne menschliche Unterstützung erledigen kann.
Dabei orientiert sich die Methode daran, wie viel Zeit menschliche Fachkräfte für die Lösung dieser Aufgaben benötigen. Die so erfasste „Aufgabenlänge“ spiegelt somit die Komplexität und den Umfang der Herausforderung wider – von kurzen, einfachen Aufgaben bis hin zu mehrstündigen oder sogar mehrtägigen Projekten. Dieser Ansatz wurde im Rahmen aktueller Forschungsarbeiten eingehend untersucht. Dabei zeigt sich klar ein exponentieller Trend: Die maximal bearbeitbare Aufgabenlänge bei einer Erfolgswahrscheinlichkeit von 50 Prozent verdoppelt sich etwa alle sieben Monate. Über einen Zeitraum von sechs Jahren hinweg hat sich dieser Faktor stetig erhöht, sodass KI-Agenten heute in der Lage sind, Aufgaben zu bewältigen, die früher mehrere Minuten dauerten, nun aber selbst bei einstündigen Herausforderungen Erfolg zeigen.
Die Prognosen für die nahen Jahre sind dabei beeindruckend – wenn sich der Trend fortsetzt, könnten KI-Systeme in weniger als einem Jahrzehnt autonome Aufgaben übernehmen, die derzeit menschliche Fachkräfte mehrere Tage oder Wochen beschäftigen. Diese Entwicklung ist nicht nur eine technische Errungenschaft, sondern hat weitreichende gesellschaftliche und wirtschaftliche Auswirkungen. Während heutige KI-Systeme bereits in vielen Bereichen die menschliche Leistung übertreffen, etwa bei textbasierten Vorhersagen oder dem Bestehen komplexer Prüfungen, sind sie bislang kaum in der Lage, große Projekte eigenständig abzuschließen. Besonders schwierig bleibt die Koordination und zuverlässige Ausführung längerer Handlungssequenzen. Untersuchungen zeigen, dass KI-Modelle fast immer erfolgreich bei Aufgaben sind, die Menschen weniger als vier Minuten kosten, aber bei Aufgaben, für die Menschen mehr als vier Stunden benötigen, sinkt die Erfolgsquote rapide auf ungefähr zehn Prozent ab.
Die Herausforderung liegt also weniger im grundlegenden Wissen oder der Fähigkeit zu Einzelschritten, als vielmehr in der Aneinanderreihung vielschichtiger Arbeitsschritte. Das Bild, das diese Forschung zeichnet, erklärt, warum KI zwar auf vielen Benchmark-Tests herausragende Ergebnisse zeigt, im Praxisalltag jedoch noch nicht die erhoffte Automatisierung von komplexen Tätigkeiten ermöglicht. Das stete Wachstum der Fähigkeiten lässt jedoch darauf schließen, dass die bisherige Kluft schnell kleiner wird. Ein weiterer interessanter Aspekt ist die Robustheit des Trends, der sich trotz unterschiedlicher Datensätze, Methodiken und Analysemodelle als bemerkenswert konsistent erweist. Diverse Teilmengen der Aufgaben, die von sehr kurzen und überschaubaren Programmieraufgaben bis hin zu vielfältigen multi-step Problemlösungen reichen, bestätigen das exponentielle Wachstum.
Auch wenn Sensitivitätsanalysen methodische Ungenauigkeiten simulieren, verändert sich das prognostizierte Tempo nur moderat. Selbst wenn absolute Messwerte um den Faktor zehn abweichen, variieren die Vorhersagen zum Zeitpunkt des Erreichens komplexerer Aufgabenlängen nur um etwa zwei Jahre. Eine ergänzende Datenbasis, die auf unabhängig erfassten Schätzungen menschlicher Arbeitszeiten basiert, unterstützt zudem die Annahme eines noch schnelleren Fortschritts, mit einer Verdopplung der bearbeitbaren Aufgabenlänge alle drei Monate. Diese Beobachtungen sind vielversprechend, weisen jedoch auch darauf hin, dass die Entwicklung insbesondere für die letzten Jahre dynamischer und folglich zukünftige Schätzungen noch etwas unsicherer sein könnten. Die Implikationen dieser Forschung sind vielfältig.
Für die Gestaltung von Benchmark-Tests und die Entwicklung geeigneter Evaluationsmethoden liefert die zeitbasierte Messgröße ein praktisches Werkzeug, das reale Leistungsmerkmale abbildet und eine bessere Vergleichbarkeit zwischen Modellen ermöglicht. Für Prognosen im Bereich technischer Innovationen und deren gesellschaftliche Auswirkungen schafft diese Sichtweise ein klareres Verständnis der Geschwindigkeit und des Potenzials künftiger KI-Systeme. Darüber hinaus steht die Fortschrittskurve der KI-Fähigkeiten in engem Zusammenhang mit Fragen zu Risikoabschätzung und Regulierung. Die Fähigkeit autonom agierender Systeme, zukünftig umfangreiche Projekte ohne menschliches Eingreifen auszuführen, birgt sowohl Chancen als auch Herausforderungen. Die Automatisierung umfassender Aufgabenbereiche kann Produktivität und Innovationsfähigkeit signifikant steigern, etwa bei Softwareentwicklung, wissenschaftlicher Forschung oder administrativen Tätigkeiten.
Gleichzeitig entstehen ethische, sicherheitstechnische und wirtschaftliche Risiken, die durch angemessene Politik und Regulierung adressiert werden müssen. Offene Forschungsprojekte und Initiativen wie das von METR bieten umfassende Infrastruktur und Daten, die anderen Forschern und Entwicklern ermöglichen, auf den Erkenntnissen aufzubauen, sie zu replizieren und zu erweitern. Die Kooperation innerhalb der Wissenschaftsgemeinde ist entscheidend, um sowohl die Evaluation von KI-Qualitäten zu verbessern als auch besser einschätzen zu können, wie und wann leistungsfähige KI-Anwendungen die Gesellschaft grundlegend verändern werden. Insgesamt zeigt die Betrachtung der „Aufgabenlänge“ als Maß für KI-Fähigkeiten eine neue Perspektive auf die Fortschritte im Bereich der Künstlichen Intelligenz. Sie vereint technische Messbarkeit mit direktem Bezug zum realen Einsatz und schafft damit eine Brücke zwischen abstrakten Benchmarks und praktischen Anwendungen.
Das kontinuierliche exponentielle Wachstum der erfolgreichen Bearbeitung längerer Aufgaben deutet darauf hin, dass wir in den nächsten Jahren bedeutende Sprünge in Richtung vollständig autonom handelnder KI-Agenten erleben werden. Diese Entwicklung hat tiefgreifende Konsequenzen für Arbeitswelten, Wirtschaft und Gesellschaft – Chancen und Risiken deutlich einschätzbar machen zu können, wird dabei unverzichtbar sein. Um auf die dynamische Evolution der KI vorbereitet zu sein, gilt es, nicht nur technologische Innovationen zu fördern, sondern auch ethische Leitlinien und gesetzliche Rahmenbedingungen stetig weiterzuentwickeln. Die Kombination aus Fortschrittsmessung, wissenschaftlicher Kooperation und gesellschaftlichem Diskurs wird den Weg bereiten, damit die neuen KI-Fähigkeiten im Sinne aller gewinnbringend eingesetzt werden können.