Die rasante Entwicklung Künstlicher Intelligenz (KI) eröffnet neue Perspektiven auf die Automatisierung komplexer Tätigkeiten, die ehemals ausschließlich menschlicher Intelligenz vorbehalten waren. Besonders relevant ist die Fähigkeit von KI-Systemen, sogenannte Langzeit- oder Langzeit-Horizont-Aufgaben zu bewältigen. Darunter versteht man Aufgaben, die über einen längeren Zeitraum bestehen und zunehmend komplexer werden, was großes Potenzial signifikante Auswirkungen auf die Arbeitswelt und die ökonomische Landschaft birgt. Mit der Veröffentlichung einer bahnbrechenden Studie im März 2025 durch das Model Evaluation & Threat Research (METR) Team wurden bedeutende Erkenntnisse zur Leistungsfähigkeit moderner KI-Modelle im Bereich längerfristiger Aufgaben im Software Engineering präsentiert. Diese Untersuchungen sind maßgeblich, um herauszufinden, wie schnell KI-Modelle wirklich in der Lage sein werden, menschliche Expertise in komplexen Arbeitsprozessen zu ersetzen oder zu ergänzen.
Die Studie konzentriert sich zwar primär auf Softwareentwicklungsaufgaben, dient aber laut Fachleuten als plausibler Indikator für die Übertragbarkeit dieser Errungenschaften auf andere Bereiche, da Software die Automatisierung verschiedenster Tätigkeiten ermöglicht. Die Fähigkeit von KI, Aufgaben mit einem langen Zeithorizont auszuführen – also solche, die erhebliche Planung, Geduld und Ausdauer erfordern – ist in den letzten Jahren dramatisch gestiegen. Seit 2019 beobachten die Forscher eine Verdopplung der Zeitspanne, über die KI-Modelle kontinuierlich und verlässlich arbeiten können, etwa alle sieben Monate. Besonders bemerkenswert ist, dass sich dieser Trend im Jahr 2024 sogar beschleunigt hat. Oft wurden Langzeitaufgaben, die heute noch von Menschen in einem Monat erledigt werden, von KI-Systemen bereits mit 50 Prozent Erfolgswahrscheinlichkeit in einem Bruchteil der Zeit ausgeführt.
Die Experten prognostizieren, dass es in nur wenigen Jahren möglich sein wird, viele solcher Aufgaben vollständig zu automatisieren. Die zugrundeliegenden Messungen stützten sich auf realistische, wirtschaftlich wertvolle Aufgaben innerhalb der Softwareentwicklung, bei denen Elemente wie das Auffinden von Dokumentationen, Durchsuchen von Codebasen oder das Konsultieren von Handbüchern und Wissenquellen eine Rolle spielen. Solche „kleinen“ Teilaufgaben, oft unter einer Minute, sind essenziell für komplexere Arbeitsschritte und bilden die Basis für die Einschätzung der KI-Fähigkeiten. Vergleichswerte wurde anhand erfahrener menschlicher Fachkräfte mit akademischem Hintergrund und jahrelanger Praxis geschaffen, was den beeindruckenden Fortschritt der KI-Modelle noch deutlicher macht. Besonders die neuesten KI-Versionen wie OpenAI’s Modelle o3 und o4-mini haben gezeigt, dass sie weit über frühere Grenzen hinausgehen und den Trend, der zuvor eine Verdopplung der Zeitspanne etwa alle sieben Monate vorsah, auf sogar eine Verdopplung innerhalb von rund vier Monaten beschleunigt haben.
Diese Entwicklung könnte die Anfänge einer S-Kurve signalisieren – eine Phase rapide zunehmender Leistungsfähigkeit, die oft bei technologischen Durchbrüchen beobachtet wird. Darüber hinaus haben die KI-Systeme ihre Fähigkeiten nicht nur in Bezug auf die taskbezogene Performance verbessert, sondern auch in der Flexibilität im Umgang mit Fehlern und der Wahl geeigneter Werkzeuge. Dennoch zeigen sie bei Aufgaben, die in „unordentlichen“ oder dynamischen Umgebungen stattfinden, nach wie vor Schwächen. Solche realweltlichen Szenarien stellen die sogenannte „letzte Meile“ dar, bevor eine breite wirtschaftliche Transformation realisiert werden kann. Die Analyse der Fehlerarten beim Scheitern der KI offenbart häufige Probleme wie schlechte Planung, falsche Werkzeugauswahl, Fehler bei der mentalen Rechenleistung und vorzeitiges Aufgeben der Aufgabe.
Interessant ist, dass Verbesserungen bei den Modellen sowohl in einfachen als auch in komplexeren Umgebungen ähnlich schnell voranschreiten, was den Trend allgemeiner Leistungssteigerung über alle Einsatzbereiche hinweg unterstreicht. Eine weitere wichtige Beobachtung der Studie ist der Zusammenhang zwischen dem benötigten Kontextwissen und der Leistungsfähigkeit der KI. Aufgaben, die wenig „tribales“ oder stillschweigendes Spezialwissen erfordern, sind für KI-Systeme leichter zu bewältigen. Dies deutet darauf hin, dass Prozesse, bei denen ein hoher Grad an Formalisierung existiert oder die wenig interpretative Erklärungen benötigen, schneller von KI übernommen werden können. Im Gegensatz dazu sind Tätigkeiten, die tief in organisations- oder aufgabeninternem Wissen verankert sind, noch schwierig zu automatisieren.
Auch im Vergleich zu menschlichen Arbeitskräften zeigt sich ein Spannungsfeld: Externe, nur einmalig geschulte Arbeitskräfte schneiden in gewissen Aufgabenbereichen bis zu 18-mal schlechter ab als erfahrene interne Mitarbeiter, wobei KI-Modelle mit dem externen Mittelmaß vergleichbar sind. Dies macht deutlich, dass die Automatisierung komplexer Wissensarbeit auch von der Strukturierung und Dokumentation interner Arbeitsprozesse abhängt. Während die Studie primär Software Engineering betrachtet, zeigt sie doch übertragbare Erkenntnisse für die Zukunft vieler Wissensberufe. Die Progression der KI-Fähigkeiten deutet darauf hin, dass wir nicht nur kurzfristige Automatisierung beobachten, sondern einen langfristigen Wandel, der fast alle Branchen berühren wird. Die Forscher gehen davon aus, dass KI bis 2029 bis 2031 in der Lage sein wird, Aufgaben auszuführen, die momentan von Menschen in bis zu einem Monat erledigt werden, mit mindestens 50-prozentiger Erfolgswahrscheinlichkeit.
Sollte sich der beschleunigte Trend aus dem Jahr 2024 bis 2025 fortsetzen, könnte dieser Wendepunkt sogar noch vorgezogen werden, möglicherweise schon zwischen 2026 und 2029. Dies hat tiefgreifende wirtschaftliche und gesellschaftliche Implikationen. Die Möglichkeit, lange komplexe Aufgaben automatisiert zu erledigen, betrifft nicht nur die Effizienzsteigerung in bestehenden Prozessen, sondern auch die Verlagerung von Arbeitsrollen und die Schaffung neuer Geschäftsmodelle. Da sich die Technologie weiterentwickelt und größere Zeithorizonte erfasst, werden sich auch Anforderungen an Arbeitskräfte verändern: anstelle einfacher manueller Tätigkeit rücken Management, kreative Gestaltung und spezialisierte Überwachung in den Vordergrund. Ein weiterer faszinierender Aspekt ist die Bedeutung der gezielten Lenkung und Steuerung („Elicitation“) von KI-Modellen, um ihre Leistung zu maximieren.
Obwohl in der angesprochenen Studie nur begrenzter Aufwand auf optimale Eingabe- und Steuerungsstrategien gelegt wurde, zeigt sich, dass richtige Anleitung einen erheblichen Einfluss auf die Fähigkeit der KI hat. Dies weist auf ein großes Potenzial zur weiteren Verbesserung hin, selbst bei bestehenden Modellen. Insgesamt zeigt die Entwicklung im Bereich der KI-Fähigkeit für langfristige Aufgaben deutlich, dass wir uns an einem Wendepunkt befinden. Die Beschleunigung bei der Bewältigung komplexer, zeitraubender Tätigkeiten bietet einerseits massive Produktivitätssteigerungen, fordert andererseits aber auch, gesellschaftliche und ethische Herausforderungen ernsthaft zu adressieren. Dazu gehört die Umschulung von Arbeitnehmern, die Neuverteilung von Arbeit und Wertschöpfung sowie die Gestaltung eines Umfelds, in dem KI als Werkzeug und Partner fungiert, anstatt nur als Ersatz für menschliche Intelligenz.
Die nächsten Jahre werden zeigen, wie sich diese Fortschritte auf breiter Front auswirken, mit großer Wahrscheinlichkeit aber wird die KI in der Lage sein, immer komplexere Aufgaben in vielfältigen Wissensdomänen eigenständig zu übernehmen. Unternehmen und Organisationen, die diese Entwicklungen frühzeitig erkennen und integrieren, werden einen erheblichen Wettbewerbsvorteil erlangen. Die kontinuierliche Verfolgung von Forschungsergebnissen, wie sie das METR-Team liefert, wird dabei unerlässlich sein, um fundierte strategische Entscheidungen treffen zu können. KI ist auf dem besten Weg, nicht nur schneller, sondern auch längerfristig und nachhaltiger als je zuvor zu unterstützen – was den Übergang in eine neue Ära der menschlichen Arbeit markiert.