In der Welt der Softwareentwicklung gewinnen große Sprachmodelle (Large Language Models, LLMs) zunehmend an Bedeutung. Sie unterstützen Entwickler beim Schreiben von Code, automatisieren Routineaufgaben und helfen bei der Fehlersuche. Doch trotz ihres Fortschritts stoßen diese Modelle an Grenzen, insbesondere wenn es darum geht, den Kontext zur Laufzeit – also die Ausführungsumgebung und die Dynamik von Programmen – zu verstehen und umzusetzen. Genau hier setzt Themisto an, ein neuartiges Benchmark, das speziell für Jupyter-Notebooks entwickelt wurde und die Fähigkeit von LLMs evaluieren soll, Laufzeitinformationen zu nutzen, um Code-Ausgaben vorherzusagen und Code selbst zu generieren. Themisto entstand aus der Erkenntnis heraus, dass bisherige Benchmarks und Evaluationsmethoden vor allem statischen Code betrachten oder sehr spezifische Aufgabenstellungen abdecken.
Die Entwickler Konstantin Grotov und Sergey Titov setzen sich damit auseinander, wie KI-Modelle in realistischer Entwicklungssituation agieren, in der der Entwickler interaktiv mit dem Code und dessen Ausführung arbeitet. Jupyter-Notebooks sind hierfür ein hervorragender Anwendungsfall, da sie eine Kombination aus Code, Ausführung und Ergebnisanzeige in einer interaktiven Umgebung darstellen. Worin liegt die besondere Herausforderung? Herkömmliche LLMs analysieren vor allem den geschriebenen Quellcode und basieren ihre Vorhersagen auf den ersichtlichen Programmstrukturen. Doch in Jupyter-Notebooks kann der Kontext durch vorangegangene Codezellen, ausgeführte Befehle und dynamisch erzeugte Daten im Speicher erheblich beeinflusst werden. Um wirklich hilfreiche Vorschläge oder korrekte Ausgabevorhersagen zu liefern, muss ein Modell also mehr als den statischen Code verstehen – es muss die Laufzeitumgebung einschließen.
Genau diese Fähigkeit wird mit Themisto getestet. Das Benchmark selbst besteht aus sogenannten Entwicklungstrajektorien, also Abfolgen von Jupyter-Notebooks, die den Entstehungs- und Bearbeitungsprozess dokumentieren. Hierbei werden sowohl der ursprüngliche Code als auch dessen Veränderungen und die jeweilige Ausgabe berücksichtigt. Die Modelle werden daraufhin evaluiert, wie effektiv sie Laufzeitinformationen bei der Codevorhersage und Generierung nutzen können. Die Ergebnisse aus den ersten Tests mit aktuellen LLMs zeigen, dass diese Modelle hier noch deutliches Verbesserungspotential besitzen.
Die Forschungsergebnisse von Grotov und Titov deuten darauf hin, dass aktuelle Modelle häufig nicht in der Lage sind, den dynamischen Kontext eines Programms angemessen zu berücksichtigen. Dies betrifft zum Beispiel das Vorhersagen von Zwischenergebnissen, das Behandeln von Variablenzuständen oder das Verstehen von Seiteneffekten. Somit liegt in der Integration von Laufzeitinformationen ein noch stark unterschätztes Feld für die Weiterentwicklung von KI-Modellen im Bereich der Programmierung. Warum sind diese Erkenntnisse für Entwickler, Unternehmen und Forschung so wichtig? Viele moderne Softwareprojekte profitieren heute von Interaktivität und dynamischer Codeausführung. Datenwissenschaft, maschinelles Lernen sowie Forschung im Allgemeinen setzen auf flexible und explorative Programmierumgebungen wie Jupyter.
Verbessert ein Modell seine Fähigkeit, Laufzeitkontext zu nutzen, kann dies die Produktivität und Genauigkeit der Entwickler signifikant steigern. Darüber hinaus können intelligente Assistenten in Zukunft passgenauer und zuverlässiger unterstützen, was letztlich zu einer Beschleunigung der Softwareentwicklung führt. Themisto bringt auch eine neue Perspektive in die Evaluation und das Design von Code-basierten KI-Systemen ein. Anstatt sich auf statischen Code zu beschränken oder isolierte Aufgaben zu betrachten, fordert dieses Benchmark die Modelle heraus, im dynamischen, interaktiven Entwicklungsprozess mitzuwirken. Dies spiegelt die Realität moderner Programmierpraxis besser wider und bietet neue Impulse für Forschung und Praxis.
Die Akzeptanz des Benchmarks auf der Deep Learning for Code (DL4C) Workshop-Konferenz 2025 bei ICLR verdeutlicht die Relevanz und Aktualität des Themas. Es rückt das Augenmerk auf eine bislang vernachlässigte Lücke in der Entwicklung intelligenter Entwicklungstools. Zudem regt Themisto Diskussionen über neue Trainingsparadigmen an, bei denen nicht nur Quellcode, sondern auch Laufzeitdaten und Ausführungszustände eingebunden werden. Ein wichtiger Aspekt von Themisto ist die Verwendung von echten Jupyter-Notebooks aus der Entwicklungspraxis als Testumgebung. Dadurch werden die Modelle mit realistischen Herausforderungen konfrontiert, die sich aus inkrementellem Entwickeln, Testen und Debuggen ergeben.
Dies erhöht die praktische Relevanz der Resultate und macht die Benchmark besonders wertvoll für alle, die KI in Softwareentwicklungsprozesse integrieren möchten. Was bedeutet das konkret für die Zukunft der KI-gestützten Programmierung? Zunächst einmal wird deutlich, dass eine stärkere Berücksichtigung von Laufzeitinformationen notwendig ist, um Künstliche Intelligenz wirkungsvoll in interaktive Programmierumgebungen zu integrieren. Hierfür bedarf es neuer Architekturen, die eine dynamische Kontextverfolgung ermöglichen und Laufzeitinformationen effizient handhaben. Darüber hinaus könnten neue Ansätze entwickelt werden, bei denen KI-Modelle selbstständig Code ausführen oder Simulationen starten, um den Ausführungszustand besser zu verstehen. Solche kontrollierten Ausführungen wären eine neue Dimension der Modellintelligenz, die weit über reines Pattern-Matching hinausgeht.
Dies würde die Rolle von KI in der Softwareentwicklung von einer rein passiven Schreibassistenz zu einem aktiven Partner transformieren. Themisto markiert einen Meilenstein, indem es auf diese neuen Anforderungen aufmerksam macht und ein Werkzeug anbietet, das den Fortschritt messbar macht. Indem Forscher und Entwickler ihre Systeme an diesem Benchmark messen, können gezieltere Verbesserungen erzielt und Schwächen adressiert werden. Zusammenfassend zeigt Themisto die Grenzen aktueller LLMs auf und legt die Grundlage für innovative Forschungsarbeiten, die Laufzeitinformationen stärker in den Mittelpunkt stellen. Dies entspricht dem generellen Trend, KI-Technologien enger mit realen Anwendungsfällen zu verknüpfen und ihre Fähigkeiten nutzbar zu machen, dort wo Interaktivität und dynamische Prozesse im Mittelpunkt stehen.
Für Entwickler, Unternehmen und die gesamte KI-Community eröffnen sich somit spannende Perspektiven, die das Programmieren in Zukunft grundlegend verändern könnten. Themisto ist damit nicht nur ein Benchmark, sondern ein Weckruf für die KI-Forschung, die künstliche Intelligenz näher an die tatsächliche Praxis Softwareentwicklung zu bringen. Die Zukunft intelligenter Code-Generierung wird davon abhängen, wie gut Modelle die Laufzeitumgebung erfassen, interpretieren und nutzen können. Wer hier vorausdenkt und investiert, gestaltet die nächste Generation digitaler Entwicklungstools und treibt die Open-Science- und Open-Source-Bewegung maßgeblich voran.