Die Technologie rund um Künstliche Intelligenz (KI) und insbesondere Sprachmodelle hat in den letzten Jahren enorme Fortschritte gemacht. Diese Entwicklung macht es zunehmend möglich, komplexe Softwareprojekte nicht nur zu unterstützen, sondern vollständig von KI-Systemen generieren zu lassen. Ein aktuelles und bemerkenswertes Beispiel hierfür ist die Erstellung eines HTTP 2.0 Servers, der komplett von einem Large Language Model (LLM), genauer gesagt von Gemini 2.5 Pro, entwickelt wurde.
Dieses ambitionierte Projekt hebt die Grenzen der KI-gestützten Programmierung auf ein neues Level und zeigt, wie weit automatisierte Codierung inzwischen fortgeschritten ist. HTTP 2.0 ist ein weltweit anerkannter und weit verbreiteter Standard für die Kommunikation im Web. Er bringt gegenüber seinem Vorgänger viele Verbesserungen mit sich, darunter Multiplexing von Anfragen, Header-Kompression und effizienteres Verbindungsmanagement. Ein Server, der den HTTP 2.
0 Standard vollständig erfüllt, muss daher hochkomplexe Anforderungen erfüllen und zahlreiche Protokollspezifikationen genau berücksichtigen. Ein solches Vorhaben ist bereits für erfahrene Entwickler eine Herausforderung. Doch mit Gemini Pro gelang es, einen solchen Server komplett durch KI generieren zu lassen – ein Meilenstein, der die Leistungsfähigkeit moderner Sprachmodelle eindrucksvoll demonstriert. Die Idee, ein solch schwieriges Projekt der KI zu überlassen, entstand im Rahmen der Entwicklung einer neuen Workflow-Bibliothek namens Promptyped, eingebettet in einer nichtdeterministischen Programmiersprache basierend auf Haskell. Die Kernidee war, die gesamte Spezifikation und die daraus resultierenden Entwicklungsaufgaben automatisiert und systematisch zu verteilen und durch mehrere Iterationen zur fehlerfreien Version zu gelangen.
Dank klarer Protokollspezifikationen sowie umfangreichen Testwerkzeugen und Referenzclients bot das HTTP 2.0-Protokoll ein ideales Testfeld. Im Projekt wurde die Programmiersprache Go gewählt. Diese Entscheidung beruhte auf der vergleichsweise übersichtlichen Syntax und der schnellen Kompilierbarkeit von Go, was besonders in einem automatisierten, iterativen Entwicklungsprozess von Vorteil ist. Die initiale Codegenerierung dauerte etwa 59 Stunden API-Verarbeitung mit einem Kostenaufwand von rund 350 US-Dollar in Gemini 2.
5 Pro Credits. Der erste Prototyp bestand 80,6 % der Standardkonformitätstests (117 von 145 Tests). Die verbleibenden Fehler traten vor allem in Situationen auf, in denen der Server bei ungültigen oder ungewöhnlichen Eingaben korrekt Fehler hätte zurückgeben müssen, was in den üblichen Testszenarien oft unberücksichtigt bleibt. Durch ein systematisches refaktoriertes Vorgehen, bei dem das Modell kontinuierlich mit den Testergebnissen konfrontiert und angeleitet wurde, die Mängel zu beheben, verbesserte sich die Konformitätsrate schrittweise. Nach mehreren Durchläufen stieg die Erfolgsquote schließlich auf 100 % (145 von 145 Tests).
Der komplette Entwicklungsprozess beanspruchte insgesamt rund 119 Stunden API-Zeit mit einem Budget von etwa 631 US-Dollar, inklusive aller Tests und Verfeinerungen. Dabei handelt es sich aber nicht nur um ein simples automatisches Generieren von Code. Die Entwicklung wurde durch eine ausgeklügelte Kontrollschleife begleitet, bei der die KI nach jeder Änderung baut, testet und überprüft, ob die Aufgabe erfolgreich umgesetzt wurde. Probleme wie fehlerhafte Syntax oder regressionsbedingte Fehler wurden erkannt und behoben, bevor die nächste Aufgabe bearbeitet wurde. Dies stellte sicher, dass der Entwicklungsprozess Fehler zügig minimierte und die Qualität stetig erhöhte.
Erwähnenswert ist, dass der LLM den größten Teil des Codes erzeugte – etwa 100 % des eigentlichen Servers und annähernd 99,9 % der Unit-Tests, wobei geringfügige manuelle Anpassungen bei den Tests vorgenommen wurden, um Performance-Probleme zu umgehen. In einigen Fällen hatte das Modell Schwierigkeiten, fehlerhafte Log-Implementierungen zu erkennen, die die Testgeschwindigkeit beeinflussten. Diese minimalen Eingriffe sorgten letztlich für einen reibungsloseren Ablauf, wirken sich jedoch nur geringfügig auf den Grad der Automatisierung aus. Ein weiterer Faktor ist, dass das HTTP 2.0-Protokoll selbst aus verschiedenen Teilen besteht.
Während die Implementierung des Kernprotokolls vollständig durch die KI erfolgte, wurden bestimmte Spezifikationsbereiche wie HPACK (Header-Komprimierung) und TLS-Support auf bewährte, vorhandene Bibliotheken zurückgegriffen, insbesondere die Go-Standardbibliothek. Das reduziert den Umfang, den die KI selbst generieren musste, und sichert funktionale Stabilität bei besonders sicherheitsrelevanten Komponenten wie TLS. Der Aufbau und die Steuerung des gesamten Entwicklungsprozesses wurden durch eine Domänenspezifische Sprache (DSL) namens Promptyped orchestriert. Diese ermöglicht es, komplexe Abhängigkeitsgraphen zu erstellen, Aufgaben in überschaubare Einheiten zu unterteilen und durch automatisierte Prüfzyklen schrittweise den Code zu verbessern. Die Fähigkeit des Modells, Aufgaben zu verstehen, Fehlerberichte auszuwerten und problemorientiert zu reagieren, bildet das Herzstück dieser Methode.
Während der Entwicklung stellten sich einige Herausforderungen heraus, die typisch für automatisierte Programmierung sind. So führte eine fehlerhafte Sortierung der Aufgaben dazu, dass Unit-Tests zunächst nicht optimal positioniert waren, weshalb Integrationstests vorzeitig durchgeführt wurden. Auch wurden Anfangs zwei nahezu doppelte Serverkomponenten generiert, ein Problem, das durch nachträgliche Refaktorierung und Anpassen der Workflow-Pläne gelöst wurde. Dies unterstreicht, dass trotz Automatisierung ein gewisses Maß an menschlicher Überwachung und Eingriffen notwendig bleibt, um Effizienz und Klarheit zu gewährleisten. Besonders interessant sind die Verbesserungen des Promptyped-Systems, die während der Arbeit am Projekt implementiert wurden.
Dazu zählt unter anderem eine strenge Prüfung auf syntaktische Korrektheit der erzeugten Änderungen, um nachteilige Fehler frühzeitig abzufangen. Auch der Umgang mit sich wiederholenden Fehlern wurde optimiert, um Endlosschleifen zu vermeiden und durch gezielte Eingriffe den Prozess wieder in Gang zu bringen. Die Filterung und Fokussierung relevanter Protokolle und Testergebnisse reduzierte zudem die Arbeitslast der KI und beschleunigte den Fortschritt. Für die praktische Handhabung großer Quellcodebestände wurde ein innovatives Verfahren eingeführt, um nur die wichtigsten Codeausschnitte im Detail zu zeigen. Dies erlaubte dem Modell, sich auf aktuelle Aufgaben zu konzentrieren, ohne den gesamten Kontext ständig erneut analysieren zu müssen.
Das steigert nicht nur die Effizienz, sondern wirkt sich auch deutlich auf die Kosten aus, da geringerer Kontextverbrauch zu niedrigeren API-Aufwänden führt. Im Bereich der Editierung orientierte man sich von klassischen zeilenbasierten Änderungen weg zu einem Ansatz auf Grundlage von regulären Ausdrücken. Die hierbei gewonnene Robustheit verhindert typische Fehlinterpretationen durch die KI, wie Off-by-One-Fehler beim Löschen oder Hinzufügen von Codesegmenten. Kleinere Korrekturen am Tool-Call-Syntax-Handling und die Verwendung von Rohtext-Boxen zur Eingabe von Code minimierten zudem Fehler und steigerten die Ausführungssicherheit der automatischen Änderungsanfragen. Obwohl der fertige HTTP 2.
0 Server noch nicht für den produktiven Einsatz empfohlen wird – unter anderem wegen noch unzureichender TLS-Unterstützung und fehlender HTTP 1.1 Kompatibilität – bietet das Projekt einen einzigartigen Einblick in das Potential strukturierter KI-gestützter Softwareentwicklung. Es beweist, dass bereits heute anspruchsvolle und standardkonforme Software fast vollständig ohne direkten menschlichen Programmieraufwand entstehen kann. Blickt man in die Zukunft, so lässt sich vermuten, dass sich der Trend von freiform-basierten Agenten hin zu streng strukturierter KI-gestützter Entwicklung fortsetzen wird. Diese methodischen Ansätze nutzen optimale Kontextgrenzen aus, minimieren Kosten und erhöhen die Zuverlässigkeit.
Human Entwickler übernehmen dabei eher die Rolle von Architekten und Kuratoren, definieren Ziele, Spezifikationen und grobe Architektur, während repetitive und detailintensive Aufgaben von KI-Systemen übernommen werden. Für die Weiterentwicklung von Promptyped sind mehrere spannende Erweiterungen geplant. Dazu gehört eine noch feinere Fokussierung auf einzelne Funktionen statt ganzer Dateien, was den Kontextverbrauch weiter reduzieren wird. Zusätzlich wird angestrebt, gleichzeitiges Management mehrerer parallel laufender Aufgaben zu ermöglichen, was die Effizienz weiter steigert. Schließlich soll in Zukunft auch die Unterstützung anderer Programmiersprachen – etwa direkt Haskell – eingebaut werden, um breiter einsetzbar zu sein und weiteren Workflow-Typen Raum zu geben.
Insgesamt zeigt der Erfolg dieses Projekts eindrücklich, dass die Zukunft der Programmierung zunehmend von KI mitgestaltet wird. Große Sprachmodelle sind heutzutage in der Lage, anspruchsvolle, komplexe und reglementierte Software eigenständig zu schreiben, zu testen und zu verbessern. Dabei liegt die zentrale Herausforderung für Menschen darin, sinnvolle Vorgaben und Prüfmechanismen bereitzustellen und den Entwicklungsprozess strukturiert zu steuern. In einer Zeit, in der technologische Grenzen immer weiter verschwimmen, eröffnen sich durch Ansätze wie Gemini Pro und Promptyped völlig neue Perspektiven für Effizienz und Innovationskraft in der Softwareentwicklung.