Die Entwicklung und Nutzung großer Sprachmodelle (LLMs) hat in der Welt der Künstlichen Intelligenz in den letzten Jahren enorm an Bedeutung gewonnen. Insbesondere kleinere Modelle mit nur wenigen Milliarden Parametern, wie ein 4 Milliarden Parameter großes LLM, werfen spannende Fragen auf: Wie intelligent sind diese Modelle wirklich? Können sie komplexe Aufgaben selbstständig lösen, oder greifen sie auf versteckte Hilfsmittel zurück? Ein faszinierendes Experiment zeigt, dass ein solcher 4B LLM ohne zu betrügen in der Lage ist, ein einfaches Zahlratespiel vollkommen autonom durchzuführen – und das allein mit Hilfe von TypeScript-Code und einem speziellen Agenten-Framework namens „nanoagent“. Dieses Szenario entlarvt viele Missverständnisse über die Fähigkeiten kleinerer Modelle und gewährt wertvolle Einblicke in den Aufbau und die Funktionsweise agentenbasierter Systeme. Das Spielprinzip ist simpel, jedoch in der Umsetzung alles andere als trivial: Das Modell soll zu Beginn eine geheime Zahl zwischen 1 und 9 zufällig auswählen. Diese Zahl wird im internen Gedächtnis des Agenten gespeichert, jedoch ist sie für das Modell nicht direkt sichtbar, sodass es nicht einfach darauf zugreifen kann.
Im Anschluss greift das Modell wiederholt zu einem speziellen Werkzeug, um Zahlen zu raten. Das Werkzeug vergleicht dann seine Tipps mit der geheimen Zahl und antwortet mit Hinweisen wie „mehr als X“ oder „weniger als X“, bis das Modell schließlich korrekt errät und mit einem eindeutigen Geheimcode bestätigt. Das Besondere dabei: Die gesamte Logik läuft ohne das Zutun eines Menschen ab. Das Modell darf niemanden um Hilfe bitten, keine Vermutungen laut aussprechen, sondern darf ausschließlich über fest definierte Tools kommunizieren. Die Grundlage für dieses Experiment bildet ein minimalistisches, aber sehr effizientes Agenten-Framework namens nanoagent, das in TypeScript geschrieben ist.
Nanoagent verzichtet bewusst auf jegliche externe Abhängigkeiten. Alles läuft lokal, ohne API-Aufrufe oder Datenbanken. Ein zentrales Merkmal ist das sogenannte Model Context Protocol (MCP), welches die Interaktion zwischen Modell und Tools in einem klar strukturierten JSON-Schema regelt. Dadurch ist sichergestellt, dass das Modell wirklich nur die definierten Schnittstellen nutzen kann und insbesondere keinen Zugriff auf seine eigene Zufallszahl hat. Es muss also kreativ und systematisch seine Tipps abgeben, um schließlich zu gewinnen.
Im Kern ist das Framework so aufgesetzt, dass zwei Tools bereitgestellt werden: Ein Werkzeug wählt die zufällige Zahl aus und speichert sie in einem isolierten Speicher – das Gedächtnis des Agenten. Das zweite Werkzeug übernimmt die Rolle des Zahlerratens. Dieses Tool nimmt die Tipps entgegen und gibt dem Modell Hinweise darauf, ob die vermutete Zahl zu hoch, zu niedrig oder exakt richtig ist. Das Design des Systems erlaubt es lediglich, diese Tools in einer festgelegten Reihenfolge und nur auf bestimmte Art aufzurufen. Zudem wird ein Fehler ausgelöst, wenn ein Tool einem verbotenen Zweck dient, beispielsweise wenn das Werkzeug zur Zahlenauswahl mehr als einmal aufgerufen wird.
Besonders spannend ist dabei die Trennung zwischen dem Gedächtnis und dem Nachrichtenverlauf. Während der Agent eine Historie aller Kommunikation speichert, ist die im Gedächtnis abgelegte geheime Zahl weder für das Modell noch für den Nachrichtenverlauf sichtbar. Diese Isolation verhindert jegliches Schummeln, da das Modell nicht einfach rückwärts im Chatverlauf nach der Lösung suchen kann. Es muss vielmehr seine Rategeschicke an die Hinweise der Tools anpassen und seine Strategie eigenständig optimieren. Bevor der Agent startet, wird ihm anhand einer Systemnachricht genau erklärt, wie das Spiel funktioniert, welche Werkzeuge zur Verfügung stehen und was zu tun ist.
Eine zusätzliche Benutzer-Nachricht setzt den Startpunkt, worauf das Modell mit dem Aufruf des ersten Werkzeugs reagiert. Sobald die Zahl gewählt wurde, beginnt es mit der Raterei – und zwar ganz ohne auf eine Antwort von außen zu warten. Diese Determiniertheit spiegelt sich auch im Zustand des Systems wider, der bei jedem Schritt aktualisiert wird und sich stets an klaren Zustandsübergängen orientiert. Solche transparenten Abläufe sind in der Welt der Agenten eine Besonderheit, denn oft liegen komplexe Zustandsmaschinen, versteckte Rückrufe oder koroutinähnliche Konstrukte zugrunde. In dieser Lösung jedoch bleiben alle Schritte offen einsehbar, nachvollziehbar und nachvollziehbar.
Das macht es zum idealen Beispiel, um zu verstehen, wie Agenten-basierte LLM-Systeme im Detail funktionieren und wie man sie selbst programmiert. Die eigentliche Implementierung zeigt dabei nur rund 60 Zeilen TypeScript-Code. Schon dieser kleine Codeblock beinhaltet alle wesentlichen Bausteine: Die Definition der Tools mit ihren Verträgen und Handlern, die Anlagen des Agentenkontexts mit Speicher und Tool-Registrierung sowie eine Abbruchbedingung, welche das Ende der Spielrunde signalisiert. Ein integrierter Mechanismus zur Fehlererkennung sorgt zusätzlich dafür, dass unerlaubte Handlungen sofort erkannt und abgewiesen werden. Natürlich ist dieses Projekt weit mehr als nur ein „Spiel“.
Es ist ein Lehrbeispiel für die Architektur intelligenter Agenten, die zuverlässig und kontrolliert mit ihrer Umgebung interagieren, ohne auf externe Informationen zurückzugreifen oder fremde Daten zu missbrauchen. Der Verzicht auf zusätzliche Dienste wie Vektor-Datenbanken oder API-Aufrufe macht das System besonders robust, einfach wartbar und portierbar. Für Entwickler und Forschende bieten sich daraus vielfältige Anknüpfungspunkte. Wer einen persönlichen Assistenten bauen will, der bestimmte Werkzeuge nutzt und sich seine Informationen lokal merkt, kann auf diesem Grundgerüst aufbauen. Ebenso lassen sich komplexere Spiele oder Workflows konstruieren, bei denen das Modell mehrere Schritte plant, überprüft und autonom anpasst.
Ein weiterer Vorteil dieser Vorgehensweise liegt in der erklärbaren KI. Da alle Statusänderungen, Werkzeugaufrufe und Systemnachrichten klar protokolliert werden, ist transparent nachvollziehbar, wie und warum ein Modell zu einer Entscheidung gelangt oder welchen Plan es verfolgt. Gerade in Zeiten, in denen KI-Modelle für viele Nutzer eine Art Blackbox bleiben, ist diese Offenheit ein großer Pluspunkt. Besonders faszinierend ist, dass ein vergleichsweise kleines Modell wie Qwen3-4b, der standardmäßig im Beispiel verwendet wird, in der Lage ist, diese Aufgabe zuverlässig zu lösen. Das widerspricht dem weit verbreiteten Glauben, dass nur extrem große Modelle mit Hunderten von Milliarden Parametern nützlich sind.
Stattdessen zeigt sich, dass clevere Agentenarchitekturen und gut strukturierte Werkzeuge kleinen Modellen viel mehr erlauben, als man erwartet. Für Interessierte steht der komplette Code in einem GitHub-Repository bereit. Das erlaubt es, das Projekt lokal auszuprobieren, sich mit Details vertraut zu machen und das Verhalten der Agenten nachvollziehbar zu beobachten. Wer etwa Modelle von Ollama oder LM Studio einsetzt, kann die Beispielszenarien direkt starten und in Echtzeit mitverfolgen, wie das LLM sich die Zahl auswählt, nach und nach seine Tipps abgibt und am Ende den geheimen Beweis ausgibt. Ebenso sind Erweiterungen denkbar, die den Lernprozess des Modells verbessern oder zusätzliche Werkzeuge integrieren.
Ob man den Agenten mit weiteren Spielen konfrontiert, eine menschliche Schnittstelle hinzufügt oder den memory Patch mechanisch erweitert, bleibt der Phantasie der Entwickler überlassen. Auch in produktiven Anwendungen könnte ein ähnliches Agentenkonzept etwa bei automatisierter Planung, Workflow-Management oder dialoggestützten Systemen zum Einsatz kommen. Abschließend lässt sich sagen, dass der Spaß am Experiment nicht nur darin liegt, dass ein KI-Modell eine Zahl errät. Vielmehr markiert diese Entwicklung einen Meilenstein hin zu echter Autonomie und Intelligenz in vergleichsweise schlanken KI-Systemen. Die Kombination aus klar definierten Werkzeugen, strikt isoliertem Gedächtnis und einem transparenten Agenten-Loop schafft eine solide Basis, auf der zukünftige Innovationen aufbauen können.
Für Entwickler, KI-Enthusiasten und Forscher lohnt sich ein genauerer Blick auf dieses minimalistische, aber aussagekräftige Projekt. Es beweist: Intelligenz ist nicht allein eine Frage der Modellgröße, sondern vor allem eine Frage von Architektur, Struktur und cleverem Design.