Die Integration von Werkzeugen in Large Language Models (LLMs) gewinnt zunehmend an Bedeutung, da dadurch die Funktionalität und Anwendungsbreite dieser KI-Modelle massiv erweitert werden kann. Ein entscheidender Faktor für eine nahtlose und effiziente Integration ist das zugrundeliegende Protokoll, das Kommunikation und Interaktion zwischen dem LLM und anderen Services regelt. Während das Module Context Protocol (MCP) in der Entwicklergemeinde an Popularität gewinnt, zeigt sich in der Praxis häufig, dass dieses Protokoll in Benutzerfreundlichkeit und Komplexität zu wünschen übrig lässt. Aus diesem Grund setzen immer mehr Entwickler und Forscher auf OpenAPI als alternative Grundlage für die Integration von Tools in LLMs – ein Schritt, der zahlreiche Vorteile mit sich bringt und viele Herausforderungen löst. OpenAPI, früher bekannt als Swagger, ist ein etabliertes, formalisiertes Format zur Beschreibung und Dokumentation von REST-APIs.
Sein großer Vorteil liegt in der standardisierten, maschinenlesbaren Definition der API-Struktur in JSON- oder YAML-Formaten. Diese strukturierten Daten können von verschiedensten Tools, Entwicklungsumgebungen und Frameworks genutzt werden, um automatisch Dokumentation zu generieren, Clients zu erstellen oder eben in LLM-Kontexten verwendet zu werden, um Werkzeuge formal zu beschreiben. Im Gegensatz dazu definiert MCP zwar direkt den Kontext und die möglichen Interaktionen mit Modulen, erscheint jedoch durch seine Komplexität und eingeschränkte Verbreitung weniger intuitiv. Die Notwendigkeit, ein völlig neues Protokoll für jede Erweiterung oder jedes Tool zu implementieren, sorgt für höheren Entwicklungsaufwand und erschwert die Interoperabilität. OpenAPI hingegen ist bereits weit verbreitet, gut dokumentiert und wird von zahlreichen Frameworks unterstützt, was die Entwicklung und Integration von Tools wesentlich vereinfacht.
Ein praktisches Beispiel für die Anwendung von OpenAPI bei der Anbindung externer Tools an LLMs zeigt ein experimentelles Projekt in Scala, bei dem ein minimalistisches Framework entwickelt wurde, das ohne spezielles LLM-SDK auskommt und lediglich einfache HTTP-Anfragen an LLM-Providern stellt. Dabei wird ein JSON-Schema genutzt, das dem LLM vorgibt, wie es auf Nutzereingaben reagieren soll. Diese Reaktionen können entweder direkte Antworten an den Nutzer enthalten oder die Aufforderung, eine HTTP-Anfrage an ein externes Tool zu senden. Die flexible Struktur erlaubt es nahezu jede HTTP-basierte API, basierend auf ihrer OpenAPI-Definition, als Werkzeug einzubinden. Ein weiterer zentraler Punkt ist die Handhabung von Authentifizierung.
Traditionelle Protokolle wie MCP adressieren Sicherheit und Authentifizierung nur teilweise oder sehr komplex. Im beschriebenen OpenAPI-Experiment wurde ein simplifizierter Authentifizierungsprozess implementiert: Die Tools bieten über eine sogenannte authUrl eine Webseite an, auf der Nutzer sich anmelden und anschließend Anweisungen oder Tokens erhalten können, die sie in das LLM-Interface eingeben. Das LLM nutzt diese Informationen dann, um anschließend authentifizierte HTTP-Anfragen an das Tool zu stellen. Diese Methode ist zwar noch nicht optimal, bietet aber eine funktionale und sichere Möglichkeit, um Authentifizierungsabläufe flexibel zu integrieren, ohne die Komplexität des Protokolls unnötig zu erhöhen. Die Vorteile dieser OpenAPI-gestützten Methode liegen klar auf der Hand.
Die Nutzung eines etablierten Standards spart Entwicklungszeit und minimiert Fehlerquellen. Die dokumentierte API-Struktur macht das System nicht nur für Maschinen, sondern auch für Menschen leichter verständlich und wartbar. Zudem ermöglicht die Modellierung von Werkzeugaufrufen via JSON-Schema eine klare, validierbare Interaktion, die insbesondere im Zusammenspiel mit LLMs momentan an Bedeutung gewinnt. Auch wenn OpenAPI ursprünglich für RESTful-APIs entworfen wurde und keine eingebaute Unterstützung für Features wie bidirektionales Streaming bietet, lässt sich dies durch zusätzliche Technologien kompensieren, zum Beispiel durch die Kombination mit gRPC über grpc-gateway. Dabei können bestehende gRPC-Dienste so erweitert werden, dass sie zusätzlich OpenAPI-Schnittstellen bereitstellen, wodurch sich sowohl die Vorteile von OpenAPI in der Interoperabilität als auch die Performance- und Streaming-Features von gRPC nutzen lassen.
Diese Hybrid-Architektur kann ein optimales Setup für zukunftsorientierte LLM-Tool-Integrationen darstellen. Erfahrungen aus realen Anwendungen, etwa bei der Integration eines selbstentwickelten RSS-Aggregators als Tool, bestätigen die Praxistauglichkeit dieses Ansatzes. Die LLM-Interaktion mit OpenAPI-basierten Tools zeigt, dass umfassend dokumentierte APIs dem Modell helfen, genau die notwendigen Parameter anzufordern und korrekte API-Aufrufe zu generieren. Es wird klar, dass die Qualität und Detailtiefe der API-Dokumentation entscheidend sind. Fehlen beispielsweise wichtige Parameter oder Beschreibungen, kann das LLM die Anfragen nicht zielgerichtet genug formulieren.
Eine Herausforderung bleibt jedoch das Kostenmanagement bei Nutzung großer LLMs, da das mitgeschickte OpenAPI-Dokument häufig umfangreich ist und den Prompt dadurch erheblich aufbläht. Zukünftige Verbesserungen könnten darin bestehen, nur eine komprimierte Basiszusammenfassung der APIs initial mitzugeben und bei Bedarf gezielt Detailinformationen abzurufen, ähnlich der Funktionsweise von lazy loading. Dadurch ließen sich die Nutzungskosten für die LLM-Abfragen signifikant senken. Auch Sicherheitsaspekte müssen weiter bedacht werden. Das experimentelle Setup beschränkt sich auf vertrauenswürdige APIs und setzt auf eine einfache Authentifizierungslogik, die aber noch verstärkt werden kann, indem geprüft wird, ob URLs und Hosts tatsächlich mit den vordefinierten Tools übereinstimmen.
Dadurch könnte das Risiko bestimmter Angriffsvektoren wie Tool Shadowing oder unerwünschter API-Aufrufe reduziert werden. Die Zukunftsaussichten für die Kombination von OpenAPI und LLMs sind vielversprechend. Mit der zunehmenden Verbreitung von LLMs wird die Nachfrage nach standardisierten Werkzeugprotokollen wachsen. OpenAPI hat das Potenzial, genau diesen Bedarf zu decken, da es bereits viele Entwickler und Unternehmen kennen und nutzen. Die weitere Verbesserung der Authentifizierungsmechanismen sowie die Optimierung der API-Dokumentation für LLMs werden diesen Trend noch verstärken.