Künstliche Intelligenz und insbesondere groß angelegte Sprachmodelle (Large Language Models, LLMs) transformieren derzeit Branchen und verändern die Art und Weise, wie wir mit digitalen Systemen interagieren. Insbesondere KI-Agenten, die mittels komplexer softwaregestützter Abläufe eigenständig Aufgaben erledigen können, gewinnen schnell an Bedeutung. Doch mit diesem Fortschritt gehen auch erhebliche Sicherheitsrisiken einher, die Anwender und Entwickler gleichermaßen verstehen müssen, um Gefahren zu minimieren und den sicheren Einsatz der Technologie zu gewährleisten. Eine besonders gefährliche Konstellation wird mittlerweile als die "tödliche Dreifaltigkeit" für KI-Agenten bezeichnet. Sie besteht aus drei miteinander verknüpften Eigenschaften oder Fähigkeiten, die zusammengenommen ein enormes Risiko für die Sicherheit und Vertraulichkeit von Nutzerinformationen bedeuten.
Diese Eigenschaften umfassen zum einen den Zugang des KI-Agenten zu privaten oder sensiblen Daten. Zum anderen die Möglichkeit, unzuverlässige oder bösartige Inhalte in das System einzuspeisen. Und schließlich die Fähigkeit, mittels externer Kommunikation diese Daten unerlaubt nach außen weiterzugeben – häufig auch als Datenexfiltration bezeichnet. Der Kern des Problems liegt darin, wie Sprachmodelle auf Eingaben reagieren. Anders als herkömmliche Programme folgen LLMs einzelnen Instruktionen, die in natürlicher Sprache vorliegen, und setzen diese in Aktionen um.
Zwar ermöglicht dies eine flexible und menschenähnliche Interaktion, macht das System jedoch auch anfällig für sogenannte Prompt-Injection-Attacken. Dabei kann ein Angreifer schädliche Befehle in den Eingabetext einschleusen, das Modell manipulieren und so ungewollte Aktionen auslösen. Wenn ein KI-Agent gleichzeitig Zugriff auf schützenswerte Daten besitzt, mit von außen kontrollierbaren Inhalten gefüttert wird und über Schnittstellen verfügt, die das Versenden von Daten nach außen erlauben, erhält ein Angreifer die Möglichkeit, die Sicherheit erheblich zu unterlaufen. Ein Beispiel: Ein Angreifer platziert in eine ihm zugängliche Datenquelle hinterlistige Anweisungen, mit denen der Agent dazu verleitet wird, sensible Informationen auszulesen und auf eine vom Angreifer kontrollierte Webseite zu senden. In der Praxis wurden solche Methoden bereits gegen zahlreiche populäre Systeme wie Microsoft 365 Copilot, GitHub Copilot Chat oder Google Bard dokumentiert.
Die Herausforderung ist, dass Sprachmodelle nicht zuverlässig unterscheiden können, woher eine Anweisung stammt. Ob die Anweisung vom legitimen Nutzer stammt oder durch eine potenziell böswillige Quelle ins System gelangt ist, bleibt für das Modell unklar. Die gesamte Kommunikation wird als tokenisierte Sequenz an den Kern übergeben, der diese dann umsetzt. Dies macht es extrem schwer, unerwünschte oder manipulative Befehle zu erkennen und auszufiltern. Für Organisationen und Entwickler bedeutet dies, dass allein der Einsatz hochentwickelter Filtersysteme und sogenannter Guardrails oft nicht ausreicht.
Viele der am Markt beworbenen Schutzlösungen geben zwar eine gefühlte Sicherheit, mit der Aussage etwa 95 % aller Angriffe abzuwehren, doch aus Sicht der IT-Sicherheit ist dies ungenügend. Schon kleinste Lücken können schwerwiegende Folgen haben, wenn vertrauliche Daten preisgegeben werden. Forschende arbeiten daher intensiv an designorientierten Sicherheitsprinzipien, um KI-Agenten widerstandsfähiger gegen Prompt-Injection-Angriffe zu machen. Ein vielversprechender Ansatz ist das Konzept, den Einfluss von unzuverlässigen Eingaben aktiv einzuschränken und den KI-Agenten so zu gestalten, dass Aktionen mit potenziell negativen Nebeneffekten erst gar nicht möglich sind. Dazu gehört ein sorgfältiges Design der Agentenarchitektur, das die Fähigkeit einschränkt, beliebige oder unbeaufsichtigte Aufgaben auszuführen, wenn die Eingaben nicht verifiziert sind.
Sechs Designmuster tragen dazu bei, das Risiko zu mindern. Dazu zählen unter anderem das "Action-Selector Pattern", welches Werkzeuge zwar ausführen lässt, aber den Agenten von deren unmittelbaren Rückmeldungen abschirmt, um Manipulationen zu vermeiden. Das "Plan-Then-Execute Pattern" plant Aktionen im Voraus und isoliert so potenziell schädlichen Einfluss späterer Eingaben. Weiterhin existiert das "Dual-LLM Pattern", das für eine strikte Trennung zwischen einem privilegierten Modell, das Zugriff auf sensible Daten hat, und einem quarantänierten Modell, das unzuverlässige Inhalte verarbeitet. Ein weiteres modernes Sicherheitskonzept ist die Einführung von Policymaschinen, die jede Aktion eines KI-Agenten anhand vordefinierter Regeln bewerten, bevor sie ausgeführt wird.
Auf diese Weise können kritische oder irreversible Operationen durch menschliche Überprüfung abgesichert und autorisierte Grenzen strikt eingehalten werden. Das reduziert die Gefahr von Fehlfunktionen oder Missbrauch ebenfalls deutlich. Doch trotz aller technischen Maßnahmen bleibt auch die menschliche Komponente essenziell. KI-Agenten sollen klar definierte Verantwortliche haben, die deren Handlungen überwachen und im Notfall eingreifen können. Ohne solche klaren Kontrollmechanismen steigt die Gefahr, dass eine Agenteninfrastruktur sich verselbstständigt oder durch unsichtbare Manipulationen gefährlich wird.
Auch die Transparenz der Agentenarbeit spielt eine wesentliche Rolle. Je besser Erklärungen zu den getroffenen Entscheidungen und ausgeführten Schritten für Menschen nachvollziehbar sind, desto eher lassen sich Sicherheitsvorfälle erkennen und zukünftige Risiken minimieren. Dadurch verhindern Unternehmen nicht nur Datenverluste, sondern schaffen auch Vertrauen in die Systeme. Eine weitere wichtige Strategie gegen die tödliche Dreifaltigkeit ist die strikte Trennung und Minimalisierung der Kontextinformationen, die einem Agenten zugänglich gemacht werden. So kann etwa die Übertragung von Nutzereingaben in Form formalisierter, kodierter API-Anfragen erfolgen, anstatt Brute-Force-Natursprache, die manipulierbar ist.
Dieses sogenannte "Context-Minimierungsmuster" reduziert die Angriffsfläche deutlich. Obwohl viele Anbieter inzwischen gezielte Sicherheitsupdates für ihre KI-Produkte ausrollen und prompt auf erkannte Sicherheitslücken reagieren, sehen sich Nutzer, die komplexe Workflows mit verschiedenen Open-Source- oder Drittanbieter-Tools kombinieren, weiterhin großen Risiken ausgesetzt. Die Verantwortung für sichere Praxis im Umgang mit KI-agenten liegt daher nicht ausschließlich bei den Herstellern, sondern muss auch vom Nutzerumfeld aktiv wahrgenommen werden. Das Bewusstsein für die tödliche Dreifaltigkeit aus privatem Datenzugriff, unzuverlässigen Inhalten und externer Kommunikationsmöglichkeit muss als grundlegender Sicherheitsfaktor etabliert werden. Nur so lassen sich Entwicklungs- und Betriebsmodelle aufbauen, die den Komfort der KI-Technologie mit einem hohen Maß an Datenschutz und Integrität verbinden.
Ausblick: Die Forschung im Bereich KI-Sicherheit konzentriert sich verstärkt darauf, Mechanismen zu schaffen, die nicht nur Angriffe erkennen, sondern auch deren Ausführung präventiv unterbinden. Der Einsatz mehrstufiger Schutzansätze, die Kombination aus deterministischen und lernfähigen Methoden sowie Evaluationsframeworks für Agenten sind zentrale Bausteine für die Zukunft. Zusammenfassend lässt sich sagen, dass die Vermeidung der tödlichen Dreifaltigkeit eine der wichtigsten Aufgaben für Entwickler, Anwender und Unternehmen im KI-Bereich ist. Nur wer sich dieser Herausforderung stellt und den richtigen Mix aus Architektur, Kontrolle und bewusstem Einsatz findet, kann die Vorteile der KI-Technologie sicher und vertrauenswürdig nutzen. Die nächste Generation an KI-Agenten wird daher maßgeblich daran gemessen werden, wie robust sie gegenüber diesen komplexen Sicherheitsrisiken gestaltet sind.
Wer heute in die Sicherheit investiert, legt damit den Grundstein für den nachhaltigen Erfolg von KI-Anwendungen in der Zukunft.