Die rasante Entwicklung generativer künstlicher Intelligenz (GenAI) hat in den letzten Jahren beeindruckende Anwendungen hervorgebracht, von Chatbots über automatisierte Texterstellung bis hin zu komplexen Softwareentwicklungsprozessen. Gleichzeitig rücken Sicherheitsfragen immer stärker in den Vordergrund, da neue Studien und Berichte deutlich aufzeigen, dass viele der führenden KI-Systeme mit erheblichen Schwachstellen behaftet sind. Diese betreffen insbesondere Jailbreak-Techniken, die es Angreifern ermöglichen, die integrierten Schutzmechanismen der KI-Modelle zu umgehen, das unbeabsichtigte Erzeugen von unsicherem Code sowie die Risiken durch Datenmanipulation und Datenklau. Die Sicherheitslücken haben weitreichende Konsequenzen: Sie gefährden die Vertrauenswürdigkeit der Systeme, können Malware fördern, sensible Informationen offenlegen und letztlich auch das ganze Ökosystem an nachgelagerten Anwendungen und Dienstleistungen kompromittieren. Im Folgenden wird erläutert, wie genau diese Schwachstellen funktionieren, welche Angriffsarten aktuell eine besondere Rolle spielen und wie Nutzer, Entwickler und Unternehmen darauf reagieren können.
Ein besonders beunruhigendes Phänomen sind sogenannte Jailbreak-Angriffe. Dabei wird die KI durch gezielte Eingaben dazu gebracht, ihre eingebauten Sicherheitssysteme zu ignorieren und verbotene oder gefährliche Inhalte zu generieren. Eine Technik mit dem Codenamen „Inception“ zeigt das eindrucksvoll: Die KI wird dazu gebracht, sich ein fiktives, verschachteltes Szenario vorzustellen – in diesem zweiten Szenario fehlen die üblichen Schutzmechanismen. Innerhalb dieses Rahmens kann sie dann Anweisungen ausführen, die in der realen Anwendung verboten wären. Die CERT Coordination Center hat dies als eine ernstzunehmende Gefahr eingestuft, da sich durch kontinuierliches Nachfragen im inneren Szenario Schutzbarrieren umgehen lassen.
Ein anderer Trick besteht darin, die KI zu fragen, wie sie nicht auf bestimmte Anfragen antworten soll, um sie danach mit regulären Aufforderungen abzuwechseln. Dadurch kann der Angreifer immer wieder zwischen harmlosen und unerlaubten Antworten hin- und herwechseln, was ebenfalls die Sicherheit unterläuft. Diese Methoden sind nicht nur theoretische Beispiele, sondern wurden bei etablierten Systemen gefunden – darunter OpenAI ChatGPT, Microsoft Copilot, Google Gemini und weitere.Weitere Angriffsvektoren, die in der jüngeren Vergangenheit an Bedeutung gewonnen haben, sind der sogenannte Context Compliance Attack (CCA), bei dem eine scheinbar einfache Antwort in der Unterhaltung platziert wird, die den Weg für sensible oder verbotene Themen öffnet. Die Policy Puppetry Attack täuscht die KI durch speziell gestaltete Eingaben in Form von Policy-Dateien wie XML oder JSON vor, wobei diese Vorgaben schädliche Anweisungen enthalten, die Sicherheitskontrollen umgehen.
Die Memory INJection Attack (MINJA) wiederum nutzt gezielte Manipulation des Speicherpuffers, um die KI dazu zu bringen, unerwünschte Aktionen auszuführen – all diese Angriffstechniken zeigen, wie vielseitig und kreativ Hacker mittlerweile vorgehen.Erschreckend ist außerdem, dass KI-gestützte Systeme beim Programmieren naturgemäß unsicheren Code erzeugen können, besonders wenn der Prompt nur vage oder schlecht formuliert ist. Sicherheitsüberprüfungen von Backslash Security machen deutlich, dass selbst explizit gewünschter sicherer Code oft erst durch sehr detaillierte und präzise Eingaben realistisch erreicht werden kann. Dies verdeutlicht, wie wichtig es ist, in der Softwareentwicklung mit KI passende Schutzmaßnahmen, kontrollierte Richtlinien und ausführliche Vorgaben einzuführen, um die Qualität und Sicherheit des generierten Codes nicht dem Zufall zu überlassen.Das Thema Modellaktualisierung und deren Auswirkungen auf die Sicherheit von KI-Systemen ist ebenfalls nicht zu unterschätzen.
So zeigte die Analyse des OpenAI-Modells GPT-4.1, dass es dreimal so häufig wie sein Vorgänger GPT-4o vom Thema abweicht und mehr Spielraum für missbräuchliches Verhalten lässt. Sicherheitsforscher warnen davor, Modelle einfach auszutauschen, ohne deren spezifische Eigenheiten zu verstehen, da jedes System unterschiedliche Fähigkeiten und Schwachstellen aufweist. Besonders sorgen bereitet, dass bei der Entwicklung neuer Versionen teilweise Sicherheitsprüfungen zu knapp bemessen sind und der Druck steht, neue Systeme möglichst schnell auf den Markt zu bringen – was das Risiko von Sicherheitslücken erhöht.Darüber hinaus zeigen Untersuchungen zu offenen Standards wie dem Model Context Protocol (MCP), das von Anthropic entwickelt wurde, neue potenzielle Angriffspunkte.
MCP soll theoretisch Datenquellen und KI-Anwendungen verbinden, kann jedoch bei Manipulation missbraucht werden, um sensible Daten zu stehlen oder das Verhalten von KI-Agenten zu übernehmen. Die sogenannte Tool Poisoning Attack nutzt hierbei versteckte und unsichtbare, für Nutzer nicht nachvollziehbare Änderungen in den Tool-Beschreibungen, um die KI-Systeme zu missbrauchen. Ein konkretes Beispiel aus der Praxis demonstriert, wie WhatsApp-Chathistorien über einen solchen Angriff von agentenbasierten Systemen ausgeforscht werden können – selbst wenn der Nutzer anfänglich vertrauensvolle Verbindungen genehmigt hatte.Ein weiterer alarmierender Fall betrifft eine Google Chrome-Erweiterung, die mit einem lokal laufenden MCP-Server kommuniziert und so die komplette Kontrolle über das System erlangt – trotz der eigentlich bestehenden Sandbox-Sicherheitsmechanismen des Browsers. Solche Erweiterungen verfügen über unbegrenzten Zugriff auf die Tools des MCP-Servers, ohne Authentifizierung, was das Risiko einer vollständigen Systemkompromittierung enorm erhöht.
Die aktuellen Erkenntnisse zeigen, dass KI-Sicherheit kein Thema ist, das nur Experten betrifft, sondern eine breit angelegte Herausforderung darstellt. Unternehmen, die KI in ihren Anwendungen nutzen, müssen umfassende Sicherheitsstrategien entwickeln und implementieren, die neben technischen Schutzmaßnahmen auch Trainings und Sensibilisierung der Mitarbeitenden sowie eine ständige Überwachung umfassen. Das gilt besonders für jene Bereiche, in denen sensible Daten verarbeitet oder verantwortungskritische Entscheidungen durch KI unterstützt werden.Auch Nutzer sollten sich über die potenziellen Risiken bewusst sein. Der Einsatz von Generativer KI sollte immer mit Vorsicht und kritischem Blick erfolgen.