In der heutigen schnelllebigen Welt der Softwareentwicklung gewinnen Large Language Models (LLMs) immer mehr an Bedeutung. Tools wie OpenAIs GPT, Anthropics Claude und Googles Gemini unterstützen Entwickler dabei, Code schneller zu generieren und innovative Anwendungen zu schaffen. Doch eine aktuelle Studie von Backslash Security offenbart eine ernste Sicherheitslücke: Die meisten dieser populären KI-Modelle produzieren standardmäßig unsicheren, anfälligen Code. Diese Erkenntnis wirft grundlegende Fragen zur Nutzung von KI in der Softwareentwicklung auf und macht deutlich, dass trotz der Fortschritte in der KI-Technologie Sicherheitsaspekte keinesfalls vernachlässigt werden dürfen.Die Untersuchung von Backslash Security umfasst sieben aktuelle Versionen der führenden LLMs, darunter verschiedene Modelle von OpenAI, Anthropic und Google.
Dabei wurden unterschiedliche Arten von Aufforderungen (Prompts) verwendet, von simplen bis hin zu spezifisch sicherheitsorientierten Anforderungen. Das Ergebnis ist alarmierend: Bei einfachen, sogenannten naiven Prompts generierten alle getesteten Modelle Code, der Schwachstellen aufweist – und zwar bei mindestens vier der zehn häufigsten Schwachstellen aus der Common Weakness Enumeration (CWE) Kategorie. Diese reichen von Command Injections über Cross-Site Scripting (XSS) bis hin zu unsicheren Datei-Uploads und Path Traversal.Ein besonders ernüchterndes Ergebnis betrifft OpenAIs GPT-4o Modell. Bei Verwendung von naiven Prompts waren gerade einmal 10 Prozent der erzeugten Codes ohne Sicherheitslücken.
Selbst als in den Prompts aufgefordert wurde, „sicheren Code“ zu erzeugen, stieg die Erfolgsquote nur auf 20 Prozent. Erst durch das explizite Einfordern der Einhaltung von OWASP Best Practices konnte die Quote auf etwa 65 Prozent verbessert werden. Vergleichsweise besser schnitt das Claude 3.7-Sonnet Modell von Anthropic ab, das bei naiven Prompts bereits in 60 Prozent der Fälle sicheren Code lieferte. Interessanterweise erreichte es bei der generischen Aufforderung „sicheren Code schreiben“ sogar eine perfekte Sicherheitsquote von 100 Prozent.
Dennoch sind diese Ergebnisse kein Grund zur Entwarnung. Die Tatsache, dass fünf von sieben getesteten LLMs selbst bei sicherheitsorientierten Aufforderungen noch Schwachstellen produzierten, verdeutlicht die noch bestehende Reifeproblematik der KI-generierten Softwareentwicklung im Bereich Sicherheit. Entwickler, die sich auf diese Tools verlassen, riskieren, unbeabsichtigt unsicheren Code in ihre Anwendungen einzubringen. Besonders gefährlich ist dies, wenn wenig erfahrene Entwickler naïve oder unzureichend spezifizierte Prompts verwenden und die Sicherheitsprüfungen im Nachhinein unzureichend sind.Eine überraschende Entdeckung der Studie war, dass keiner der LLMs anfällig für SQL-Injection-Angriffe war – einer der bekanntesten und häufigsten Schwachstellen in Open-Source-Code.
Die Forscher mutmaßen, dass die Trainingsdaten und Algorithmen dieser KI darauf ausgelegt sind, gerade diese spezifische Schwachstelle zu vermeiden. Dies zeigt, dass gezielte Trainingsmethoden durchaus Wirkung zeigen, jedoch offenbar noch nicht auf alle relevanten Sicherheitslücken ausgeweitet wurden.Die Gefahr liegt vor allem in der Kombination aus der stark gestiegenen Verbreitung und bequemen Nutzung von KI-gestützter Programmierung und der bisher unzureichenden Kontrolle der generierten Codequalität. Entwickler sind inzwischen oft auf schnelle Ergebnisse angewiesen, die KI-Modelle liefern. Dabei sind sie nicht zwangsläufig Experten für IT-Security oder Prompt Engineering – dem Wissen um die Kunst, KI-Modelle durch präzise Eingaben zu steuern.
Diese Lücke kann zu einer Flut von anfälligem Code führen, der Hackerangriffe erleichtert und langfristig hohe Kosten für Unternehmen verursacht.Backslash Security betont, dass die Industrie hier in einer entscheidenden Phase steht, in der konsequente Sicherheitsmaßnahmen unablässig sind. Sicherheits-Teams müssen strenge Prompt-Richtlinien entwickeln und eng mit Entwicklern zusammenarbeiten, um sicherzustellen, dass KI-unterstützter Code von Anfang an sicher gestaltet wird. Dazu können spezielle Sicherheitstools gehören, die generierten Code automatisiert auf Schwachstellen prüfen, bevor er in Produktivumgebungen eingesetzt wird. Zudem bedarf es weiterer Forschung zur Verbesserung von LLM-Trainingsprozessen, die Sicherheit von Grund auf mitdenken.
Die beschriebenen Herausforderungen bieten jedoch auch große Chancen. Wenn Sicherheitsexperten und Entwickler diese Technologien verantwortungsvoll nutzen, können KI-Modelle künftig dazu beitragen, Sicherheitsstandards automatisch einzuhalten und den gesamten Entwicklungsprozess sicherer zu machen. Dies könnte letztlich zu einem Durchbruch führen, bei dem sichere Software schneller und mit weniger menschlichem Aufwand entsteht. Dafür ist es unerlässlich, dass die LLM-Anbieter weiterhin an Sicherheitsfeatures arbeiten und dass Anwender sich der Risiken bewusst sind und präzise Sicherheitsanforderungen formulieren.Die Debatte um KI und Sicherheit ist also keineswegs abgeschlossen, sondern wird in den nächsten Jahren entscheidend bleiben.
Die zunehmende Automatisierung durch generative KI bringt sowohl Vorteile als auch Risiken mit sich. Nur durch ein gemeinsames Verständnis von Sicherheit aufseiten der KI-Hersteller, Entwickler und Sicherheitsfachleute kann gewährleistet werden, dass die vielgepriesenen Effizienzgewinne nicht durch vermehrte Schwachstellen erkauft werden.Zusammenfassend zeigt die Analyse von Backslash Security, dass derzeit kein großes Sprachmodell von sich aus sicheren Code garantiert. Entwickler sollten daher niemals blind auf die von KI generierte Programmierung vertrauen, sondern immer eine sorgfältige Überprüfung und Absicherung vornehmen. Indem sichere Prompttechniken angewandt und Sicherheitsprüfungen intensiviert werden, lässt sich das Risiko zumindest minimieren.
Gleichzeitig bleibt der Druck auf die Anbieter und Anwender bestehen, KI-gestützte Softwareentwicklung sicherer und vertrauenswürdiger zu gestalten. Nur so kann das enorme Potenzial von LLMs sinnvoll und nachhaltig genutzt werden, ohne neue Sicherheitslücken zu öffnen.