Die Food and Drug Administration (FDA) hat kürzlich einen großen Schritt in Richtung Digitalisierung und Automatisierung unternommen, indem sie eine agenturweite KI-Anwendung mit dem Namen Elsa eingeführt hat. Diese Entscheidung, die das Ziel verfolgt, wissenschaftliche Bewertungen zu beschleunigen und interne Arbeitsprozesse zu optimieren, wurde jedoch durch eine hektische Umsetzung belastet, die intern und extern für Kritik sorgt. Die Einführung der auf einem großen Sprachmodell (Large Language Model, LLM) basierenden Software erfolgte Wochen vor dem ursprünglich geplanten Termin. Ziel war es, die Effizienz bei der Überprüfung klinischer Protokolle, der Analyse unerwünschter Arzneimittelwirkungen und anderen wichtigen Aufgaben der Behörde zu steigern. Trotz des ambitionierten Vorhabens ist die Realität der Nutzung von Elsa ernüchternd und wirft wichtige Fragen über die Integration von Künstlicher Intelligenz (KI) in hochregulierte Umgebungen auf.
Die FDA unter der Führung des damaligen Trump-Administration-Teams reagierte auf den zunehmenden Druck, digitale Lösungen voranzutreiben und mit dem technologischen Fortschritt Schritt zu halten. Im Mittelpunkt dieser Initiative stand nicht nur die Absicht, Arbeitsabläufe zu optimieren, sondern auch die Hoffnung, dass KI-gestützte Lösungen dazu beitragen könnten, Entscheidungsprozesse zu beschleunigen und eine präzisere Datenanalyse zu ermöglichen. Die Ankündigung durch hochrangige Vertreter wie den FDA-Kommissar Marty Makary und den Chief AI Officer Jeremy Walsh wurde von Enthusiasmus und einer betonten Dringlichkeit begleitet. Die feste Deadline zur Skalierung von AI-Anwendungen bis Ende Juni 2025 und die vorzeitige Freigabe von Elsa verdeutlichen, wie sehr die Behörde hier auf Geschwindigkeit setzte. Doch genau diese Kehrseite der schnellen Umsetzung wurde von Mitarbeitern und unabhängigen Expertinnen und Experten kritisiert.
Erste Tests mit Elsa, bei denen Mitarbeiter Fragen zu zugelassenen Produkten und öffentlich zugänglichen Informationen stellten, ergaben teils fehlerhafte, ungenaue oder irreführende Antworten. Dies führte intern zur Einschätzung, dass die Software in ihrem aktuellen Entwicklungsstand eher für administrative Zwecke geeignet sei als für wissenschaftlich fundierte Bewertungen. Die Befürchtungen beziehen sich dabei nicht nur auf die Genauigkeit, sondern auch auf die Sicherheit und Integrität der durch die KI verarbeiteten Daten. Fachleute innerhalb der FDA zeigten sich besorgt, dass die Einführung von Elsa den Eindruck erwecken könnte, KI könne menschliche Expertise einfach ersetzen oder die Überprüfungszeiten radikal verkürzen. Diese Haltung wird von zahlreichen Mitarbeitenden als unrealistisch und gefährlich eingestuft.
Die mangelnde Ausarbeitung von klaren Leitplanken oder Governance-Strukturen für den Umgang mit der KI-Software lässt die Integration unnötig riskant erscheinen. Ohne ausreichend definierte Richtlinien und Kontrollmechanismen besteht die Gefahr, dass fehlerhafte KI-Ergebnisse unkritisch übernommen werden, was gerade im regulatorischen Umfeld gravierende Konsequenzen nach sich ziehen könnte. Die technologische Basis von Elsa ist das LLM Claude, entwickelt von Anthropic, einem Unternehmen, das sich auf KI-Sicherheit und ethische Anwendung spezialisiert hat. Die Entwicklung des Tools wurde in Zusammenarbeit mit der Beratungsfirma Deloitte realisiert, die langfristig mit der FDA zusammenarbeitet und seit 2020 Millionen in die Datenbasis investiert hat, auf der Elsa trainiert wurde. Die Entscheidung, das Projekt in einer hochsicheren GovCloud-Umgebung zu betreiben, soll gewährleisten, dass sensible Informationen intern bleiben und nicht an externe Netze heranreichen.
Dennoch reicht eine isolierte Cloud nicht aus, um inhaltliche Probleme, wie fehlerhafte Antworten oder unzureichende Datengrundlage, zu lösen. Die Einführung von Elsa erfolgte im Kontext bedeutender Einsparungen und eines Konsolidierungsprozesses innerhalb der FDA. Ursprünglich arbeiteten verschiedene Fachzentren der Behörde an eigenen KI-Pilotprojekten, wie etwa das Center for Drug Evaluation and Research (CDER) mit seinem eigenen LLM namens CDER-GPT. Nach Budgetkürzungen wurde jedoch entschieden, das beste dieser Systeme zu skalieren und für die ganze Agentur als Elsa zu etablieren. Diese Zentralisierung war einerseits sinnvoll, um Ressourcen zu bündeln und Skaleneffekte zu erzielen.
Andererseits führten technische Probleme in anderen Bereichen auf, dass die Funktionalität nicht durchgängig gewährleistet war. So meldeten etwa Mitarbeitende des Center for Devices and Radiological Health (CDRH), dass ihr Pilot mit dem Namen CDRH-GPT zwar vorhanden, aber noch sehr fehleranfällig und schlecht an interne Systeme angebunden sei. Die Probleme reichten von fehlerhaften Uploads bis hin zu fehlenden Möglichkeiten der interaktiven Nutzung. Die Situation rund um Elsa zeigt exemplarisch die Herausforderungen, vor denen viele staatliche Institutionen stehen, wenn sie Künstliche Intelligenz in kritische Prozesse integrieren möchten. Einerseits sind die Erwartungen an die Technik enorm, denn in der Industrie und Privatwirtschaft hat KI bereits zahlreiche Optimierungen ermöglicht.
Andererseits sind regulatorische Behörden mit einem ganz anderen Anspruch konfrontiert: Sicherheit, Genauigkeit, Transparenz und Verlässlichkeit haben hier höchste Priorität. Fehlerhafte Auskünfte oder automatisierte Entscheidungen auf unzureichender Datenbasis können die öffentliche Gesundheit gefährden und das Vertrauen in die Behörde erheblich schwächen. Darüber hinaus stehen Datenschutz, ethische Fragen und die digitale Infrastruktursicherheit im Mittelpunkt der Debatte. Die FDA als federführende Stelle in der Medizintechnik- und Pharmaüberwachung besitzt sensible Daten von Unternehmen und Patientinnen sowie Patientendaten. Ein Einsatz von KI muss deshalb nicht nur technisch ausgereift sein, sondern auch detaillierte Schutzmechanismen für diese Daten bieten.
Die momentanen Berichte über fehlende Richtlinien zur verantwortungsvollen Nutzung von Elsa verdeutlichen, dass hier Nachholbedarf besteht. Nicht zuletzt hat die schnelle Umsetzung auch personelle Spannungen ausgelöst. Mitarbeitende, die sich tagtäglich mit der Prüfung von Arzneimitteln, Medizinprodukten und anderen gesundheitsrelevanten Fragen beschäftigen, fühlen sich durch die Überhöhung der Fähigkeiten von Elsa und die Pläne zur Zeitersparnis unter Druck gesetzt. Kritiker innerhalb der Behörde weisen darauf hin, dass KI bestenfalls als unterstützendes Werkzeug dienen kann, nicht als Ersatz menschlicher Expertise. Die notwendige Kontrolle durch erfahrene Fachkräfte lässt sich nicht einfach automatisieren, vor allem nicht, wenn die zugrundeliegenden Systeme noch nicht ausgereift sind.
Für die Zukunft stellt sich daher die Frage, wie staatliche Institutionen KI sinnvoll einbinden können, ohne voreilig zu handeln. Ein sorgfältiger und iterative Entwicklungsprozess, der alle Stakeholder früh einbezieht, klare Richtlinien für den Einsatz definiert und stetige Qualitätskontrollen vorsieht, ist essenziell, um das Potenzial von KI erfolgreich zu nutzen und Risiken zu minimieren. Die FDA könnte mit Elsa als Pilotprojekt wertvolle Erfahrungen sammeln und als Vorbild dienen, wenn es darum geht, den Balanceakt zwischen Innovation und Sicherheit in staatlichen Behörden zu meistern. Die Debatte rund um Elsa wird sicherlich auch weiterhin intensiv geführt werden. Die Herausforderung für die FDA und ähnliche Organisationen besteht darin, den richtigen Zeitpunkt für den flächendeckenden Einsatz neuer Technologien zu finden und bereit zu sein, diese bei Bedarf kritisch zu hinterfragen und anzupassen.
Bis dahin wird sich der Einsatz von KI im öffentlichen Sektor vor allem als komplexes Spannungsfeld zwischen Fortschrittsglaube und realen Limitierungen zeigen. Nur mit einem verantwortungsvollen Vorgehen kann die Integration von Künstlicher Intelligenz nachhaltig gelingen und der digitale Wandel zum Vorteil der Gesellschaft gestaltet werden.