Die Integration von Künstlicher Intelligenz (KI) im Gesundheitswesen schreitet unaufhaltsam voran, und eines der spannendsten Gebiete ist der Einsatz von großen Sprachmodellen, auch bekannt als Large Language Models (LLMs). Besonders im Bereich der öffentlichen Gesundheit eröffnen sie neue Wege, wie offizielle Gesundheitsrichtlinien zugänglicher gemacht und effektiver vermittelt werden können. Vor allem im Vereinigten Königreich, das für seine umfangreiche und detaillierte Gesundheitspolitik bekannt ist, stellen LLMs eine bahnbrechende Möglichkeit dar, den Zugang zu lebenswichtigen Informationen deutlich zu erleichtern und gleichzeitig Herausforderungen zu meistern, die mit der Komplexität und Dynamik dieser Richtlinien einhergehen. Ein zentrales Thema bei der Nutzung von LLMs im Gesundheitssektor ist die Frage, wie gut diese Modelle das offizielle Wissen über die aktuellen Gesundheitsrichtlinien der britischen Regierung erfassen und wiedergeben können. Öffentliche Richtlinien umfassen eine breite Palette von Themen – von Impfprogrammen über den Umgang mit chemischen Unfällen bis hin zu präzisen Verhaltensanweisungen in Notfallsituationen.
Diese Informationen sind nicht nur für Fachleute im Gesundheitswesen, sondern auch für die allgemeine Bevölkerung von enormer Bedeutung, da sie direkten Einfluss auf persönliche Gesundheitsentscheidungen haben. Im traditionellen Ansatz erfolgt die Informationsbeschaffung meist über die offizielle Webseite der Regierung oder durch die direkte Konsultation von Fachpersonen. Mit dem Aufstieg von Chatbots wie ChatGPT und ähnlichen KI-Anwendungen könnten Nutzer künftig verstärkt interaktive und dialogbasierte Tools nutzen, um Antworten auf ihre Fragen zu bekommen. Das bietet enorme Vorteile in Sachen Zugänglichkeit und Benutzerfreundlichkeit. Gleichzeitig birgt die Abhängigkeit von LLMs das Risiko sogenannter „Halluzinationen“ – also der Generierung falscher oder irreführender Informationen, die auch bei hochentwickelten Modellen nie vollständig ausgeschlossen werden können.
Eine besondere Herausforderung besteht darin, dass öffentliche Gesundheitsrichtlinien fortlaufend aktualisiert werden. Im Jahr 2024 wurden knapp ein Drittel der veröffentlichten Dokumente auf der britischen Regierungsseite mindestens teilweise überarbeitet oder ergänzt. Diese dynamische Natur erschwert es KI-Modellen, ständig auf dem neuesten Stand zu bleiben, da ihre Trainingsdaten oft veraltet sein können oder nicht in Echtzeit aktualisiert werden. Zudem existieren weltweit zahlreiche Gesundheitsinstitutionen, die zu ähnlichen Themen unterschiedliche Empfehlungen aussprechen. Das führt zu einer weiteren Fehlerquelle, wenn ein Modell etwa US-amerikanische Richtlinien wiedergibt, obwohl die Frage spezifisch auf das Vereinigte Königreich bezogen war.
Darüber hinaus enthält die öffentliche Gesundheitsberatung viele äußerst spezialisierte und selten auftretende Situationen, wie spezielle Vorschriften für den Umgang mit konkreten chemischen Stoffen. Solche Informationen sind naturgemäß weniger häufig online verfügbar und somit auch schwieriger für LLMs zu erfassen und korrekt wiederzugeben. Um diese Herausforderungen zu adressieren, haben Forscher der UK Health Security Agency (UKHSA) ein umfangreiches Benchmarking-Projekt initiiert, das die Genauigkeit und Zuverlässigkeit aktueller LLMs im Kontext britischer Gesundheitsrichtlinien untersucht. Diese Benchmark umfasst über 8.000 multiple-choice-Fragen, die aus mehr als 600 offiziellen Regierungsdokumenten extrahiert wurden.
Dabei wurden verschiedene Themenbereiche abgedeckt, die von allgemeinen Empfehlungen bis zu klinisch-fachlichen und beruflichen Richtlinien reichen. Das Erstellen und Validieren dieses Tests war ein komplexer Prozess. Ausgangspunkt war die automatisierte Sammlung und Aufbereitung der Regierungsdokumente, aus denen relevante Textabschnitte identifiziert wurden. Anschließend wurden mithilfe eines LLMs Antworten und Fragen generiert, die wiederum einer Qualitätsprüfung unterzogen wurden. Aufgrund der automatisierten Generierung und der teils komplexen Inhalte lag die Fehlerquote bei knapp über fünf Prozent, was die Grenzen der derzeitigen Technologie deutlich macht, aber dennoch einen überzeugenden Benchmark liefert.
Um den praktischen Nutzen der LLMs zu bewerten, wurde auch ein Vergleich mit menschlichen Probanden durchgeführt. Interessanterweise schnitten die getesteten Modelle in der multiple-choice-Variante mit über 90 Prozent deutlich besser ab als Nicht-Experten, die lediglich mit kurzer Recherche Unterstützung durch Suchmaschinen auf etwa 88 Prozent kamen. Diese Ergebnisse belegen das enorme Potenzial von LLMs, zumindest bei klar strukturierten Fragestellungen aktuelle Richtlinien korrekt wiederzugeben. Spannender wird es bei der Bewertung freier, unstrukturierter Textantworten – also wie ein Chatbot in einem realen, dialogischen Szenario antworten würde. Hier zeigte sich, dass die gleiche KI nicht mehr die gleiche Leistungsfähigkeit beweisen konnte, sondern teilweise auf rund 75 Prozent Genauigkeit abstürzte.
Der Unterschied unterstreicht die Problematik, dass freier Text viel schwieriger objektiv zu bewerten ist und größere Spielräume für Fehler und Missinterpretationen bietet. Gerade in sensiblen Bereichen wie der öffentlichen Gesundheit kann das fatale Folgen haben, wenn eine Nutzerin oder ein Nutzer falsche oder unklare Handlungsempfehlungen erhält. Zur Lösung dieses Problems nutzen die Forscher einen weiteren cleveren Trick: Statt jede Antwort manuell durch Menschen prüfen zu lassen, bewerten andere LLMs die Übereinstimmung der Antworten mit den ursprünglichen Dokumenten. Eine solch automatisierte Doppelprüfung erhöht die Skalierbarkeit der Evaluierung erheblich. Gleichzeitig bedarf es noch weiterer Verfeinerungen und menschlicher Überprüfungen, um ein Höchstmaß an Verlässlichkeit zu gewährleisten.
Durch die Untersuchungen wurde auch deutlich, dass LLMs besonders gut bei der Vermittlung allgemeinverständlicher Richtlinien für die breite Öffentlichkeit abschneiden. Hier liegen die Fehlerquoten niedriger als bei sehr fachspezifischen Themen. Das ist eine vielversprechende Erkenntnis, denn der informelle Austausch über Gesundheitsfragen in der Bevölkerung könnte folglich durch KI-Anwendungen deutlich erleichtert werden – sofern diese stets gemäß aktueller und präziser Quellen agieren. Ein weiterer interessanter Befund ist, dass LLMs mit sogenanntem „Reasoning“ – also Modellen, die eine schrittweise Problemlösung vor der Antwortfindung simulieren – bei Freitextantworten tendenziell robuster und genauer sind. Hier zeigt sich ein mögliches Zukunftspotenzial, das mit weiterentwickelten Modellen und verbesserter Trainingsmethodik noch besser genutzt werden kann.
Die gesamte Arbeit unterstreicht die Bedeutung, KI-basierte Tools nicht nur als reine Antwortgeneratoren zu betrachten, sondern als Komponenten eines komplexen Ökosystems, das strikte Qualitätskontrollen, regelmäßige Updates und belastbare Prüfmechanismen benötigt. Die Möglichkeit, automatisierte, aber dennoch gut validierte Benchmark-Tests durchzuführen, eröffnet vielfältige Chancen, diese Systeme schneller und sicherer in der Praxis einzusetzen. Dem öffentlichen Gesundheitssystem bietet dies langfristig die Chance, Beratungsangebote zu erweitern, Wartezeiten zu reduzieren und Informationen auch in Krisensituationen schnell und verständlich bereitzustellen. Umgekehrt verhindert eine kritische Evaluierung auch Fehlinformationen, die gerade im Gesundheitsbereich großen Schaden anrichten könnten. Die Ergebnisse dieser Forschung sind wegweisend für eine neue Ära der Gesundheitskommunikation, in der KI und öffentliche Gesundheit Hand in Hand arbeiten, um Menschen wirksamer zu informieren.
Durch die Veröffentlichung der Benchmark-Daten hoffen die Forscher außerdem, dass weitere Entwickler und Forscher global Vergleichstests mit unterschiedlichen Modellen durchführen, die Qualität weiter steigern und die KI-systeme kontinuierlich an die dynamische Realität der öffentlichen Gesundheitsberatung anpassen. Insgesamt zeigt sich, dass LLMs trotz ihrer aktuellen Grenzen bereits heute ein wertvolles Werkzeug sind, das das Potenzial hat, das Vertrauen und die Zugänglichkeit offizieller Gesundheitsrichtlinien zu verbessern. Mit fortschreitender Technologie und sorgfältiger Einbindung in bestehende Systeme könnte die Art und Weise, wie medizinische und öffentliche Gesundheitsinformationen kommuniziert werden, bald grundlegend transformiert werden.