Die Digitalisierung des Gesundheitswesens hat in den letzten Jahren massive Fortschritte gemacht. Elektronische Patientenakten, digitale Berichte und klinische Dokumentationen eröffnen neue Möglichkeiten der Forschung und Patientenversorgung. Gleichzeitig stellt der Schutz persönlicher Gesundheitsdaten eine immer größer werdende Herausforderung dar. Die Anonymisierung medizinischer Dokumente ist hier von essenzieller Bedeutung, um Patientendaten für Studien nutzen zu können, ohne deren Privatsphäre zu gefährden. Doch die handwerkliche, manuelle Anonymisierung ist aufwendig, teuer und nicht skalierbar.
Genau an dieser Stelle kommen lokale Large Language Models (LLMs) ins Spiel, die durch ihre fortgeschrittene Sprachverständnisfähigkeit eine hochpräzise und datenschutzfreundliche Lösung anbieten. Große Sprachmodelle haben die natürliche Sprachverarbeitung in den letzten Jahren grundlegend verändert. Besonders im medizinischen Bereich können LLMs sensible Patientendaten in unstrukturierten Texten identifizieren und entfernen, ohne relevante klinische Informationen zu beeinträchtigen. Einer der Vorteile lokaler LLMs liegt darin, dass sie direkt vor Ort auf dem heimischen Rechner oder Server betrieben werden können. Das bedeutet, dass sensible Dokumente nicht an externe Server übermittelt werden müssen, was eine erhebliche Verbesserung der Datenschutzanforderungen darstellt.
Die Kombination aus starken Anonymisierungsleistungen und lokalem Betrieb bietet somit eine datenschutzkonforme Lösung, die sich ideal für medizinische Einrichtungen eignet. Im Gegensatz zu klassischen regelbasierten Verfahren, die oftmals starr und wenig flexibel auf unterschiedliche Dokumentenformate reagieren, sind LLMs in der Lage, den Kontext zu verstehen. Das erlaubt ihnen, verschiedene Formen von personenbezogenen Informationen zu erkennen — unabhängig von Schreibfehlern, unterschiedlichen Wortstellungen oder ungewöhnlichen Formaten. So können neben direkten Informationen wie Namen oder Geburtsdaten auch indirekte personenbezogene Daten identifiziert werden, die für eine Reidentifizierung relevant sein könnten. Das Projekt rund um den LLM-Anonymizer stellt hierfür ein wegweisendes Beispiel dar.
Entwickelt wurde ein umfassendes Pipeline-System, das verschiedene lokal einsetzbare LLMs wie Llama-3 in unterschiedlichen Größen ordnet und auf eine Vielzahl realer klinischer Briefe und Patientenberichte anwendet. Die Ergebnisse zeigen eine beeindruckende Reduktionsrate personenbezogener Daten bei gleichzeitig hoher Erhaltenswürdigkeit der klinischen Inhalte. Dabei lässt sich die Anonymisierung flexibel anpassen: Je nach Verwendungszweck der Daten können bestimmte Informationen bewusst erhalten bleiben, während andere konsequent entfernt werden. Der LLM-Anonymizer bietet eine nutzerfreundliche Weboberfläche, die keine Programmierkenntnisse erfordert und zugleich mit verschiedenen Datenformaten wie PDFs, Textdateien oder Word-Dokumenten kompatibel ist. Über eine einfache Bedienung können Nutzer direkt medizinische Dokumente hochladen, anonymisieren lassen und anschließend die anonymisierten Versionen inklusive übersichtlicher PII-Tabellen herunterladen.
Der tiefe Einblick in die Dokumente und umfassende Analysen inklusive Fehlerquoten und Rückmeldungen ermöglichen eine effiziente Qualitätssicherung des Anonymisierungsergebnisses. Die getesteten Modelle überzeugten nicht nur durch hohe Genauigkeit, sondern auch mit bemerkenswerter Zuverlässigkeit und Wiederholbarkeit der Ergebnisse bei wiederholter Anwendung. Das ist im sensiblen medizinischen Kontext unverzichtbar, denn die vollständige Entfernung aller personenbezogenen Identifikatoren – der sogenannten „PII“ (Personally Identifiable Information) – ist unerlässlich, um ethischen und rechtlichen Vorgaben gerecht zu werden. Ein herausragendes Merkmal des Einsatzes lokaler LLMs liegt in der Skalierbarkeit für unterschiedliche medizinische Einrichtungen. Dokumentationsformate unterscheiden sich erheblich je nach Krankenhaus, Abteilung oder Region.
Während traditionelle Werkzeuge mit starren Regeln für jede Variation neu angepasst werden müssen, lernen LLMs semantische Zusammenhänge und sind somit flexibler und anpassungsfähiger auf neue Kontexte einsetzbar. So ermöglicht der LLM-Anonymizer eine schnellere Implementierung und Aktualisierung auch bei variantenreicher Dokumentationslandschaft. Darüber hinaus bleibt der gesamte Datenverarbeitungsprozess im Haus, was gerade im Rahmen europäischer Datenschutzstandards wie der Datenschutz-Grundverordnung (DSGVO) von zentraler Bedeutung ist. Im Unterschied zu US-amerikanischen Vorgaben, welche oftmals konkrete Datenfelder definieren, betrachtet die DSGVO Anonymisierung als Kontinuum, bei dem das Risiko einer Reidentifikation auf ein vertretbares Minimum sinken soll. Die flexiblen LLM-basierenden Verfahren sind in diesem Spannungsfeld besonders gut anwendbar, da sie eine fein abgestimmte Balance zwischen Datenschutz und Datenverfügbarkeit ermöglichen.
Vergleichsstudien mit etablierten Anonymisierungstools wie CliniDeID und Microsoft Presidio unterstreichen die Überlegenheit der LLM-basierten Lösung. Die bessere Erkennung sensibler Informationen, verbunden mit einer geringeren Fehlerrate bei falschen Löschungen, brachte dem LLM-Anonymizer deutliche Vorteile. Damit kann medizinische Forschung von einer verbesserten Datenbasis profitieren, ohne dabei Datenschutzrisiken zu erhöhen. Trotz der hohen Leistungsfähigkeit gibt es weiterhin Chancen zur Weiterentwicklung, etwa durch ausgefeilte Prompt-Engineering-Techniken, die den Modellen helfen, Kontext noch besser zu interpretieren. Zukunftsweisende Erweiterungen könnten die Mehrsprachigkeit ausbauen, gescannte Dokumente mittels OCR noch besser integrieren und automatische Qualitätskontrollen noch weiter verbessern.