Die rasante Entwicklung großer Sprachmodelle (Large Language Models, LLMs) hat in vielen Bereichen für bahnbrechende Veränderungen gesorgt. Ihre Fähigkeit, komplexe Texte zu generieren und Fragen auf hohem Niveau zu beantworten, wird heute vielfach als ein Meilenstein in der KI-Forschung angesehen. Doch trotz dieser Fortschritte gibt es bedeutende Unterschiede hinsichtlich der Zuverlässigkeit und Genauigkeit, wenn es um die Nutzung und Interpretation von Quellen geht. Insbesondere zwei Phänomene rücken dabei immer stärker in den Fokus: Link-Halluzinationen und das Quellenverständnis. Diese beiden Merkmale sind entscheidend dafür, ob ein LLM als vertrauenswürdige Informationsquelle gelten kann oder nicht.
Link-Halluzination bezeichnet die Neigung eines Modells, URLs oder Quellenangaben zu erfinden statt echte, überprüfbare Links zu nennen. Dieser Fehler ist besonders tückisch, weil er auf den ersten Blick die Glaubwürdigkeit eines Textes erhöht, der Inhalt aber entweder gar nicht verifizierbar oder schlicht falsch ist. Das Modell gibt eine Quelle an, die so tatsächlich nicht existiert oder die genau die Behauptung nicht stützt, die es vorgibt. Dies führt zu einer Verwirrung der Nutzer und kann Missinformationen verstärken – gerade in heiklen Themenbereichen wie Medizin, Politik oder Wissenschaft. Quellenverständnis hingegen meint, wie gut ein LLM die in den zitierten Dokumenten enthaltenen Informationen interpretieren und wiedergeben kann.
Selbst wenn das Modell eine gültige Quelle nennt, kann es geschehen, dass es deren Inhalte falsch zusammenfasst oder in einem verzerrten Kontext darstellt. Das hat unmittelbare Folgen für die Qualität der weitergegebenen Informationen und das Vertrauensverhältnis zum Nutzer. Dieses Verständnis komplexer Textzusammenhänge ist ein zentraler Bestandteil von KI-gestütztem Fact-Checking und Kontextualisierung. In der Praxis zeigt sich, dass verschiedene große Sprachmodelle diese Herausforderungen unterschiedlich bewältigen. Die Unterschiede lassen sich schwerlich auf Standard-Benchmarks zurückführen, da diese häufig nicht die erforderliche Tiefe und Komplexität besitzen, um die Fähigkeit eines Modells zum korrekten Quellenumgang zu messen.
Stattdessen bedarf es echter, harter Tests, welche die Modelle dazu bringen, präzise zitierfähige Informationen aus realen wissenschaftlichen Arbeiten, Berichten oder anderen glaubwürdigen Dokumenten zu extrahieren und angemessen zu bewerten. Ein Beispiel aus der aktuellen Debatte betrifft die Interpretation von Langzeitwirkungen von Medikamenten gegen Aufmerksamkeitsdefizit-Hyperaktivitätsstörung (ADHS). In einem viel diskutierten Fall wurde ein Bericht der US-Gesundheitsbehörde HHS massiv kritisiert, weil er ein 14-monatiges Studienergebnis als Nachweis für die Nichtwirksamkeit von Stimulanzien über mehrere Jahre präsentierte – obwohl die Studie lediglich randomisiert und kontrolliert über 14 Monate lief und Nachbeobachtungen mit deutlich geringerer Kontrollierbarkeit beinhaltete. Ein Fakt-Checking mit mehreren LLMs machte diese Fehlinterpretation im Modellvergleich besonders deutlich. Modelle wie Claude von Anthropic zeigen in diesem Test zwar eine relativ solide Quellenleistung, allerdings gerade auch dank der implementierten Suchfunktion, was jedoch nicht sichtbar für den Anwender erfolgt.
Trotzdem produzieren einige Varianten von Claude fehlerhafte Zusammenfassungen, die selbst eine kurze Erklärung des Studiendesigns und der Folgebefunde vermissen lassen. Andere Modelle wie Gemini von Google oder ChatGPT in verschiedenen Versionen liefern häufig Details, die zwar auf den ersten Blick überzeugend wirken, bei näherem Hinsehen jedoch entweder unpräzise sind oder in Teilen falsch dargestellt werden. Dabei zeigt sich auch, dass Halluzinationen von Links bei diesen Modellen nicht selten sind: Sie nennen teils etablierte Forschungsarbeiten, doch die verlinkten URLs stimmen nicht oder führen zu ganz anderen Inhalten. Die gravierendsten Probleme zeigen sich jedoch bei der Kombination von Link-Halluzination und fehlendem Quellenverständnis. Modelle, die unzuverlässige Links generieren und gleichzeitig den Inhalt der angegebenen Studie fehlerhaft zusammenfassen, erweisen sich als besonders problematisch.
Denn sie erzeugen beim Nutzer eine trügerische Sicherheit, dass Aussagen fundiert belegt sind, obwohl dies nicht der Fall ist. Die Folgen davon reichen von falscher Wissenschaftskommunikation bis hin zu gefährlicher Fehlinformation, gerade wenn das Thema komplex oder kontrovers ist. Ein Lichtblick im Vergleich stellt ChatGPT-3.5 (auch bekannt als "o3") dar, das bei diesen Tests überraschend gute Ergebnisse erzielte. Es gab eine präzise und nuancierte Analyse der Studie, ohne die angesprochenen Halluzinationsfehler bei Links zu zeigen.
Allerdings ist zu betonen, dass dies stark von der genauen Promptgestaltung und den Arbeitsschritten abhängt. Bei schlechterem Prompting erscheinen auch bei diesem Modell teils verwaschene Aussagen oder Auslassungen. Die Qualität der Quellenangaben und der Faktentreue ist also noch immer eng verbunden mit der Eingabe, die der Nutzer dem Modell gibt. Die Befunde aus dem Vergleich lassen sich in mehreren zentralen Einsichten zusammenfassen. Erstens korreliert geringe Link-Halluzination mit besserer inhaltlicher Qualität der Antworten.
Je zuverlässiger ein Modell echtes Quellenmaterial verlinkt, desto besser sind tendenziell die Zusammenfassungen und Bewertungen dieser Inhalte. Zweitens zeigt sich, dass manche Modelle, insbesondere solche mit integrierten Suchfunktionen oder speziell designten Kontextualisierungs-Prompts (beispielsweise die SIFT Toolbox), wesentlich präziser arbeiten können, aber auch hier ist die Implementierung sehr unterschiedlich. Drittens ist der Grad der Halluzination und der Quellenmissinterpretation so signifikant, dass er das Vertrauen in bestimmte KI-Systeme infrage stellt und neue Maßstäbe für ihre Beurteilung erforderlich macht. Die Erklärung für diese Unterschiede liegt in vielen Faktoren. Zum einen beeinflusst die Architektur des Modells selbst, wie es Texte verarbeitet und interne Wissensrepräsentationen aufbaut.
Neuere, Hybrid-Modelle, die kombinierten Zugriff auf externe Wissensdatenbanken oder Suchmechanismen besitzen, schneiden häufig besser ab, sofern diese Integration gut gelingt. Zum anderen bestimmt die Trainingserfahrung – also welche Daten und mit welchen Qualitätskriterien ein Modell trainiert wird – ob es in der Lage ist, verlässliche Quellen zu identifizieren und korrekt zu nutzen. Schließlich spielen auch die vom Entwickler implementierten Filtermechanismen und die Art der Benutzerinteraktion eine Rolle. Für die Zukunft ist davon auszugehen, dass diese Thematik im Bereich der KI-Entwicklung noch viel größere Bedeutung erlangen wird. Die Öffentlichkeit und auch Experten verlangen zunehmend eine transparente und nachvollziehbare Informationsquelle hinter KI-Modellen.
Nur so lässt sich verhindern, dass Fehlinformationen viral gehen oder KIs als vermeintlich allwissende Referenz missverstanden werden. Forschung und Entwicklung werden sich daher verstärkt darauf fokussieren müssen, Link-Halluzinationen zu minimieren und ein echtes Verstehen von Quelleninhalten sicherzustellen. Darüber hinaus wird die Systematisierung von Tests und Benchmarks für diese Fähigkeiten dringend notwendig sein. Bisherige Standardtests bewerten meist nur oberflächlich Grammatik, Kohärenz oder Basiswissen, doch der Umgang mit realen Quellen und die Beständigkeit gegen Fehlinformation sollten zentrale Metriken werden. Solche Tests müssten auch die Fähigkeit der Modelle messen, komplexe wissenschaftliche Sachverhalte richtig zu interpretieren, Falschinformationen zu erkennen und eigenständig relevante Quellen zu prüfen.