Die Nutzung von Künstlicher Intelligenz, insbesondere großer Sprachmodelle (Large Language Models, LLMs), gewinnt in vielen Lebensbereichen rasant an Bedeutung. Ob für die Texterstellung, Beantwortung von Fragen oder eben wissenschaftliche Zusammenfassungen – Tools wie ChatGPT, Claude oder LLaMA versprechen, komplexe Informationen verständlich und schnell aufzubereiten. Doch eine neue Studie von Uwe Peters von der Universität Utrecht und Benjamin Chin-Yee von der Western University und Universität Cambridge hat ein alarmierendes Ergebnis geliefert: Bis zu 73 % der durch LLMs generierten wissenschaftlichen Zusammenfassungen enthalten ungenaue oder übertriebene Aussagen. Diese Erkenntnis wirft zahlreiche Fragen zur Verlässlichkeit solcher KI-Systeme im wissenschaftlichen Kontext auf und verdeutlicht die Herausforderungen, die mit dem Einsatz von Künstlicher Intelligenz bei der Interpretation von Forschung verbunden sind. Die Untersuchung von Peters und Chin-Yee basiert auf einer Analyse von fast 5.
000 Zusammenfassungen, die von zehn führenden großen Sprachmodellen erstellt wurden. Ausgangsmaterial waren Abstracts und komplette Artikel renommierter Wissenschaftsjournale wie Nature, Science oder The Lancet. Die Forscher wollten insbesondere wissen, wie treffsicher die KI-Modelle die Inhalte vermitteln können, ohne den ursprünglichen Sinn zu verfälschen. Eines der auffälligsten Ergebnisse war, dass in sechs der zehn getesteten Modelle systematische Verzerrungen erkennbar waren. Die KI neigt dazu, vorsichtige, oft in der Vergangenheitsform formulierte Aussagen in generalisierende, gegenwartsbezogene Behauptungen umzuwandeln.
So wird beispielsweise aus einer Beschreibung wie „Die Behandlung war in dieser Studie wirksam“ eine Aussage à la „Die Behandlung ist wirksam“. Diese scheinbar kleine Änderung kann gravierende Folgen für das Verständnis der Forschungsergebnisse haben, da sie die Übertragbarkeit der Resultate über die ursprüngliche Studie hinaus suggeriert. Die Wissenschaft lebt von Präzision, besonders in der Kommunikation der Resultate. Nuancen und Unsicherheiten werden genau so adressiert wie positive Befunde. Wird diese Differenzierung durch automatisierte Zusammenfassungen aufgehoben, kann das zu Fehlinformationen führen, die wiederum sowohl Wissenschaftler als auch die breite Öffentlichkeit in die Irre führen.
Besonders besorgniserregend ist, dass bei Aufforderung an die KIs, genauer zu arbeiten oder Exaktheit zu gewährleisten, die Modelle oft noch stärker zu Übertreibungen neigen. Das legt nahe, dass die KI lediglich Muster erkennt, welche Antworten auf Menschen ansprechend wirken, und dabei unangemessen verallgemeinert – eine Eigenschaft, die sich als problematisch erweist, wenn Genauigkeit unabdingbar ist. Wichtig ist auch die Erkenntnis, dass neuere KI-Modelle wie ChatGPT-4o oder DeepSeek tendenziell schlechter abschneiden als ihre Vorgänger. Das widerspricht der gängigen Annahme, dass technische Weiterentwicklungen automatisch auch zu besserer Informationsverarbeitung führen. Warum tendieren LLMs überhaupt zur Übertreibung? Zum einen reflektieren sie die Trainingsdaten, die häufig Texte und Aussagen enthalten, in denen Menschen ebenfalls generalisierende Schlüsse ziehen.
Wissenschaftler sind mitunter geneigt, Befunde über ihre Studien hinaus zu interpretieren, beispielsweise eine Studie an einer bestimmten Bevölkerungsgruppe auf alle Menschen zu übertragen. Die KIs übernehmen diese Tendenz und führen sie in ihren Zusammenfassungen weiter. Zum anderen lernen die Sprachmodelle von den Interaktionen mit Nutzern. Es besteht die Möglichkeit, dass Menschen bei der Feinabstimmung bevorzugen, Antworten zu erhalten, die hilfreich und allgemein anwendbar klingen, selbst wenn das zu Lasten der Genauigkeit geht. Die KI adaptiert in Folge dieses Feedbacks ihr Antwortverhalten entsprechend.
Die Konsequenzen dieser Erkenntnisse sind weitreichend. Wissenschaftliche Kommunikation hat die Aufgabe, Forschungsergebnisse verständlich und präzise zu vermitteln, damit Wissen auf fundierter Basis erweitert und angewandt werden kann. Der Einsatz von KI in diesem Bereich birgt das Risiko, Fehlinformationen zu verbreiten, die den Eindruck erwecken, als seien wissenschaftliche Erkenntnisse eindeutiger oder allgemeingültiger, als sie tatsächlich sind. Eine Vielzahl von Akteuren – von Studierenden über Forscher bis hin zu politischen Entscheidungsträgern – verlässt sich zunehmend auf automatisierte Zusammenfassungen als schnell verfügbare Orientierungshilfe. Wenn diese Quellen jedoch verzerrt oder übertrieben berichten, gefährdet dies nicht nur die Qualität der wissenschaftlichen Debatte, sondern auch das Vertrauen in die Wissenschaft insgesamt.
Die Studie von Peters und Chin-Yee verdeutlicht, wie wichtig es ist, Künstliche Intelligenz in der Wissenschaftskommunikation kritisch zu evaluieren und klare Standards für ihre Nutzung zu entwickeln. Es bedarf einer verstärkten Überprüfung und Testung der Algorithmen in echten wissenschaftlichen Anwendungsfällen. Zudem sollten Trainingsdaten sorgfältig ausgewählt und auf ihre Qualität und Repräsentativität geprüft werden, um problematische Verzerrungen zu minimieren. Im Umgang mit KI-gestützten Zusammenfassungen raten die Forscher zur Vorsicht. Modelle wie Claude schneiden im Vergleich besser ab und zeigen eine geringere Neigung zur Überverallgemeinerung.
Auch der gezielte Einsatz von sogenannten „Temperatur“-Einstellungen, die die Kreativität und Variabilität der Modellantworten steuern, kann helfen, präzisere Zusammenfassungen zu erhalten. Darüber hinaus empfiehlt es sich, besonders auf Formulierungen in der Vergangenheitsform oder indirekter Rede zu achten, da diese die erforderliche Zurückhaltung in der wissenschaftlichen Aussage unterstreichen. Letztlich ersetzt die KI heute noch nicht die fachliche Expertise von Wissenschaftlern und verlässlichen Medien. Die kritische Auseinandersetzung mit den Ergebnissen bleibt unerlässlich, um Falschinformationen und Missverständnisse zu vermeiden. Zusammenfassend zeigt der aktuelle Forschungsstand deutlich, dass die bisherige Euphorie über die Fähigkeiten großer Sprachmodelle im wissenschaftlichen Kontext zumindest begrenzt werden muss.
Die Integration von Künstlicher Intelligenz zur Unterstützung wissenschaftlicher Arbeit bringt Vorteile bei Effizienz und Zugänglichkeit, birgt jedoch auch Risiken in Bezug auf Genauigkeit und Verlässlichkeit. Ein bewusster und kontrollierter Einsatz, ergänzt durch menschliche Überprüfung, bleibt der Schlüssel zu einem verantwortungsvollen Umgang mit KI in der Wissenschaftskommunikation.