Mining und Staking

Künstliche Intelligenz und Wissenschaft: Warum bis zu 73% der Zusammenfassungen von Sprachmodellen ungenau sind

Mining und Staking
Up to 73% of large language models produce inaccurate conclusions, study finds

Eine aktuelle Studie zeigt, dass große Sprachmodelle bei der Zusammenfassung wissenschaftlicher Arbeiten häufig zu ungenauen oder übertriebenen Schlussfolgerungen kommen. Erfahren Sie, warum dieses Problem besteht und welche Folgen es für Wissenschaftskommunikation und Öffentlichkeit haben kann.

Die Nutzung von Künstlicher Intelligenz, insbesondere großer Sprachmodelle (Large Language Models, LLMs), gewinnt in vielen Lebensbereichen rasant an Bedeutung. Ob für die Texterstellung, Beantwortung von Fragen oder eben wissenschaftliche Zusammenfassungen – Tools wie ChatGPT, Claude oder LLaMA versprechen, komplexe Informationen verständlich und schnell aufzubereiten. Doch eine neue Studie von Uwe Peters von der Universität Utrecht und Benjamin Chin-Yee von der Western University und Universität Cambridge hat ein alarmierendes Ergebnis geliefert: Bis zu 73 % der durch LLMs generierten wissenschaftlichen Zusammenfassungen enthalten ungenaue oder übertriebene Aussagen. Diese Erkenntnis wirft zahlreiche Fragen zur Verlässlichkeit solcher KI-Systeme im wissenschaftlichen Kontext auf und verdeutlicht die Herausforderungen, die mit dem Einsatz von Künstlicher Intelligenz bei der Interpretation von Forschung verbunden sind. Die Untersuchung von Peters und Chin-Yee basiert auf einer Analyse von fast 5.

000 Zusammenfassungen, die von zehn führenden großen Sprachmodellen erstellt wurden. Ausgangsmaterial waren Abstracts und komplette Artikel renommierter Wissenschaftsjournale wie Nature, Science oder The Lancet. Die Forscher wollten insbesondere wissen, wie treffsicher die KI-Modelle die Inhalte vermitteln können, ohne den ursprünglichen Sinn zu verfälschen. Eines der auffälligsten Ergebnisse war, dass in sechs der zehn getesteten Modelle systematische Verzerrungen erkennbar waren. Die KI neigt dazu, vorsichtige, oft in der Vergangenheitsform formulierte Aussagen in generalisierende, gegenwartsbezogene Behauptungen umzuwandeln.

So wird beispielsweise aus einer Beschreibung wie „Die Behandlung war in dieser Studie wirksam“ eine Aussage à la „Die Behandlung ist wirksam“. Diese scheinbar kleine Änderung kann gravierende Folgen für das Verständnis der Forschungsergebnisse haben, da sie die Übertragbarkeit der Resultate über die ursprüngliche Studie hinaus suggeriert. Die Wissenschaft lebt von Präzision, besonders in der Kommunikation der Resultate. Nuancen und Unsicherheiten werden genau so adressiert wie positive Befunde. Wird diese Differenzierung durch automatisierte Zusammenfassungen aufgehoben, kann das zu Fehlinformationen führen, die wiederum sowohl Wissenschaftler als auch die breite Öffentlichkeit in die Irre führen.

Besonders besorgniserregend ist, dass bei Aufforderung an die KIs, genauer zu arbeiten oder Exaktheit zu gewährleisten, die Modelle oft noch stärker zu Übertreibungen neigen. Das legt nahe, dass die KI lediglich Muster erkennt, welche Antworten auf Menschen ansprechend wirken, und dabei unangemessen verallgemeinert – eine Eigenschaft, die sich als problematisch erweist, wenn Genauigkeit unabdingbar ist. Wichtig ist auch die Erkenntnis, dass neuere KI-Modelle wie ChatGPT-4o oder DeepSeek tendenziell schlechter abschneiden als ihre Vorgänger. Das widerspricht der gängigen Annahme, dass technische Weiterentwicklungen automatisch auch zu besserer Informationsverarbeitung führen. Warum tendieren LLMs überhaupt zur Übertreibung? Zum einen reflektieren sie die Trainingsdaten, die häufig Texte und Aussagen enthalten, in denen Menschen ebenfalls generalisierende Schlüsse ziehen.

Wissenschaftler sind mitunter geneigt, Befunde über ihre Studien hinaus zu interpretieren, beispielsweise eine Studie an einer bestimmten Bevölkerungsgruppe auf alle Menschen zu übertragen. Die KIs übernehmen diese Tendenz und führen sie in ihren Zusammenfassungen weiter. Zum anderen lernen die Sprachmodelle von den Interaktionen mit Nutzern. Es besteht die Möglichkeit, dass Menschen bei der Feinabstimmung bevorzugen, Antworten zu erhalten, die hilfreich und allgemein anwendbar klingen, selbst wenn das zu Lasten der Genauigkeit geht. Die KI adaptiert in Folge dieses Feedbacks ihr Antwortverhalten entsprechend.

Die Konsequenzen dieser Erkenntnisse sind weitreichend. Wissenschaftliche Kommunikation hat die Aufgabe, Forschungsergebnisse verständlich und präzise zu vermitteln, damit Wissen auf fundierter Basis erweitert und angewandt werden kann. Der Einsatz von KI in diesem Bereich birgt das Risiko, Fehlinformationen zu verbreiten, die den Eindruck erwecken, als seien wissenschaftliche Erkenntnisse eindeutiger oder allgemeingültiger, als sie tatsächlich sind. Eine Vielzahl von Akteuren – von Studierenden über Forscher bis hin zu politischen Entscheidungsträgern – verlässt sich zunehmend auf automatisierte Zusammenfassungen als schnell verfügbare Orientierungshilfe. Wenn diese Quellen jedoch verzerrt oder übertrieben berichten, gefährdet dies nicht nur die Qualität der wissenschaftlichen Debatte, sondern auch das Vertrauen in die Wissenschaft insgesamt.

Die Studie von Peters und Chin-Yee verdeutlicht, wie wichtig es ist, Künstliche Intelligenz in der Wissenschaftskommunikation kritisch zu evaluieren und klare Standards für ihre Nutzung zu entwickeln. Es bedarf einer verstärkten Überprüfung und Testung der Algorithmen in echten wissenschaftlichen Anwendungsfällen. Zudem sollten Trainingsdaten sorgfältig ausgewählt und auf ihre Qualität und Repräsentativität geprüft werden, um problematische Verzerrungen zu minimieren. Im Umgang mit KI-gestützten Zusammenfassungen raten die Forscher zur Vorsicht. Modelle wie Claude schneiden im Vergleich besser ab und zeigen eine geringere Neigung zur Überverallgemeinerung.

Auch der gezielte Einsatz von sogenannten „Temperatur“-Einstellungen, die die Kreativität und Variabilität der Modellantworten steuern, kann helfen, präzisere Zusammenfassungen zu erhalten. Darüber hinaus empfiehlt es sich, besonders auf Formulierungen in der Vergangenheitsform oder indirekter Rede zu achten, da diese die erforderliche Zurückhaltung in der wissenschaftlichen Aussage unterstreichen. Letztlich ersetzt die KI heute noch nicht die fachliche Expertise von Wissenschaftlern und verlässlichen Medien. Die kritische Auseinandersetzung mit den Ergebnissen bleibt unerlässlich, um Falschinformationen und Missverständnisse zu vermeiden. Zusammenfassend zeigt der aktuelle Forschungsstand deutlich, dass die bisherige Euphorie über die Fähigkeiten großer Sprachmodelle im wissenschaftlichen Kontext zumindest begrenzt werden muss.

Die Integration von Künstlicher Intelligenz zur Unterstützung wissenschaftlicher Arbeit bringt Vorteile bei Effizienz und Zugänglichkeit, birgt jedoch auch Risiken in Bezug auf Genauigkeit und Verlässlichkeit. Ein bewusster und kontrollierter Einsatz, ergänzt durch menschliche Überprüfung, bleibt der Schlüssel zu einem verantwortungsvollen Umgang mit KI in der Wissenschaftskommunikation.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
AI can do a better job of persuading people than we do
Sonntag, 06. Juli 2025. KI übertrifft Menschen: Wie künstliche Intelligenz besser überzeugen kann als wir

Die neuesten Forschungen zeigen, dass künstliche Intelligenz, insbesondere große Sprachmodelle wie GPT-4, effektiver darin ist, Menschen zu überzeugen als Menschen selbst. Diese Entwicklung hat weitreichende Auswirkungen auf Kommunikation, Online-Debatten und den Umgang mit Desinformation.

AI, Assembly, and the Art of Project Stewardship
Sonntag, 06. Juli 2025. KI, Assembler und die Kunst der Projektverantwortung: Eine Reflexion über Zukunft und Gemeinschaft

Eine tiefgehende Betrachtung der Integration von Künstlicher Intelligenz in Entwickler-Tools, insbesondere bei Assemblersprachen, und die Herausforderungen sowie Chancen, die sich für Projektverantwortliche im Zeitalter digitaler Transformation ergeben.

Scheming a mise-en-abîme in BQN
Sonntag, 06. Juli 2025. Scheming im Mise-en-abîme: Einblicke in die Entwicklung eines Scheme-Interpreters in BQN

Eine detaillierte Analyse der Implementierung eines Scheme-Interpreters in BQN, der die Grundlagen von metakognitiver Programmierung und Self-Hosting demonstriert. Entdecken Sie, wie funktionale Programmierung, Lisp-Philosophie und moderne Spracheigenschaften in einem eleganten Interpreter miteinander verschmelzen.

Show HN: TypeQuicker – The AI Typing Application
Sonntag, 06. Juli 2025. TypeQuicker: Die Revolution im Schreiben mit KI-gestütztem Tippen

Entdecken Sie, wie TypeQuicker, die innovative KI-Tippanwendung, Anfängern und erfahrenen Schreibern dabei hilft, ihre Tippfähigkeiten zu verbessern, schneller zu schreiben und mit maßgeschneiderten Übungen kontinuierlich Fortschritte zu erzielen.

Show HN: Klipy – Generate Memes via AI (Meme, Sticker, and GIF API)
Sonntag, 06. Juli 2025. Klipy: Wie KI die Meme-Erstellung revolutioniert und kreative Inhalte neu definiert

Entdecken Sie, wie Klipy durch künstliche Intelligenz die Erstellung von Memes, Stickern und GIFs vereinfacht und Kreativität auf ein neues Level hebt. Erfahren Sie mehr über die Funktionen, Vorteile und den Einfluss dieser innovativen API auf die digitale Content-Erstellung.

The Tech Guys Are Fighting. Literally
Sonntag, 06. Juli 2025. Wenn Tech-Genies Zu Kämpfern Werden: Die Kampfkunst-Revolution der Tech-Branche

In einer überraschenden kulturellen Wendung suchen erfolgreiche Persönlichkeiten der Technologiebranche neue Ausdrucksformen von Männlichkeit – indem sie sich buchstäblich in den Ring begeben und Kampfsportarten erlernen. Die Verschmelzung von Tech-Welt und Kampfkunst verändert die Wahrnehmung des modernen Mannes und wirft ein Licht auf gesellschaftliche Trends und technologische Einflüsse.

Crypto has a regulatory capture problem in Washington — or does it?
Sonntag, 06. Juli 2025. Hat die Krypto-Branche in Washington wirklich ein Problem mit Regulatorischer Vereinnahmung?

Die Debatte um regulatorische Vereinnahmung in der Krypto-Branche gewinnt in Washington zunehmend an Bedeutung. Dabei geht es um den Einfluss großer Krypto-Unternehmen auf Gesetzgebungsprozesse und die damit verbundenen Risiken für Wettbewerb und öffentliche Interessen.