Rechtliche Nachrichten

Künstliche Intelligenz trifft Chemie: Wie große Sprachmodelle gegen Expertenwissen im Chemiebereich abschneiden

Rechtliche Nachrichten
Chemical knowledge and reasoning of large language models vs. chemist expertise

Eine tiefgehende Analyse der Fähigkeiten großer Sprachmodelle im Vergleich zur Expertise von Chemikern, einschließlich ihrer Stärken, Schwächen und Anwendungspotenziale in der modernen chemischen Forschung und Bildung.

In den letzten Jahren hat die rasante Entwicklung großer Sprachmodelle (Large Language Models, LLMs) wie GPT-4 die Art und Weise verändert, wie wir mit Informationen umgehen, insbesondere auch im naturwissenschaftlichen Bereich. Chemie, langjährig als eine der anspruchsvollsten Naturwissenschaften bekannt, erfährt durch diese neuen Technologien einen grundlegenden Wandel. Die Frage, inwiefern LLMs chemisches Wissen und komplexe Schlussfolgerungen darstellen und verarbeiten können, steht dabei im Mittelpunkt zahlreicher Diskussionen. Die jüngsten Untersuchungen zeigen, dass die besten Modelle in der Lage sind, Antworten zu liefern, die zum Teil sogar besser sind als jene von erfahrenen Chemikern. Doch diese Behauptung wirft auch Fragen über die Zuverlässigkeit, die Grenzen sowie die zukünftige Rolle künstlicher Intelligenz in der Chemie auf.

Die Chemie als Disziplin basiert nicht nur auf der Aneignung von Faktenwissen, sondern auch auf tiefgehender Deduktion, kritischem Denken und der intuitiven Einschätzung komplexer Systeme. Während ein Mensch, etwa ein erfahrener Chemiker, jahrelang trainieren muss, um diese Fähigkeiten zu entwickeln, lernen LLMs durch das Training auf riesigen Textmengen, darunter wissenschaftliche Literatur, Lehrbücher und experimentelle Daten. Das erlaubt ihnen, auf umfangreiches Wissen zurückzugreifen, das in unzähligen Dokumenten gesammelt ist, und auf Basis dieser Informationen Text zu generieren, der oft problemorientiert und situativ angepasst erscheint. Eine kürzlich veröffentlichte Studie aus dem Jahr 2025 stellt mit dem ChemBench-Framework eine umfassende Benchmark für die Bewertung chemischer Kenntnisse und der Schlussfolgerungsfähigkeiten von LLMs bereit. Dieses Framework enthält über 2700 Fragen und Antworten aus den verschiedensten Bereichen der Chemie, von allgemeinen Themen bis hin zu spezialisierten Teilgebieten wie anorganische, analytische oder technische Chemie.

Die Fragen sind so gestaltet, dass sie nicht nur reines Faktenwissen abfragen, sondern auch komplexe Problemstellungen, die eine Kombination aus Wissen, Berechnung, Intuition und logischem Denken erfordern. Diese anspruchsvolle Datenbasis ermöglicht es, die Leistungsfähigkeit von KI-Modellen differenziert und praxisorientiert einzuschätzen. Die Ergebnisse dieser Evaluation überraschen: Führende LLMs konnten in der Gesamtheit der Fragen sogar besser abschneiden als die besten menschlichen Experten der Studie, obwohl Letztere in zahlreichen Fällen Zugriff auf Werkzeuge wie Websuchen oder Chemie-Software hatten. Dies verdeutlicht die enormen Fortschritte, die auf dem Gebiet der künstlichen Intelligenz und des maschinellen Lernens erzielt wurden. Besonders bemerkenswert ist, dass einige offene, also frei zugängliche Modelle, hinsichtlich der Leistung den proprietären Varianten kaum mehr nachstehen und damit neuen Zugang zu hervorragenden KI-Hilfsmitteln für die chemische Forschung bieten.

Trotz dieses vielversprechenden Bildes zeigen sich deutliche Schwächen der Modelle bei bestimmten Fragestellungen. Vor allem bei wissensintensiven Aufgaben, die nicht nur das Abrufen von Fakten, sondern auch deren Verknüpfung mit spezialisierten Datenbanken und tiefem Verständnis erfordern, stoßen sie an Grenzen. So sind LLMs beispielsweise weniger erfolgreich, wenn es darum geht, Sicherheitsaspekte von Chemikalien korrekt zu bewerten oder toxikologische Profile zu analysieren. Teilweise führen sie sogar zu überzuversichtlichen oder falschen Antworten, was gerade im Umgang mit Gefahrstoffen oder pharmazeutischen Substanzen bedeutsame Konsequenzen haben kann. Die Schwierigkeiten in Bereichen wie der analytischen Chemie, speziell bei der Vorhersage von Signalen in Kernspinresonanz-Spektren, betreffen die Modelle ebenfalls.

Hier offenbaren sich Limitierungen bei struktureller Analyse und der Interpretation molekularer Feinheiten. Der Grund liegt unter anderem darin, dass LLMs chemische Strukturen oft als lineare Darstellungen (SMILES-Code) verarbeiten müssen, ohne diese molekularen Strukturen wirklich visuell oder räumlich erfassen zu können, wie es ein Chemiker vielleicht durch Diagramme oder Modelle tut. Die Folge ist, dass diese Modelle häufig nicht wirklich „nachdenken“ im klassischen Sinne, sondern vielmehr auf Muster aus Trainingsdaten und Textvergleichen zurückgreifen. Eine weitere Herausforderung liegt in der Selbsteinschätzung der Modelle: Sie sind oftmals nicht in der Lage, realistisch abzuwägen, ob eine Antwort korrekt ist oder nicht. Während Menschen häufig ein Gefühl für die Grenzen ihres Wissens entwickeln, neigen LLMs dazu, auch bei unzureichender Sicherheit klare und durchsetzungsfähige Aussagen zu treffen.

Diese fehlende Kalibrierung des Vertrauens macht den Einsatz dieser Systeme in sicherheitskritischen Anwendungen problematisch und unterstreicht die Notwendigkeit von Kontrollmechanismen und verbesserter Fehlervorhersage. Die Bewertung der Modelle in unterschiedlichen chemischen Themenbereichen zeigt eine breite Varianz. So erzielen die Systeme hohe Punktzahlen in allgemeinen und technischen Fragestellungen, während sie in Bereichen wie Sicherheit, Toxikologie oder komplexer analytischer Chemie deutlich schwächer abschneiden. Interessanterweise schneiden sie auf Fragen, die an klassische Lehrbücher und Prüfungsfragen angelehnt sind, besser ab als bei innovativen oder speziell generierten Fragestellungen, die viel mehr Abstraktionsvermögen erfordern. Dies weist darauf hin, dass LLMs besonders dann glänzen, wenn der Input stark an den Trainingsdaten orientiert ist und weniger gut, wenn kreative oder unerschlossene Fragestellungen anstehen.

Eine spezielle Domäne im Benchmarking war die chemische Präferenzbewertung, bei der es darum ging, welche von zwei Verbindungen ein Medicinal Chemist bevorzugen würde. Hier schnitten die KI-Modelle kaum besser als zufällige Auswahl ab. Die Erklärung liegt darin, dass solche Präferenzen oft auf subtilen, nicht immer durch Fakten zu erklärenden Erfahrungen und intuitiven Überlegungen beruhen. Das zeigt, dass gerade im Bereich der Intuition und des menschlichen Erfahrungswissens LLMs derzeit noch nicht die Komplexität abbilden können, die bei echten Forscherentscheidungen eine Rolle spielt. Das große Potenzial von LLMs in der Chemie liegt jedoch auf der Hand.

Gerade die Fähigkeit, aus riesigen Textsammlungen Wissen zu aggregieren, ermöglicht es, Antworten schneller und oft präziser zu geben, als es Menschen mit begrenzter Lesezeit möglich wäre. In Forschungssettings können solche Modelle als „Copiloten“ agieren, die bei der Suche nach Literatur, der Formulierung von Hypothesen und dem Design von Experimenten unterstützen. Auch für die akademische Ausbildung eröffnen sie neue Perspektiven, indem sie Lernende bei der Wissensaneignung begleiten und ermutigen, kritisch zu reflektieren. Der Einfluss auf die Chemieausbildung könnte fundamental sein. Die Vergleiche zeigen, dass LLMs bereits viele klassische Aufgaben schneller und zuverlässiger lösen können als Studierende oder sogar erfahrene Wissenschaftler.

Daraus folgt, dass zukünftiger Unterricht weniger auf reiner Faktenvermittlung basieren dürfe, sondern verstärkt Forschungs- und Denkprozesse sowie die Entwicklung eines kritischen Verständnisses in den Vordergrund rücken müssen. Die Wissensvermittlung sollte somit mehr als jemals zuvor problem- und kompetenzorientiert sein. Trotz der Erfolge ist es wichtig, potenzielle Risiken nicht zu verleugnen. Die duale Nutzbarkeit von Technologien im Chemiebereich ist ein ernstzunehmender Diskussionspunkt: Während KI-Modelle helfen können, nebenwirkungsarme Medikamente zu entwickeln, besteht auch das Risiko missbräuchlicher Anwendungen, etwa bei der Synthese gefährlicher Substanzen. Die Studie betont daher die Notwendigkeit verantwortungsvoller Forschung, guter Governance und einer ethisch fundierten Debatte um den Einsatz von künstlicher Intelligenz in der Chemie.

Technisch gesehen bietet das ChemBench-Framework wertvolle Tools für die Entwicklung und das Benchmarking von chemiespezifischen LLMs. Durch strukturierte Fragen mit annotierten Antworten, die sowohl Multiple-Choice als auch offene Formate umfassen, können Entwickler und Wissenschaftler die Stärken ihrer Modelle genau messen. Zudem ermöglicht es die Integration von Systemen, die externe Werkzeuge wie Literaturdatenbanken oder Code-Executor einbinden, um so die Modellkompetenz in realistischen Anwendungsszenarien zu testen. In der Zukunft ist damit zu rechnen, dass mit zunehmender Modellgröße und besserer Integration von spezialisierten Datenbanken die chemische Kompetenz von LLMs weiter zunehmen wird. Gleichzeitig werden Modelle künftig eher als unterstützende Agenten gesehen, die in enger Zusammenarbeit mit menschlichen Experten agieren.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Stablecoins to Become Cash Layer of Internet Once GENIUS Act Is Law: Bernstein
Samstag, 06. September 2025. Stablecoins als neue Geldschicht im Internet: Die revolutionäre Rolle des GENIUS Act

Die bevorstehende Verabschiedung des GENIUS Act in den USA markiert einen Wendepunkt für Stablecoins. Dieses Gesetz könnte stabile Kryptowährungen zur neuen Zahlungsinfrastruktur des Internets machen und den digitalen Zahlungsverkehr nachhaltig verändern.

Donald Trump's Truth Social Files for Dual Bitcoin and Ether ETF
Samstag, 06. September 2025. Donald Trumps Truth Social beantragt innovativen Bitcoin- und Ether-ETF

Donald Trumps Medienunternehmen Truth Social hat einen bahnbrechenden Schritt eingeleitet und einen Dual-Bitcoin- und Ether-ETF bei der US-Börsenaufsicht SEC eingereicht. Diese Entwicklung könnte die Kryptobranche nachhaltig beeinflussen und bietet Anlegern eine neue Möglichkeit, direkt in die beiden führenden Kryptowährungen zu investieren.

 From $2.5M loss to $65M gain: Inside the playbook of ‘recycled’ crypto founders
Samstag, 06. September 2025. Vom Verlust von 2,5 Millionen Dollar zum Gewinn von 65 Millionen: Das Erfolgsrezept der wiederkehrenden Krypto-Gründer

Die Geschichte von Dough Finance und World Liberty Financial zeigt den Aufstieg und Fall eines DeFi-Projekts und die erstaunliche Wiederauferstehung seiner Gründer. Ein Blick hinter die Kulissen der Strategien, Risiken und kritischen Lektionen, die sich aus dem Handel mit Kryptowährungen und DeFi-Plattformen ergeben.

 Rethinking Sweden’s cashless society: An offline e-cash option is needed
Samstag, 06. September 2025. Schweden und die Kehrtwende zur Bargeldlosigkeit: Warum eine Offline-E-Cash-Lösung unverzichtbar wird

Schweden gilt als Vorreiter einer bargeldlosen Gesellschaft, doch derzeit zwingt Sicherheitsbedenken und technologische Herausforderungen das Land, über eine Rückkehr zu Offline-Zahlungsmethoden nachzudenken. Eine innovative Offline-E-Cash-Lösung könnte dabei helfen, die digitale Wirtschaft krisenfest und inklusiv zu gestalten.

Justin Sun’s Tron to Go Public in the US: Report
Samstag, 06. September 2025. Justin Suns Tron plant Börsengang in den USA: Ein bahnbrechender Schritt für Blockchain und Kryptowährungen

Justin Suns Tron bereitet sich darauf vor, durch eine Reverse-Merger-Strategie mit SRM Entertainment an die US-Börse zu gehen. Diese bedeutende Entwicklung markiert einen wichtigen Meilenstein für Justin Suns Blockchain-Projekt, das durch strategische Partnerschaften und neue Beziehungen zur US-Regierung an Fahrt aufnimmt.

Chemical knowledge and reasoning of large language models vs. chemist expertise
Samstag, 06. September 2025. Große Sprachmodelle und ihre chemische Expertise: Wie künstliche Intelligenz den Wissensstand von Chemikern herausfordert

Eine tiefgehende Analyse der Fähigkeiten großer Sprachmodelle im Vergleich zu menschlichen Chemikern im Bereich chemisches Wissen und logisches Denken. Chancen, Schwächen und Auswirkungen auf Forschung und Ausbildung im Chemiebereich.

Class Action: Drivers Sour on Lemonade for Exposing License Numbers
Samstag, 06. September 2025. Klage gegen Lemonade: Fahrerdaten durch Sicherheitslücken gefährdet – Datenschutz im Fokus

Der Fall rund um die Datenpanne bei Lemonade wirft ein Schlaglicht auf die Risiken digitaler Versicherungsplattformen und die Bedeutung des Datenschutzes bei Online-Autoversicherungen. Betroffene Fahrer klagen über gravierende Sicherheitsmängel und fordern verbesserte Schutzmaßnahmen.