Die rasante Entwicklung großer Sprachmodelle (Large Language Models, LLMs) hat in den letzten Jahren zahlreiche Bereiche revolutioniert. Vom Gesundheitswesen bis zur Materialwissenschaft ist die Fähigkeit dieser Modelle, menschliche Sprache zu verstehen und komplexe Aufgaben zu bewältigen, zunehmend bemerkenswert. Besonders spannend wird es, wenn diese Technologie in das anspruchsvolle Feld der Chemie eingeführt wird, das traditionell enormes Fachwissen und präzises logisches Denken erfordert. Die Frage, wie gut LLMs chemisches Wissen und die Fähigkeit zur chemischen Argumentation beherrschen, beschäftigt derzeit Forscher und Fachleute weltweit. Im Mai 2025 wurde in Nature Chemistry eine umfassende Studie veröffentlicht, die sich genau diesem Thema widmet.
Dabei wurde ein neu entwickeltes Benchmark-Framework namens ChemBench vorgestellt, welches die chemischen Kenntnisse und die logische Schlussfolgerungsfähigkeit führender großer Sprachmodelle mit der Expertise erfahrener Chemiker vergleicht. Die Arbeit bietet einen systematischen und fundierten Einblick in die Stärken und Schwächen moderner KI-Systeme im Spannungsfeld zwischen maschineller Intelligenz und menschlichem Fachverstand. ChemBench basiert auf einem umfangreichen Korpus von knapp 2.800 Fragen aus unterschiedlichsten Bereichen der Chemie. Diese Fragen wurden sorgfältig kuratiert, eingeteilt in verschiedene Schwierigkeitsgrade und thematisch breit gestreut, von Grundlagen der allgemeinen Chemie bis hin zu Spezialgebieten wie analytischer oder technischer Chemie.
Dabei wurden unterschiedliche Arten von Fragen berücksichtigt: Unter anderem reine Wissensfragen, solche die komplexes logisches Denken erfordern, Rechenaufgaben sowie Fragen, die chemische Intuition voraussetzen. Die Studie untersuchte diverse führende LLMs, sowohl offene als auch proprietäre Systeme, und ließ diese ohne spezielle Feinabstimmung die Fragen beantworten. Als Vergleichsdatenbasis wurden 19 Chemieexperten befragt, die die gleichen Fragen per Webanwendung beantworteten. Einzelne Experten durften hierbei auch Hilfsmittel wie Websuchen verwenden, um einen realistischen Praxisbezug herzustellen. Die Ergebnisse sind überraschend und weisen auf einen Wendepunkt in der Beziehung zwischen Mensch und Maschine im Chemiebereich hin.
Die besten Sprachmodelle, unter ihnen das Modell o1-preview, erzielten bei der Gesamtbewertung eine deutlich bessere Trefferquote als alle befragten Experten. Dieses Ergebnis zeigt zum ersten Mal, dass KI-Systeme nicht nur Texte verstehen, sondern auch komplexes Fachwissen und Begründungen in der Chemie anwenden können – und das teils deutlich besser als Menschen. Dabei liegen die erzielten Werte weit über dem Durchschnitt der Humanexperten und stellen selbst erfahrene Chemiker vor eine Herausforderung. Dennoch offenbaren die Modelle auch deutliche Schwächen. Besonders bei Aufgaben, welche tiefgehendes Faktenwissen erfordern, zeigt sich, dass viele Modelle nicht über alle relevanten Daten verfügen und deshalb falsche Antworten generieren.
Hier würden ergänzende Spezialdatenbanken, wie PubChem oder Gestis, hilfreich sein – sowohl für Menschen als auch für KI, die darauf zugreifen kann. Die Fähigkeit zur zuverlässigen Selbstreflexion ist eine weitere Hürde: Viele KI-Modelle sind nicht in der Lage, ihre eigene Unsicherheit adäquat einzuschätzen. Sie geben oft mit hoher Überzeugung falsche Antworten ab, was besonders beim Thema chemische Sicherheit problematisch sein kann. Die Untersuchung nach Fachgebieten setzte weitere Akzente. Während Modelle in allgemeinen und technischen Chemiebereichen gut abschneiden, ist ihre Leistung bei Sicherheitsfragen, Toxikologie und analytischer Chemie vergleichsweise schwach.
Insbesondere bei der Analyse von NMR-Spektren und der strukturellen Bestimmung von Molekülen zeigen die KI-Systeme Schwächen. Interessanterweise hängt die Modellleistung nicht von der Komplexität der Moleküle ab, sondern eher davon, wie ähnlich die Moleküle zu den Daten sind, auf denen das Modell trainiert wurde. Dies spricht dafür, dass die Modelle mit eher oberflächlichen Methoden arbeiten, anstatt echte chemische Strukturbeziehungen zu erfassen. Ein weiteres spannendes Forschungsfeld sind Fragen, bei denen es um Präferenzen oder chemische Intuition geht. Welche der zwei Moleküle wäre in der Forschung attraktiver? Bei diesen deutlich offeneren Fragestellungen liegen die Modelle auf gleichem Niveau wie zufällige Entscheidungen, während menschliche Chemiker eine gewisse Übereinstimmung ihrer Einschätzungen zeigen.
Dies verdeutlicht, dass das menschliche Bauchgefühl und Erfahrung in der Chemie aktuell nicht ohne weiteres von KI reproduziert werden können. Die Ergebnisse werfen interessante Fragen auf, was die Aus- und Weiterbildung in der Chemie betrifft. Wenn KI künftig reines Faktenwissen und auch viele Rechen- und logische Aufgaben leichter bewältigen kann als Menschen, wird sich der Fokus der Ausbildung verschieben müssen. Es wird zunehmend wichtiger, kritisches Denken zu fördern und komplexe Beurteilungen zu trainieren, die über das reine Abrufen von Wissen hinausgehen. Dies ist auch notwendig, um mit KI-Systemen erfolgreich zusammenzuarbeiten und deren Vorschläge kompetent zu interpretieren.
Auch für den praktischen Alltag von Chemikern und Forschern eröffnet der Einsatz von LLMs neue Perspektiven. Die Möglichkeit, auf eine große Bandbreite an Wissen und Daten in Sekundenschnelle zuzugreifen und Vorschläge für Reaktionen, Eigenschaftsprognosen oder Synthesewege zu erhalten, kann die Produktivität enorm steigern. Kopiloten auf KI-Basis könnten in naher Zukunft zu unverzichtbaren Assistenten in Forschungslabors werden, die den Menschen ergänzen, statt ihn zu ersetzen. Ein entscheidender Punkt bleibt jedoch die Vertrauenswürdigkeit. Fehlende oder fehlerhafte Antworten können besonders in sicherheitsrelevanten Bereichen wie Toxikologie fatale Folgen haben.
Das zeigt, dass Systeme entwickelt werden müssen, die nicht nur Wissen abrufen, sondern auch ihre Grenzen erkennen und transparent machen. Halbautomatische Kontrollmechanismen und integrative Nutzung von spezialisierten Datenbanken sind zentrale Bausteine für eine verantwortungsvolle Implementierung. Die Studie unterstreicht zudem, dass aktuell verfügbare Benchmarks für LLMs im chemischen Bereich oftmals zu eng gefasst sind, meist beschränkt auf spezifische Vorhersageaufgaben von Moleküleigenschaften. ChemBench hingegen bietet einen umfassenden, validierten und breit gefächerten Rahmen, der realitätsnahere Aussagen über die Fähigkeiten von Modellen zulässt. Dies stellt eine wichtige Grundlage für die weitere Forschung und Entwicklung dar.
Große Sprachmodelle verfügen außerdem über das Potenzial, in Zukunft Wissen aus wissenschaftlichen Publikationen und anderen Textquellen selbstständig zu extrahieren und aufzubereiten. Viele der in der Chemie gewonnenen Erkenntnisse sind in unstrukturierten Texten verborgen, die für Menschen in ihrer Fülle kaum vollständig erschlossen werden können. KI könnte hier entscheidend dazu beitragen, diese Wissensschätze zu heben und neue Zusammenhänge zu entdecken. Die Herausforderungen bei der Nutzung von LLMs im chemischen Kontext sind jedoch beträchtlich. Chemie ist eine exakte Wissenschaft, bei der Fehler nicht nur theoretischer Natur bleiben, sondern reale Auswirkungen haben können.
Die Fähigkeit von Modellen, synthetische Zugänge zu planen oder Reaktionen vorzuschlagen, muss streng geprüft werden. Insbesondere das Thema Dual-Use, also die unerlaubte Nutzung von Technologien zur Herstellung gefährlicher Substanzen, ist ein ethisch und gesellschaftlich bedeutendes Anliegen. Nicht zuletzt zeigt sich auch, dass offene Modelle, wie beispielsweise Llama 3.1, zunehmend in die Spitzenpositionen vordringen und mit kommerziellen Anbietern mithalten können. Dies fördert den offenen wissenschaftlichen Austausch und vermeidet Monopolisierungstendenzen.
Zugleich bleibt der Aufwand für Training und Einsatz solcher Modelle enorm, was auch die Kosten für Benchmarks und Evaluierungen beeinflusst. Insgesamt zeigt der Vergleich zwischen LLMs und menschlicher Chemikerexpertise, dass künstliche Intelligenz in der Chemie auf einem ganz neuen Niveau angekommen ist. Es ist jedoch ebenso deutlich, dass Technologie allein nicht genügt. Die Kooperation von Mensch und Maschine, eine fundierte Methodik zur Bewertung von Modellleistungen sowie eine kritische Auseinandersetzung mit Limitationen und Risiken sind unerlässlich. Die Zukunft der Chemie wird von einer symbiotischen Beziehung zwischen erfahrenen Wissenschaftlern und leistungsfähigen KI-Systemen geprägt sein.