Die rasante Entwicklung großer Sprachmodelle verändert zunehmend viele Bereiche unseres Lebens – so auch die Chemie. Künstliche Intelligenz (KI), insbesondere Large Language Models (LLMs), zeigt bemerkenswerte Fortschritte bei der Verarbeitung von Sprache und der Lösung komplexer Aufgaben. In der Chemie, einem Feld, das stark auf präzises Wissen, kritisches Denken und tiefgreifende Erfahrung angewiesen ist, werfen diese Entwicklungen Fragen auf: Können LLMs die Expertise von erfahrenen Chemikern ersetzen oder ergänzen? Welche Fähigkeiten besitzen sie, wo stoßen sie an ihre Grenzen, und wie beeinflusst das die Zukunft der Chemieforschung und -ausbildung? Diese Erörterung basiert auf den neuesten Erkenntnissen aus der wissenschaftlichen Arbeit „A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists“, die im Mai 2025 veröffentlicht wurde. Große Sprachmodelle – Potenzial und Herausforderungen Große Sprachmodelle basieren auf umfangreichen Trainingsdaten, meist Texten aus unterschiedlichsten Quellen, die ihnen ermöglichen, Sprache zu verstehen, zu generieren und auf vielfältige Fragen zu antworten. Im medizinischen Bereich haben einige dieser Modelle bereits Prüfungen wie das US Medical Licensing Examination mit beachtlicher Leistung bestanden.
In der Chemie hingegen befindet sich die systematische Bewertung ihrer Fähigkeiten erst am Anfang. LLMs können anhand ihrer Trainingsdaten tiefes chemisches Wissen aufnehmen und sind geschickt darin, Fragen zu beantworten oder bestimmte Aufgaben zu lösen, auch wenn sie nicht explizit darauf trainiert wurden. Optimierungen erlauben darüber hinaus, externe Ressourcen wie Suchmaschinen, chemische Datenbanken und Simulationswerkzeuge einzubinden, was die Leistungsfähigkeit weiter steigert. Dennoch gibt es eine wesentliche Diskussion darüber, ob es sich bei den Ergebnissen dieser Modelle um echte Intelligenz oder lediglich um das „Nachplappern“ gelernter Inhalte handelt – genannt „stochastic parrots“. ChemBench – Ein Benchmark für chemische Intelligenz Um den Vergleich zwischen LLMs und menschlichen Chemikern fundiert zu gestalten, entwickelten Forscher das ChemBench-System.
Es handelt sich um einen umfangreichen Fragenkatalog mit über 2700 Frage-Antwort-Paaren, die ein breites Spektrum chemischer Themen abdecken – von Grundlagen der allgemeinen Chemie bis hin zu spezialisierten Bereichen wie technischer Chemie, Analysemethoden und Sicherheitsbestimmungen. Die Fragen sind sorgfältig klassifiziert nach erforderlichen Fähigkeiten: Wissen, Rechnen, logisches Schlussfolgern und Intuition. Damit spiegelt das Benchmark-Set authentische Problemstellungen aus Lehre und Forschung wider und verlangt von den Testteilnehmern vielseitige Kompetenzen. Zusätzlich wurden sowohl Multiple-Choice-Fragen als auch offen formulierte Fragen berücksichtigt, um die unterschiedlichen Antwortformate zu reflektieren, die in der chemischen Praxis vorkommen. Vergleich der Modell- und Expertenergebnisse Die Benchmark-Ergebnisse zeigen eine überraschende Entwicklung: Die besten LLMs übertreffen im Durchschnitt sogar die Leistungen der besten menschlichen Chemiker im Test.
Ein Modell namens o1-preview etwa löste fast doppelt so viele Aufgaben korrekt wie der beste geprüfte Experte. Auch andere hoch skalierte Modelle, darunter offene Varianten wie Llama-3.1, erreichten Werte nahe an den Top-Modellen aus proprietären Quellen. Nichtsdestotrotz offenbaren die Tests auch Schwächen. Besonders in Kenntnis-intensiven Fragen, die spezielles Faktenwissen erfordern, liegen die Modelle hinter den menschlichen Fachkundigen zurück.
Die Gründe liegen in den Trainingsdaten, die nicht alle hochspezialisierten Datenbanken oder Sicherheitsinformationen abdecken. So fehlen oft Details, die beispielsweise ausführliche Daten über Toxizität, Sicherheitsrisiken oder spezielle Substanzeigenschaften enthalten. Menschliche Experten kompensieren dies häufig durch den Zugriff auf spezialisierte Quellen und ihre Erfahrung. Darüber hinaus zeigen Modelle bei Aufgaben mit komplexer chemischer Argumentation oder bei Fragen, die molekulare Strukturen und deren Eigenschaften betreffen, Herausforderungen. Beispielsweise waren genaue Vorhersagen zur Anzahl der Kernspinresonanzsignale bei Molekülen, was detailliertes Verständnis der Molekülstruktur voraussetzt, für LLMs schwierig.
Menschen verfügen hier über eine verinnerlichte Intuition und das Kontextwissen rund um molekulare Symmetrien und Stereochemie, das für KI-Modelle nur eingeschränkt zugänglich oder interpretiert wird. Einschränkungen bei der Beurteilung der eigenen Sicherheit Ein weiteres relevantes Ergebnis betrifft die Fähigkeit der Modelle, ihre eigene Verlässlichkeit einzuschätzen. Idealerweise sollten KI-Systeme erkennen, wann sie unsicher oder möglicherweise falsch liegen, um gefährliche Fehlinformationen zu vermeiden, gerade in sicherheitsrelevanten chemischen Kontexten. Die Untersuchungen zeigen jedoch, dass viele LLMs in der Selbsteinschätzung wenig kalibriert sind und oft übermäßiges Vertrauen in falsche Antworten demonstrieren. Dieses Phänomen birgt Risiken, insbesondere wenn Laien die Modelle für sicherheitskritische Entscheidungen nutzen.
Implikationen für Chemieausbildung und Forschung Die Fähigkeit von LLMs, eine breite Palette chemischer Fragen zu lösen, fordert traditionelle Lehr- und Prüfungsformen heraus. Während reines Faktenwissen oder Routineaufgaben zunehmend von KI-Systemen übernommen werden können, wird die kritische Reflexion und das kreative Problemlösen umso wichtiger. Die Chemieausbildung sollte diesen Wandel abbilden, indem sie stärker auf tiefes konzeptionelles Verständnis, methodisches Denken und ethische Aspekte eingeht. Auch in der Forschung kann der Einsatz von LLMs neue Horizonte eröffnen. Beispielsweise könnten intelligente Assistenten Chemiker bei der Ideengenerierung unterstützen, literaturextrahierte Erkenntnisse zusammenfassen oder Experimente planen helfen.
Dabei bleibt entscheidend, dass Menschen die Schlussfolgerungen stets kritisch hinterfragen und modellseitige Unsicherheiten berücksichtigen. Potenziale für künftige Weiterentwicklungen Die Analyse betont, dass die Größe und das Training der Modelle eine Rolle für deren Leistungsfähigkeit spielen. Größere Modelle mit gut selektierten, spezialisierten Datenbanken könnten noch besser werden. Ebenso könnte die Verbindung von Sprachmodellen mit externen Modulen, etwa für strukturierte Datenbanken oder chemisches Wissensgraphen, die Qualität der Antworten verbessern. Zudem eröffnen die Ergebnisse spannende Perspektiven zur modellgestützten Einschätzung chemischer Präferenzen, etwa in der Arzneimittelforschung, wo eine „Chemische Intuition“ gefragt ist.
Die aktuellen Modelle konnten allerdings solche subjektiven oder situationsbezogenen Bewertungen noch kaum nachvollziehen, was weitere Forschungsansätze zum gezielten Fine-Tuning erfordert. Ethik und Sicherheit Angesichts der weitreichenden Einsatzmöglichkeiten ist auch die Diskussion um ethische und sicherheitstechnische Fragestellungen zentral. Die Technologie könnte für das Design von gefährlichen oder verbotenen Substanzen missbraucht werden. Daher ist es wesentlich, dass Entwickler und Nutzer Verantwortung übernehmen, geeignete Schutzmechanismen implementieren und den Zugang zu sensiblen Informationen kontrollieren. Fazit Die Ergebnisse der ChemBench-Studie verdeutlichen ein spannendes Bild: Große Sprachmodelle besitzen heute bereits beeindruckende Fähigkeiten, die sie in vielen chemischen Fragestellungen mit und manchmal sogar besser als erfahrene Chemiker beantworten können.