Die rasante Entwicklung großer Sprachmodelle, sogenannter Large Language Models (LLMs), verändert die Landschaft vieler wissenschaftlicher Disziplinen fundamental – auch die Chemie bleibt davon nicht unberührt. Während LLMs ursprünglich entwickelt wurden, um natürliche Sprache zu verstehen und zu generieren, eröffnen sich zunehmend neue Einsatzfelder, in denen diese Modelle dabei helfen, komplexe chemische Fragestellungen zu bearbeiten oder sogar mit menschlicher Expertise zu konkurrieren. Doch wie gut sind diese künstlichen Intelligenzen tatsächlich darin, chemisches Wissen zu verarbeiten, zu interpretieren und kreative Schlüsse daraus zu ziehen? Und wo liegen die Grenzen im Vergleich zu erfahrenen Chemiker:innen? Mit dem neu entwickelten ChemBench-Framework liefert eine Gruppe internationaler Forschender eine umfassende Bewertung der Fähigkeiten moderner LLMs im Bereich Chemie – ein Meilenstein in der objektiven Analyse von KI-basierter Wissensverarbeitung und reasoning. Große Sprachmodelle und die Chemie: Ein Überblick LLMs sind auf gigantischen Textkorpora trainiert worden, um Sprache zu verstehen und darauf in natürlicher Weise zu antworten. Die Fähigkeit dieser Modelle, aus vorherigem Kontext sinnvolle Antworten zu generieren, hat sie früh zum Objekt intensiver Forschung gemacht.
Von der Beantwortung allgemeiner Fragen bis hin zur Beherrschung komplexer Fachgebiete wie Medizin oder Recht hat sich ihre Kompetenz eindrucksvoll gezeigt. Im Bereich der Chemie gilt die Herausforderung darin, nicht nur Fakten wiederzugeben, sondern auch chemisches Wissen zu verstehen, zu verknüpfen und Schlussfolgerungen zu ziehen – also zu „reasoning“. Dies umfasst beispielsweise das Vorhersagen von Moleküleigenschaften, das Planen chemischer Reaktionen oder die Bewertung von Sicherheitsrisiken. Allerdings entwächst eine solche KI nicht nur der bloßen Datenwiederholung. Das ChemBench-Projekt zeigt, dass moderne LLMs in der Lage sind, auf vielen Gebieten der Chemie Leistungen zu bieten, die jene von professionellen Chemiker:innen übersteigen, zumindest bei der Beantwortung standardisierter Fragen.
Dies wirft grundsätzliche Fragen darüber auf, wie chemische Expertise mittlerweile definiert und bewertet werden sollte. ChemBench – ein neues Bewertungssystem Um die Fähigkeiten von LLMs systematisch zu ermitteln, wurde ein umfangreicher Frage-Antwort-Korpus mit über 2700 Einträgen aus ganz unterschiedlichen chemischen Themengebieten aufgebaut. Die Fragen stammen aus Hochschulprüfungen, Fachliteratur und wurden teilweise programmgesteuert generiert, unter strengster Kontrolle von Expert:innen. Ein wesentliches Merkmal von ChemBench ist die unterschiedlichste Ausrichtung der Fragen: Sie reichen von einfachem Faktenwissen über komplexe Berechnungen bis hin zu multistep chemischem reasoning und Intuition. Die Erhebung beinhaltet sowohl Multiple-Choice-Fragen als auch offene Fragestellungen, was den realen Einsatz in Forschung und Lehre besser abbildet als reine MCQ-Datenbanken.
Der Benchmark berücksichtigt außerdem die Komplexität der Fragen und die erforderlichen Fähigkeiten, um sie zu beantworten. So sind Themenbereiche wie organische Chemie, anorganische Chemie, technische Chemie, analytische Methoden und chemische Sicherheit abgedeckt. Wichtig ist ferner die Möglichkeit, den Leistungsstand von LLMs gegenüber menschlichen Experten klar zu vergleichen: 19 erfahrene Chemiker:innen wurden zur Baseline herangezogen und traten im Rahmen einer Online-Studie gegen die KI-Modelle an. Leistung moderner LLMs: Übertrumpfen sie Experten? Die Ergebnisse sind überraschend und offenbaren ein komplexes Bild. Modelle wie das proprietäre o1-preview oder Llama-3.
1-405B-Instruct konnten in Bezug auf reine richtige Antwortquoten auf dem ChemBench-Mini-Datensatz teilweise die besten menschlichen Teilnehmer klar übertreffen. Selbst unter Berücksichtigung, dass die Expert:innen bei einigen Fragen Tools wie Websuche oder ChemDraw einsetzen durften, beeindruckten die KI-Modelle mit überdurchschnittlicher Leistung. Dabei gibt es allerdings Differenzen zwischen den Fachgebieten. Während allgemeine und technische Chemie gut gemeistert werden, offenbaren die Modelle Schwächen bei analytischer Chemie und Sicherheitsthemen. Beispielsweise war die Vorhersage der Anzahl an NMR-Signalen, die bei komplexen Molekülen auftreten, für die KI-Modelle besonders herausfordernd – eine Aufgabe, die auch tiefgehendes molekulares Strukturverständnis erfordert.
Diese Differenzen deuten darauf hin, dass LLMs vorrangig auf gelernter Nähe zu den Trainingsdaten operieren, statt molekulare Informationen überzeugend analytisch zu erschließen. Dies wird durch die fehlende Korrelation der Modell-Leistung mit molekularer Komplexität bestätigt. Trotz hochentwickelter Textverarbeitung fehlt oftmals die „chemische Denkweise“ bei neuen oder ungewöhnlichen Aufgaben. Herausforderungen bei Wissen und reasoning Ein zentraler Befund dreht sich um die Wissensintensität der Fragen. Die KI-Modelle zeigen Schwächen im Abrufen spezifischer chemischer Fakten, die nicht routinemäßig in Textquellen verfügbar sind.
Das innovative PaperQA2-System, das zusätzlich eine Websuche einbindet, konnte diese Defizite nur begrenzt ausgleichen. Dies unterstreicht die Notwendigkeit, weitere spezialisierte Datenquellen wie chemische Nachschlagewerke oder strukturierte Datenbanken direkt in die Modelle zu integrieren. Gleichzeitig zeigen die LLMs Probleme in der Einschätzung der eigenen Antwortqualität. Sie liefern oft übermäßig selbstsichere Aussagen, auch wenn diese falsch sind – ein Risiko, wenn man sie in sicherheitskritischen oder regulierten Anwendungsfällen nutzt. Zwar gibt es leichte Unterschiede zwischen den Modellen, doch fehlen eindeutige Verlässlichkeit und vertrauenswürdige Unsicherheitsabschätzungen im Allgemeinen.
Die Relevanz für Chemieausbildung und -praxis Diese Erkenntnisse werfen ein neues Licht auf das Lernen und Lehren in der Chemie. Klassische Prüfungen, die meist reine Wissensabfrage oder einfache Problemrechnung verlangen, spiegeln nicht die Fähigkeiten wider, mit denen KI-Modelle punkten. Chemieausbildung muss daher verstärkt kritisches Denken und komplexes reasoning fördern, womit sich Menschen gegenüber KI differenzieren können. Darüber hinaus eröffnen diese Technologien Chancen für Assistenzsysteme, sogenannte chemische Co-Piloten, die in Forschung und Entwicklung die Arbeitslast erheblich reduzieren können. Solche Systeme können auf deutlich mehr Daten zugreifen als einzelne Wissenschaftler:innen und so schneller Hypothesen generieren oder Gefahren einschätzen.
Trotzdem ist Vorsicht geboten: Die Grenzen in Detailverständnis und Sicherheitsbewertung bedeuten, dass Modelle nicht unkritisch als alleinige Quelle dienen dürfen. Eine enge Zusammenarbeit zwischen Mensch und Maschine, bei der Chemiker:innen die Ergebnisse validieren, bleibt unerlässlich. Fazit und Ausblick Die Bewertung großer Sprachmodelle mit dem ChemBench-Framework markiert einen Durchbruch, um das wahre Potenzial und die Limitationen von KI in der Chemie transparent zu machen. Die Modelle zeigen beeindruckende Fähigkeiten, teilweise sogar übermenschliches Niveau, doch bleiben sie hinter menschlicher Expertise zurück, wenn es um tiefes reasoning und sichere Informationsgewinnung geht. Zukunftsweisend ist daher die Entwicklung hybrider Systeme, die spezialisiertes Wissen mit leistungsfähiger Sprachverarbeitung kombinieren und den Nutzer:innen gleichzeitig die Unsicherheiten klar kommunizieren.
Ebenso wird die Chemieausbildung sich transformieren müssen, damit der Mensch als reflektierender Entscheider und kreativer Forscher neben der KI bestehen kann. Schließlich bleibt die Frage nach der Ethik und dem verantwortungsvollen Umgang mit solch mächtigen Werkzeugen offen. Von der Vermeidung missbräuchlicher Nutzung bis hin zur Gewährleistung von Transparenz und Fairness – die chemische Gemeinschaft trifft diese Herausforderungen in einer spannenden Ära, die Technologie, Wissenschaft und gesellschaftliche Verantwortung eng miteinander verknüpft.