Digitale NFT-Kunst

Chemisches Wissen und Denkvermögen großer Sprachmodelle im Vergleich zur Expertise von Chemikern

Digitale NFT-Kunst
Chemical knowledge and reasoning of large language models vs. chemist expertise

Eine tiefgehende Analyse der chemischen Fähigkeiten moderner großer Sprachmodelle und deren Vergleich mit dem Wissen und der Erfahrung professioneller Chemiker sowie deren Bedeutung für Forschung, Lehre und Sicherheit in der Chemie.

Die rasante Entwicklung künstlicher Intelligenz hat in den letzten Jahren besonders im Bereich der großen Sprachmodelle (LLMs) für zunehmend viel Aufmerksamkeit gesorgt. Diese Systeme, die auf der Verarbeitung gigantischer Datenmengen aus Text basieren, zeigen beeindruckende Fähigkeiten in der Erzeugung von natürlichsprachlichen Antworten, der Interpretation komplexer Fragestellungen und auch der Durchführung von Aufgaben, für die sie nicht explizit trainiert wurden. Besonders im Bereich der Chemie stellen sich hierbei spannende Fragen: Wie gut sind solche Sprachmodelle wirklich in chemischem Wissen und Denken? Können sie mit der Expertise menschlicher Chemiker mithalten? Was bedeutet das für Forschung, Ausbildung und die Sicherheit im Umgang mit chemischen Substanzen? Eine neue Studie und der entwickelte Evaluationsrahmen ChemBench liefern dazu wertvolle Einblicke. Große Sprachmodelle und ihre Rolle in der Chemie LLMs sind Maschinenlernmodelle, die mithilfe riesiger Textdatensätze trainiert wurden, um Texte zu verstehen und zu generieren. Durch das sogenannte „skaling“ – das Vergrößern der Modellgröße und des Trainingsdatensatzes – haben sich ihre Fähigkeiten drastisch erweitert.

Sie bestehen nicht nur darauf, Worte und Sätze zu vervollständigen, sondern können zunehmend auch komplexe Aufgaben lösen, darunter das Bestehen professioneller Prüfungen, wie zum Beispiel die US-Medical-License-Exams, und sie können chemische Reaktionen entwerfen oder sogar automatisierte Laborexperimente unterstützen, wenn sie mit weiteren Tools verbunden werden. Das chemische Wissen von LLMs wurzelt dabei größtenteils in wissenschaftlichen Texten – Publikationen, Lehrbüchern, Patenten und Datenbanken. Diese Informationsbasis macht sie zu vielversprechenden Werkzeugen für die Chemie, weil die Experten viele ihrer Erkenntnisse aus der Interpretation solcher Texte ziehen und nicht nur aus numerischen Datensätzen. Doch trotz dieser Fortschritte gab es lange Zeit nur wenige systematische Vergleiche zwischen der Leistung von LLMs und der von echten Chemikern. Hier setzt das Projekt ChemBench an, das eine umfassende Benchmark mit mehr als 2700 Fragen entwickelt hat, die das chemische Wissen, die Rechenfähigkeiten, das Verständnis und die Intuition abdecken.

ChemBench – Ein neuer Standard zur Bewertung chemischer Kompetenz von Modellen Die eigens entwickelte Plattform ChemBench stellt eine Automatisierungslösung zur Evaluierung von Sprachmodellen bereit. Das Corpus der Benchmark-Fragen wurde aus verschiedensten Quellen kuratiert: von manuellen, eigens erstellten Fragen über Aufgaben aus Universitätsprüfungen bis hin zu semi-automatisch generierten Fragen aus spezialisierten Datensätzen. Dabei wurden alle Fragen von Chemieexperten auf Korrektheit geprüft. ChemBench geht bewusst über die sonst üblichen Multiple-Choice-Fragen hinaus und enthält auch offene Fragen, die der Wirklichkeit von Forschung und Ausbildung näherkommen. Die Fragen decken ein breites Spektrum an Chemiefachgebieten ab – von Allgemein- und Organischer bis hin zu Analytischer und Technischer Chemie.

Dabei werden zudem verschiedene Fähigkeiten geprüft: reines Faktenwissen, komplexes logisches Denken, mathematische Berechnungen und chemische Intuition. Ein kleines Teilset namens ChemBench-Mini bietet eine kompakte, dennoch vielseitige Auswahl von 236 Fragen für schnellere Testläufe an. Ein Teil der Benchmark wurde zudem von menschlichen Chemikern gelöst – teils mit Hilfsmitteln wie dem Internet – um eine realitätsnahe Vergleichsbasis zu bieten. Ergebnisse: Überlegenheit großer Sprachmodelle in vielen Aufgaben Die Evaluierung mehrerer führender LLMs zeigte, dass die Spitzenmodelle nicht nur durchschnittliche Chemiker, sondern sogar die besten menschlichen Fachleute in dieser Studie übertroffen haben. So erzielte beispielsweise das Modell o1-preview in der Gesamtwertung fast doppelt so viele korrekte Antworten wie der beste der befragten Experten.

Dies ist beachtlich, da die menschlichen Teilnehmer teils ebenfalls auf Hilfsmittel zurückgreifen durften. Auch offen zugängliche, nicht proprietäre LLMs wie die Version 3.1 von Llama erzielten eine Leistungsfähigkeit, die mit Spitzenmodellen mithalten konnte. Das deutet darauf hin, dass Open-Source-Modelle für die chemische Forschung zunehmend relevant werden können. Gleichzeitig zeigen die Ergebnisse, dass die Modelle mit speziellen Wissensgebieten wie der Toxikologie oder analytischer Chemie Probleme hatten.

Besonders schwierig waren Fragen zur Interpretation von NMR-Spektren, etwa die Bestimmung der Anzahl unterschiedlicher Signale. Die Modelle mussten hierfür aus der reinen Textform (z.B. SMILES-Aufzeichnungen), die für Menschen weniger intuitiv ist als eine graphische Darstellung, auf komplexe molekulare Strukturen schließen. Ein weiteres Defizit ergab sich bei der Abschätzung von chemischer Präferenz, also der Wahl zwischen zwei Molekülen auf Basis von Erfahrung und Intuition, wie sie etwa in der Wirkstoffforschung gebraucht wird.

Modelle rangierten hier oft nur knapp über Zufall, was zeigt, dass das Erfassen solcher subjektiv-qualitativer Entscheidungen noch wenig entwickelt ist. Schwierigkeiten bei Faktenwissen und Selbstbewertung Interessanterweise offenbaren die Tests Defizite bei der reinen Wissensspeicherung. Bei faktenintensiven Fragen, etwa zu Sicherheits- und Gefahrstoffkennzeichnungen, zeigten die Modelle Schwächen, obwohl diese Informationen theoretisch in den Trainingsdaten enthalten sein könnten. Ein Grund ist, dass manche Datenbanken und Fachinformationen nicht frei zugänglich oder in den Trainingssets wenig vertreten sind. Auch die Fähigkeit, ihre eigenen Antworten einzuschätzen, also eine angemessene Vertrauensbewertung vorzunehmen, zeigten LLMs bislang nur unzureichend.

Dies kann in der Praxis eine Gefahr darstellen, da falsche Antworten mit zu hoher Sicherheit ausgegeben werden. Menschliche Nutzer sollten sich dessen bewusst sein und Antworten stets kritisch hinterfragen. Auswirkungen auf Forschung, Lehre und Sicherheit Die Tatsache, dass moderne LLMs in bestimmten chemischen Aufgaben Superhuman-Performance erbringen, könnte weitreichende Konsequenzen für die chemische Wissenschaft haben. In der Forschung eröffnen intelligente Assistenten Möglichkeiten, große Mengen an Literatur effizient zu durchforsten, Hypothesen zu generieren und sogar Vorschläge für neue Experimente oder Synthesewege zu erarbeiten. In der Ausbildung hingegen stellt sich die Frage, wie Lehrinhalte und Prüfungsformen künftig gestaltet sein müssen.

Da Sprachmodelle Faktenwissen meist besser reproduzieren als Menschen, wird die Vermittlung und Prüfung von bloßem Auswendiglernen weniger relevant. Stattdessen gewinnt das Fördern von kritischem Denken, komplexem Problemlösen und experimenteller Intuition an Bedeutung. Ein ebenso wichtiger Aspekt ist die Sicherheit im Umgang mit Chemikalien. Unzuverlässige oder übermäßig selbstbewusste Antworten zu Gefahren können Schäden verursachen, zumal auch Laien häufig Sprachmodelle zu Rate ziehen. Eine verstärkte Aufklärung und die Entwicklung sicherheitsbewusster Lösungsansätze im Bereich der KI sind daher essenziell.

Perspektiven und Herausforderungen für die Weiterentwicklung Die Studie und ChemBench setzen einen neuen Maßstab für die Evaluierung chemischer Sprachmodelle. Sichtbar wird dabei eine ambivalente Situation: Große Sprachmodelle sind in vielen Bereichen bereits exzellent, gleichzeitig bleibt eine wichtige Lücke im Verständnis und Umgang mit komplexen chemischen Strukturen, Sicherheitsaspekten und subjektiven Präferenzen. Eine vielversprechende Richtung ist die Integration von LLMs mit spezialisierten Datenbanken, wie etwa PubChem oder Gefahrstoffdatenbanken, um die Wissensbasis zu erweitern. Auch die Kombination mit agentenbasierten Systemen, die Suchfunktionen, Kalkulationen oder grafische Darstellung einbinden, kann die Leistungsfähigkeit steigern. Darüber hinaus gewinnt die Feinabstimmung von Modellen auf chemiespezifische Aufgaben (Fein- oder Transferlearning) stark an Bedeutung.

Ebenso sollten zukünftige Modelle besser in der Lage sein, Unsicherheiten und Grenzen ihrer Antworten auszudrücken, womit die Vertrauenswürdigkeit signifikant erhöht werden kann. Schließlich zeigt sich auch, dass der Fortschritt der LLMs nach wie vor stark von Kosten und Ressourcen abhängt. Das Problem hoher Rechen- und Anwendungskosten könnte durch optimierte, kleinere aber spezialisierte Modelle teilweise ausgeglichen werden, wie die vergleichbare Leistung von Open-Source-Systemen nahelegt. Fazit Die Analyse des ChemBench-Benchmarks und der Vergleich mit Chemikerexpertise verweist auf ein spannendes Verhältnis zwischen Mensch und Maschine in der Chemie. Moderne große Sprachmodelle sind in der Lage, viele Aufgaben schneller und in großer Breite zu bearbeiten als einzelne Experten.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
KPMG fined for audit breaches in Carr’s Group review
Samstag, 06. September 2025. KPMG wegen schwerwiegender Verstöße bei Prüfung von Carr’s Group mit Geldstrafe belegt

Die unabhängige Finanzaufsichtsbehörde in Großbritannien verhängte eine Geldstrafe gegen KPMG wegen Verstöße gegen die Unabhängigkeitsrichtlinien im Zuge der Prüfung von Carr’s Group. Die Entscheidung wirft ein Schlaglicht auf die Bedeutung strenger ethischer Standards in der Wirtschaftsprüfung und zeigt die Konsequenzen bei deren Missachtung.

AMD Stock Is Today’s Best in S&P 500. Product Launches Have These Analysts Excited
Samstag, 06. September 2025. AMD-Aktie führt die S&P 500: Warum Produktlaunches Analysten begeistern

Die AMD-Aktie zeigt derzeit eine herausragende Performance im S&P 500. Neue Produktvorstellungen treiben die Erwartungen und Analysten optimistisch in die Zukunft.

Ioneer raises $16m to advance Rhyolite Ridge lithium project towards FID
Samstag, 06. September 2025. Ioneer sichert 16 Millionen US-Dollar zur Förderung des Lithiumprojekts Rhyolite Ridge auf dem Weg zur endgültigen Investitionsentscheidung

Ioneer erhält eine Finanzspritze von 16 Millionen US-Dollar, um das Lithium-Boron-Projekt Rhyolite Ridge in Nevada weiter voranzutreiben. Die Kapitalmaßnahme unterstützt wichtige Schritte zur endgültigen Investitionsentscheidung und stärkt die Position des Unternehmens im wachstumsstarken Markt für nachhaltige Batteriematerialien.

Celsius Stock Is Upgraded. Why These Analysts Say the Energy Drink Maker Is a Buy
Samstag, 06. September 2025. Warum die Celsius-Aktie jetzt auf dem Vormarsch ist: Analysten sehen enormes Wachstumspotenzial

Die Celsius-Aktie erhält eine Aufwertung von führenden Analysten, die den Hersteller des beliebten Energydrinks als einen vielversprechenden Kauf einstufen. Die Kombination aus starkem Umsatzwachstum, innovativen Produktstrategien und einer expansiven Marktposition macht das Unternehmen zu einem attraktiven Investment in der Getränkeindustrie.

Many Exporters No Longer Want Dollars, US Bank Executive Says
Samstag, 06. September 2025. Warum viele Exporteure dem US-Dollar den Rücken kehren – Insights von einem US-Bank-Manager

Eine wachsende Zahl von Exporteuren weltweit meidet den US-Dollar als Handelswährung. Die Gründe und Konsequenzen dieses Trends sind vielfältig und haben weitreichende Auswirkungen auf den internationalen Handel und die globale Finanzlandschaft.

Why the Stock Market Is Rising in the Face of So Much Risk
Samstag, 06. September 2025. Warum der Aktienmarkt trotz zahlreicher Risiken steigt: Ein tiefgehender Einblick

Ein umfassender Überblick über die Faktoren, die den Aktienmarkt ansteigen lassen, obwohl erhebliche geopolitische und wirtschaftliche Risiken bestehen, sowie die Rolle von Tech-Gewinnen, Inflationstrends und globalen Entwicklungen.

'I lost £4,000 in a day after being conned by fake side hustle'
Samstag, 06. September 2025. Vorsicht Betrug: Wie ein vermeintlicher Nebenjob mich £4.000 kostete und welche Lektionen wir daraus lernen können

Ein Blick auf die Gefahren von Online-Nebenjobs, die Tricks von Kryptowährungs-Betrügern und wie man sich vor solchen Maschen schützen kann.