Digitale NFT-Kunst Krypto-Startups und Risikokapital

Künstliche Intelligenz in der Chemie: Wie gut sind große Sprachmodelle im Vergleich zu Chemikerexpertise?

Digitale NFT-Kunst Krypto-Startups und Risikokapital
Chemical knowledge and reasoning of large language models vs. chemist expertise

Eine umfassende Analyse der Fähigkeiten großer Sprachmodelle im Bereich der Chemie, ihrem Potenzial und den Grenzen im Vergleich zur Expertise von menschlichen Chemikern. Die Bedeutung von Benchmarking und Zukunftsperspektiven werden ebenfalls erläutert.

Die rasante Entwicklung großer Sprachmodelle (Large Language Models, LLMs) hat in den letzten Jahren zahlreiche Fachgebiete beeinflusst. Insbesondere in der Chemie eröffnen solche KI-Systeme neue Möglichkeiten, wissenschaftliche Texte zu verarbeiten, chemisches Wissen abzurufen und sogar komplexe Fragestellungen zu beantworten. Doch wie stehen diese künstlichen Intelligenzsysteme im Vergleich zur menschlichen Expertise von Chemikern? Welche Fähigkeiten besitzen LLMs, wo sind ihre Grenzen, und welche Auswirkungen hat dies auf Forschung, Ausbildung und praktische Anwendungen? Um diese Fragen zu klären, wurde mit ChemBench ein neuartiges Bewertungsframework entwickelt, das die Kenntnisse und das logische Denken von LLMs gezielt anhand chemischer Fragestellungen misst und mit den Leistungen von Chemiker*innen vergleicht. Große Sprachmodelle basieren auf maschinellem Lernen, das durch riesige Textmengen trainiert wird. So gelingt es ihnen, Sprache zu verstehen und darauf zu reagieren, selbst bei Themen, die nicht explizit Bestandteil ihres Trainings waren.

Dies führte zu beeindruckenden Erfolgen, wie dem Bestehen medizinischer Zulassungsprüfungen oder der selbstständigen Planung und Durchführung chemischer Reaktionen, wenn sie mit ergänzenden Werkzeugen kombiniert werden. Trotz der Fortschritte bestehen jedoch Zweifel, ob LLMs wirklich ein Verständnis chemischer Sachverhalte besitzen oder nur Muster aus dem Trainingsdatensatz wiedergeben, ohne tiefgehendes fachliches Verständnis oder nachvollziehbare Schlussfolgerungen zu ziehen. ChemBench ist ein umfassendes Bewertungstool, das über 2.700 Fragen aus unterschiedlichsten chemischen Themenbereichen enthält. Es wurde entwickelt, um den Wissensstand und die Fähigkeit zur logischen Schlussfolgerung von modernen LLMs zu testen.

Dabei werden nicht nur Faktenwissen, sondern auch komplexe Problemlösungen sowie chemische Intuition abgefragt. Die Fragen stammen aus Universitätsprüfungen, Fachliteratur und programmierten Szenarien und decken die gesamte Breite der Chemie ab – von Allgemein- und Technischer Chemie bis hin zu Spezialisierungen wie analytischer oder anorganischer Chemie. Das Ziel von ChemBench ist es, LLMs objektiv und transparent mit der Leistung menschlicher Chemiker*innen zu vergleichen. Dafür wurden Testpersonen mit unterschiedlichem Erfahrungshintergrund eingeladen, die gleichen Fragen unter Bedingungen mit und ohne Zugriff auf Hilfsmittel wie Websuche zu beantworten. Die Ergebnisse dieser Studie zeigen überraschende Erkenntnisse: Das beste aktuell verfügbare LLM übertraf im Durchschnitt die Leistung der befragten Chemiker*innen deutlich, manche Open-Source-Modelle konnten sogar mit proprietären Systemen mithalten.

Dies lässt auf ein enormes Potenzial schließen, das KI-gestützte Systeme zukünftig in der Chemie entfalten können. Trotz der beeindruckenden Gesamtleistung zeigen die Modelle jedoch klare Schwächen, insbesondere bei einfachen Aufgaben, die präzises Faktenwissen erfordern. So gelingt es ihnen nicht immer, grundlegendes chemisches Faktenwissen korrekt abzurufen oder Fragen zur Sicherheit von chemischen Substanzen zuverlässig zu beantworten. Das bedeutet, dass Modelle zwar große Datenmengen speichern und kombinieren können, es ihnen aber vielfach an einer zuverlässigen, nachvollziehbaren und fehlerfreien Wissensbasis fehlt. Ein Problem, das durch das sogenannte „Übervertrauen“ verstärkt wird, bei dem die Modelle ihre Antworten häufig ohne angemessene Unsicherheitsabschätzung präsentieren und damit potenziell falsche oder gefährliche Informationen verbreiten können.

Die Analyse des Antwortverhaltens entlang verschiedener chemischer Themen zeigt zudem, dass LLMs in einigen Bereichen wie allgemeiner und technischer Chemie gute Trefferquoten erzielen, während etwa in der analytischen Chemie oder bei Aufgaben zu Toxizität und Sicherheit deutliche Defizite bestehen. Ein besonders interessanter Befund ergibt sich bei strukturell-chemischen Aufgaben, zum Beispiel bei der Bestimmung der Anzahl unterschiedlicher Signale im Kernspinresonanzspektrum. Dort schneiden die KI-Systeme schlechter ab als Menschen, was darauf hindeutet, dass reine Textmodelle Schwierigkeiten haben, strukturelle oder räumliche Aspekte adäquat zu verarbeiten. Ein weiterer entscheidender Aspekt für den praktischen Nutzen von LLMs in der Chemie ist die Fähigkeit der Modelle, ihre eigene Sicherheit bzw. Zuverlässigkeit bei den Antworten einzuschätzen.

Eine mangelhafte Kalibrierung der Konfidenz führt dazu, dass Nutzer*innen falsche Sicherheit in die Resultate investieren könnten. Die Untersuchungen mit ChemBench legen jedoch nahe, dass derzeitige Sprachmodelle bei der Selbsteinschätzung schwächeln und teilweise sehr hohe Vertrauenswerte bei fehlerhaften Antworten angeben. Dies unterstreicht, wie wichtig es ist, dass Anwender*innen die Resultate kritisch hinterfragen und niemals blind vertrauen. Neben der reinen Wissensvermittlung wurden auch Fragen zur „chemischen Präferenz“ untersucht – also der menschlichen Intuition, welches von zwei Molekülen bevorzugt wird etwa im Kontext der Wirkstoffforschung. LLMs zeigten hier keine Übereinstimmung mit den Präferenzen von erfahrenen Chemiker*innen, was deutlich macht, dass die Erfassung subtiler, erfahrungsbasierter Urteile derzeit außerhalb der Fähigkeiten dieser Modelle liegt.

Wie lässt sich die Leistung der LLMs erklären und verbessern? Ein Faktor ist die Größe des Modells: Es zeigte sich ein positiver Zusammenhang zwischen Modellgröße und Genauigkeit der Antworten, was nahelegt, dass größere Modelle prinzipiell mehr lernen und wiedergeben können. Allerdings reicht das reine Vergrößern nicht aus; der spezielle Einsatz von Fachwissen, das Training mit spezialisierten chemischen Datenbanken sowie die Integration von externen Datenquellen und Tools sind erfolgsversprechende Wege, um Wissenslücken zu schließen. Die Forschenden empfehlen zudem, chemische Bildung und Prüfungsformate an die neue Realität anzupassen. Da LLMs bei der Wiedergabe von Fakten und einfachen Problemlösungen bereits den Menschen überlegen sind, müssen Lehrpläne mehr Wert auf kritisches Denken und die Fähigkeit legen, komplexe Probleme eigenständig zu durchdringen. Nur so bleiben Chemiker*innen in einer Partnerschaft mit KI unverzichtbar.

Der Einsatz von ChemBench für Entwickler von LLMs in der Chemie schafft einen wichtigen Standard zur objektiven Überprüfung von Verbesserungen. Neben der Leistungsmessung hilft es auch, Risiken zu erkennen, etwa bei Sicherheitsbewertungen, und eine verantwortungsvolle Nutzung zu fördern. Offene Benchmarks mit Community-Einbindung, wie ChemBench, sind Schlüsselwerkzeuge, um Fortschritte transparent zu dokumentieren und die Modelle fit für die Praxis zu machen. Zukünftige Forschung wird sich intensiv damit beschäftigen, wie LLMs besser strukturelles chemisches Wissen darstellen können, etwa durch multimodale Ansätze, die neben Text auch molekulare Graphen oder 3D-Strukturen verarbeiten. Die Kombination aus KI und domänenspezifischer Expertise kann Forschung schneller machen und neue Entdeckungen ermöglichen.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
I Spent My Weekends Building an AI Debugger That Understands Your Code
Freitag, 05. September 2025. Wie ein KI-Debugger das Programmieren revolutioniert: Eine persönliche Reise in die Zukunft des Debuggings

Ein tiefgehender Einblick in die Entwicklung eines KI-gestützten Debuggers, der durch symbolische Ausführung und Pfadsensitivitätsanalyse komplexen Code versteht und damit Programme effizienter und fehlerfreier macht. Die innovative Integration von KI in moderne Entwicklungsumgebungen verspricht, den Debugging-Prozess grundlegend zu verändern.

Show HN: FeetGen Online – Transform simple prompts into feet artwork
Freitag, 05. September 2025. FeetGen Online: Revolutionäre KI zur Erstellung realistischer Fußkunst aus einfachen Prompts

Entdecken Sie, wie FeetGen, ein innovativer KI-gestützter Fußgenerator, mit einfachen Texteingaben beeindruckende, hochauflösende und anpassbare Fußbilder kreiert. Erfahren Sie mehr über die Funktionen, Vorteile und Einsatzmöglichkeiten dieser zukunftsweisenden Plattform für digitale Kunst und Design.

 Strategy’s Michael Saylor to help Pakistan with crypto pivot
Freitag, 05. September 2025. Michael Saylor und Pakistans Kryptowährungswende: Ein strategischer Meilenstein für die digitale Zukunft

Michael Saylor, Vorsitzender von Strategy, unterstützt Pakistan bei seinem mutigen Schritt zur Integration von Bitcoin und digitalen Assets in die nationale Finanzstrategie. Dieses Engagement könnte Pakistan zum Vorreiter für Kryptowährungen in der Global South machen.

BNB Price Remains Above Key Support Level After Israel-Iran Clash Sparks Risk Asset Flight
Freitag, 05. September 2025. BNB zeigt Stärke: Kurs hält wichtige Unterstützungszone trotz geopolitischer Spannungen zwischen Israel und Iran

Der Binance Coin (BNB) beweist inmitten globaler Unsicherheiten bemerkenswerte Stabilität. Trotz eskalierender Konflikte zwischen Israel und Iran und einem daraus resultierenden Ausverkauf bei risikoreichen Anlagen gelingt es BNB, eine entscheidende Unterstützung zu bewahren und technische Interessen auf sich zu ziehen.

Chemical knowledge and reasoning of large language models vs. chemist expertise
Freitag, 05. September 2025. Chemisches Wissen und Urteilsvermögen: Wie Large Language Models gegen Expertise von Chemikern bestehen

Eine tiefgehende Analyse der Fähigkeiten von Large Language Models im Bereich Chemie im Vergleich zu menschlichen Chemikern. Untersuchung der Stärken, Schwächen und Zukunftsaussichten dieser KI-Systeme im Umgang mit komplexen chemischen Fragestellungen.

Show HN: I created a guide GPT for anyone who is confused on data enrichment
Freitag, 05. September 2025. Data Enrichment verstehen: Ein umfassender Leitfaden für Unternehmen

Ein detaillierter Leitfaden zur Datenanreicherung, der Unternehmen dabei unterstützt, die Qualität und den Wert ihrer Daten zu verbessern, um bessere Geschäftsentscheidungen zu treffen und die Kundenerfahrung zu optimieren.

Solaxy übertrifft Ethereum: 50 Mio.$ ICO-Rekord
Freitag, 05. September 2025. Solaxy bricht Ethereum-Rekorde: Ein neuer Meilenstein im ICO-Markt mit 50 Millionen US-Dollar

Solaxy hat mit seinem Initial Coin Offering (ICO) einen historischen Rekord aufgestellt und Ethereum mit nahezu 50 Millionen US-Dollar übertroffen. Die innovative Layer-2-Lösung für das Solana-Netzwerk sorgt für große Aufmerksamkeit in der Kryptoszene und könnte den Markt nachhaltig verändern.