Stablecoins

Künstliche Intelligenz in der Chemie: Wie große Sprachmodelle die Expertise von Chemikern herausfordern

Stablecoins
Chemical knowledge and reasoning of large language models vs. chemist expertise

Die Fortschritte großer Sprachmodelle revolutionieren die chemische Wissenschaft. Ein umfassender Vergleich ihrer chemischen Kenntnisse und Denkfähigkeiten mit der Expertise menschlicher Chemiker enthüllt neue Möglichkeiten und Herausforderungen für Forschung, Lehre und Sicherheit in der Chemie.

Die Chemie befindet sich im Umbruch. Große Sprachmodelle (Large Language Models, LLMs) wie GPT-4 und andere KI-Systeme entwickeln sich rasch zu wichtigen Helfern für Chemiker, indem sie komplexe Fragestellungen bearbeiten, Reaktionsvorhersagen liefern und sogar Expertenwissen simulieren. Doch wie gut sind diese Modelle wirklich im Vergleich zu menschlichen Chemikern? Sind sie nur raffinierte Informationswiedergabemaschinen oder können sie gar in der chemischen Forschung, Lehre und Sicherheit tiefgründig mitdenken und verfügen über echtes Verständnis? Die Forschung am Karlsruher Institut für Technologie, der Friedrich-Schiller-Universität Jena und weiteren Partnern hat eine neue Benchmark entwickelt, ChemBench genannt, die genau diese Frage systematisch untersucht. Mit über 2700 Fragen aus unterschiedlichsten chemischen Fachgebieten, die sowohl Wissen, Berechnung als auch komplexe Schlussfolgerungen abdecken, liefert ChemBench ein umfassendes Bild der Fähigkeiten aktueller LLMs im Bereich Chemie. Dabei wurden große, moderne Sprachmodelle mit den Leistungen erfahrener Chemiker verglichen, die teils Zugriff auf Hilfsmittel wie Websuche hatten.

Eine der erstaunlichsten Erkenntnisse des Studies ist, dass einige LLMs in der Summe besser abschneiden als menschliche Experten. Das Flaggschiffmodell, o1-preview, beantwortete nahezu doppelt so viele Fragen korrekt wie der beste Chemiker in der Studie. Auch zahlreiche andere Modelle übertrafen im Durchschnitt die Fähigkeiten der Chemiker. Dies unterstreicht, wie weit die KI-Technologie in den letzten Jahren vorangeschritten ist, wenn es darum geht, chemisches Fachwissen zu verarbeiten. Dennoch offenbart die Analyse auch Schwächen der Modelle.

Besonders bei Fragen, die reine Faktenkenntnis erfordern, sind die KI-Systeme manchmal unterlegen. Während Experten auf spezialisierte Datenbanken zurückgreifen können, haben viele LLMs nur Zugriff auf wissenschaftliche Publikationen, so dass wichtige Details verloren gehen. Im Bereich der chemischen Sicherheit oder Toxizität zeigen die Modelle zudem Unsicherheiten und liefern teilweise übermäßiges Selbstvertrauen, was problematisch sein kann, wenn Laien diese Antworten ungefiltert nutzen. Die Fähigkeit zur Chemie ist nicht nur von der Größe des Modells abhängig, sondern auch von der Art und Weise, wie chemische Informationen in den Trainingsdaten repräsentiert sind. Modelle wie Galactica nutzen beispielsweise besondere Markierungen für Molekülstrukturen oder chemische Gleichungen, um diese speziell behandeln zu können.

Dennoch konnten die LLMs in der Bewertung nicht immer die richtige Anzahl typischer NMR-Signale vorhersagen oder die korrekte Symmetrie bemerkter Verbindungen erkennen, was auf begrenzte Fähigkeit zur Strukturrechnung hindeutet. Neben Wissensfragen überprüfte ChemBench auch, ob LLMs über chemische Intuition und Präferenzen verfügen. Gerade in der Medikamentenentwicklung ist diese Fähigkeit zentral, um aus zahlreichen Molekülen diejenigen auszuwählen, die weiterverfolgt werden sollen. Hier enttäuschten die KI-Modelle: Sie konnten die menschlichen Vorlieben selbst in einfachen Vergleichsfragen kaum reproduzieren. Somit ist klar, dass menschliche Erfahrung und Intuition momentan noch nicht einfach durch KI ersetzt werden können.

Ein weiteres wichtiges Merkmal ist die Einschätzung der eigenen Sicherheit. Im Idealfall sollten KI-Systeme wissen, wann sie eine Frage nicht korrekt beantworten können, und dies offen kommunizieren. Die Forscher baten die Modelle, ihre Antwortsicherheit auf einer Skala von 1 bis 5 zu bewerten. Das Ergebnis: Viele Modelle sind schlecht kalibriert und zeigen tendenziell eine zu hohe oder unpassende Sicherheit bei falschen Antworten. Dieses Fehlen selbstkritischer Reflexion kann in sicherheitskritischen Bereichen wie Toxizitätsfragen oder Chemikaliensicherheit problematisch sein.

Das ChemBench-Projekt umfasst nicht nur eine große Sammlung von Fragen, sondern bietet mit ChemBench-Mini auch eine kompakte Version mit etwa 236 ausgewählten Fragen für praktische Routinebewertungen. Besonders hervorzuheben ist, dass das Testset offen zugänglich ist, Entwickler von KI-Modellen es leicht integrieren und neue Modelle vergleichen können. Es ist damit ein entscheidendes Werkzeug für die Weiterentwicklung chemischer KI-Systeme, indem es Ergebnisse transparent macht und den Wettlauf um verbesserte Modelle fördert. Die Erkenntnisse haben auch Auswirkungen auf die Chemieausbildung. Da LLMs viele Routinefragen und sogar komplexe Aufgaben oft schneller und präziser lösen als Studierende, könnte dies zu einem Paradigmenwechsel in der Lehre führen.

Statt reine Fakten zu pauken, müsste der Fokus stärker auf kritisches Denken und die Fähigkeit zur Überprüfung von Ergebnissen gelegt werden. Die Kombination aus menschlicher Kreativität und KI-Unterstützung eröffnet ganz neue Möglichkeiten. Schließlich besteht eine Herausforderung im verantwortungsvollen Umgang mit der Technologie. Der einfache Zugang zu leistungsfähigen LLMs birgt Risiken - schlecht informierte Nutzer könnten falsche oder unsichere Empfehlungen für den Umgang mit gefährlichen Substanzen erhalten. Deshalb ist es wichtig, klare Regeln, Sicherheitsmechanismen und Aufklärung einzuführen, um Fehlinterpretationen zu vermeiden.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Yet another European government is ditching Microsoft for Linux – here's why
Samstag, 06. September 2025. Warum ein weiteres europäisches Land Microsoft hinter sich lässt und komplett auf Linux setzt

Immer mehr europäische Regierungen verabschieden sich von proprietärer Software zugunsten offener Systeme. Ein tiefer Einblick in die Gründe und Vorteile, die den jüngsten Umstieg Schleswig-Holsteins auf Linux antreiben, und was das für die Zukunft digitaler Souveränität bedeutet.

How does ChatGPT choose which brands to recommend
Samstag, 06. September 2025. Wie ChatGPT entscheidet, welche Marken empfohlen werden

Erfahren Sie, wie ChatGPT komplexe Algorithmen und umfangreiche Datenquellen nutzt, um passende Marken für individuelle Nutzeranfragen zu empfehlen und wie Unternehmen ihre Sichtbarkeit in der KI-gestützten Empfehlungswelt verbessern können.

Winding Down Darklang-Classic
Samstag, 06. September 2025. Das Ende von Darklang-Classic: Wandel, Herausforderungen und Zukunftsperspektiven

Die Geschichte von Darklang-Classic, die Gründe für das Auslaufen des Dienstes und die Zukunft des Darklang-Ökosystems werden beleuchtet. Ein umfassender Überblick über die Transition zu Darklang Inc.

The Never-Ending Boondoggle of Fuel Cell Vehicles
Samstag, 06. September 2025. Wasserstoffautos: Der endlose Irrweg der Brennstoffzellentechnologie

Wasserstoffbetriebene Fahrzeuge galten lange Zeit als vielversprechende Alternative im Bereich der emissionsfreien Mobilität. Doch trotz jahrzehntelanger Forschung und erheblicher Investitionen bleibt die Technologie hinter Brennstoffzellenautos weit hinter den Erwartungen zurück.

Show HN: I felt lost in a codebase, so I built tools for AI to explore it
Samstag, 06. September 2025. Wie KI-gestützte Tools die Navigation durch komplexe Codebases revolutionieren können

Erforschung innovativer Lösungen, die Entwickler mithilfe künstlicher Intelligenz unterstützen, umfangreiche und komplexe Quellcodes besser zu verstehen und effizienter zu bearbeiten.

Ancient miasma theory may help explain Health Secretary RF.K Jr.'s vaccine moves
Samstag, 06. September 2025. Die antike Miasma-Theorie und ihre Rolle bei den Impfentscheidungen von Gesundheitsminister Robert F. Kennedy Jr.

Ein umfassender Blick auf die historische Miasma-Theorie und deren Einfluss auf die Gesundheitspolitik von Robert F. Kennedy Jr.

Activist Investor Barington Jumps In to Pressure Victoria’s Secret
Samstag, 06. September 2025. Aktivistischer Investor Barington setzt Victoria’s Secret unter Druck – Ein Wendepunkt für die Lingerie-Ikone

Victoria’s Secret steht unter dem intensiven Druck des aktivistischen Investors Barington Capital, der tiefgreifende Veränderungen fordert, um den anhaltenden Abwärtstrend der Marke zu stoppen. Der Kern der Kritik liegt in strategischen Fehlentscheidungen, sinkenden Umsätzen und einem schwachen Markenfokus, was die Zukunft des einstigen Branchenführers infrage stellt.