Die Computational Chemistry, also die rechnergestützte Chemie, hat einen bedeutenden Meilenstein erreicht. Mit der Freigabe von Open Molecules 2025, kurz OMol25, steht der wissenschaftlichen Gemeinschaft ein beispielloser Datensatz mit über 100 Millionen 3D-Molekülsimulationen zur Verfügung. Dieses Mammutprojekt wurde in einer einzigartigen Zusammenarbeit unter anderem von Meta und dem Lawrence Berkeley National Laboratory (Berkeley Lab) vorangetrieben und steht für einen technologischen und methodischen Quantensprung in der Forschung rund um molekulare Interaktionen und chemische Reaktionen. Die zentrale Herausforderung in der computationalen Chemie liegt in der präzisen Modellierung von chemischen Reaktionen, die in der Natur häufig äußerst komplex sind. Traditionelle Methoden wie die Dichtefunktionaltheorie (Density Functional Theory, DFT) liefern trotz ihrer Genauigkeit aufgrund enormer Rechenanforderungen nur begrenzte Möglichkeiten, vor allem wenn es um größere Molekülsysteme geht.
Gerade komplexe organische und anorganische Moleküle mit Hunderten von Atomen inklusive schwerer Metallkomponenten sind bisher schwer simulativ zu erfassen. OMol25 wurde entwickelt, um genau diese Lücke zu schließen. Der Datensatz beinhaltet Simulationen, die mit DFT auf höchstem Niveau durchgeführt wurden und dabei Moleküle mit bis zu 350 Atomen aus nahezu allen Bereichen des Periodensystems abdecken. Dies ist eine Größenordnung, die frühere Datensätze weit übertrifft, damals meist begrenzt auf durchschnittlich 20 bis 30 Atome. Die enorme Menge an Daten ermöglicht ein umfassendes Abbild verschiedenster chemischer Bindungen, molekularer Dynamik und Reaktionen – von Biomolekülen, über Elektrolyte bis hin zu komplexen Metallzentren.
Der Nutzen dieses Datensatzes liegt in seiner Eignung als Trainingsgrundlage für Machine Learned Interatomic Potentials (MLIPs). Dabei handelt es sich um KI-Modelle, die gelernt haben, die Kräfte und Energien in molekularen Systemen vorherzusagen und so Simulationen mit einer Genauigkeit ähnlich der Dichtefunktionaltheorie ermöglichen. Das große Plus dieser ML-gestützten Modelle ist ihre Geschwindigkeit: Sie können Berechnungen tausendfach bis zehntausendfach schneller durchführen, was die Simulation großer und komplexer Systeme auf Standardcomputern möglich macht. Ein Schlüsselfaktor für den Erfolg von MLIPs ist die Qualität und Vielfalt der verfügbaren Trainingsdaten. Durch die Kombination von ausgefeilten DFT-Rechnungen und der Masse an chemisch diversifizierten Strukturen bietet OMol25 genau diese Grundlage.
Die Entwicklung dieses Datensatzes erforderte unglaubliche Ressourcen. Hochgerechnet wurden über sechs Milliarden CPU-Stunden verbraucht – ein Aufwand, der bei einer herkömmlichen Laptop-Performance über 50 Jahre in Anspruch nehmen würde. Doch dank der Ausnutzung von Metas weltweitem Rechenressourcennetzwerk, das auch scheinbar ungenutzte Kapazitäten in Schlaffasen der Nutzer nutzt, war dieses Mammutunternehmen erfolgreich und effizient umsetzbar. Die wissenschaftliche Gemeinschaft erhält neben dem reinen Datensatz auch Zugriff auf ein universelles KI-Modell, basierend auf OMol25 und weiteren öffentlich verfügbaren Datensätzen des FAIR-Labors von Meta. Dieses universelle Modell ist darauf ausgelegt, vielseitig in verschiedenen Forschungsgebieten einsetzbar zu sein und soll Forschern den Einstieg in simulationsbasierte Studien erleichtern.
Zugleich ist bekannt, dass sich diese Modelle mit der Zeit und durch weitere Forschungsarbeiten und Community-Beiträge stetig verbessern werden. Genau hier liegt eine wichtige Komponente des Projekts: Transparenz und Zusammenarbeit. Evaluierungskriterien und Benchmark-Challenges begleiten die Verbreitung der Modelle und sorgen für eine objektive Bewertung ihrer Leistung bei verschiedenen molekularen Aufgaben. Dies stellt die Vertrauenswürdigkeit der Modelle sicher, die für kritische Anwendungen in Chemie, Materialwissenschaft und Biomedizin unerlässlich ist. Die offenen Ranglisten der Benchmarks fördern zudem den wissenschaftlichen Wettbewerb und treiben Innovationen weiter voran.
Ein weiterer Aspekt, der OMol25 besonders macht, ist seine Entstehungsgeschichte und Community-Orientierung. Der Datensatz wurde mit Blick auf die Bedürfnisse einer weitgefächerten Forschergemeinschaft erstellt. Dabei wurden bereits existierende Datensätze integriert, erweitert und durch gezielte Simulationskampagnen Lücken in der Abdeckung bislang weniger erforschter Molekülklassen gefüllt. Besonders hohe Priorität erhielten dabei Biomoleküle, Elektrolyte und Metallkomplexe – Bereiche mit großer Relevanz für Gesundheit, Energiespeicherung und katalytische Verfahren. Die Arbeit an OMol25 und die Zusammenarbeit der beteiligten Wissenschaftler zeigt eindrucksvoll, wie vernetzte Forschung zwischen Nationalen Laboratorien, Universitäten und Industriepartnern Innovationen beschleunigen kann.
Die Bandbreite von Instituten, einschließlich renommierter Universitäten wie Berkeley, Cambridge und Stanford, sowie Unternehmen spiegelt die enorme Bedeutung wider, die dem Projekt beigemessen wird. Blickt man auf die Zukunft, steht OMol25 nicht alleine. Parallel dazu sind bereits Projekte wie Open Polymer Data in Vorbereitung, die den Fokus auf Polymere mit ihren komplexen, oft langkettigen molekularen Strukturen legen. Somit wird das Spektrum an molekularen Daten stetig größer und deckt immer mehr Bereiche der Chemie und Materialwissenschaft ab. Die Auswirkungen des Datensatzes auf die Forschung sind vielversprechend.
Für die Energietechnologie könnten genauere Simulationen schneller zur Entwicklung effizienterer Batterien und alternativer Energiespeichersysteme führen. In der Pharmakologie eröffnet die verbesserte Modellierung von Wirkstoff-Rezeptor-Interaktionen vielversprechende Möglichkeiten für die präzisere Arzneimittelentwicklung. Auch in der Materialwissenschaft lassen sich durch realistischere Simulationen neuartige Werkstoffe gezielter designen – vom Katalysator bis zum Halbleitermaterial. OMol25 markiert den Beginn einer neuen Ära in der computationalen Chemie, in der künstliche Intelligenz, unterstützt durch erstklassige und umfangreiche Daten, das wissenschaftliche Arbeiten grundlegend verändern wird. Forscher sind nun in der Lage, komplexe molekulare Phänomene mit einer Kombination aus hoher Genauigkeit und hoher Geschwindigkeit zu behandeln, was bisher als unvorstellbar galt.
Das Projekt steht exemplarisch für die Synergie von Spitzentechnologie, großer Rechenleistung und interdisziplinärer Forschung. Der offene Zugang zum Datensatz unterstreicht zudem den modernen Forschungsansatz „von der Gemeinschaft, für die Gemeinschaft“. Die wissenschaftliche Welt darf gespannt sein, welche Fortschritte und innovativen Anwendungen aus dieser Ressource entstehen werden – eine Zukunft, in der die Grenzen zwischen molekularer Theorie und praktischer Anwendbarkeit weiter verschwimmen. Die Computational Chemistry wird dadurch zugänglicher, schneller und präziser als je zuvor.