Die Entschlüsselung der Proteinstruktur bildet eine der zentralen Herausforderungen der modernen Biowissenschaften. Proteine sind nicht nur die Arbeitspferde innerhalb sämtlicher lebender Organismen, sondern ihr dreidimensionaler Aufbau bestimmt maßgeblich ihre Funktion und Wechselwirkungen. Während jahrzehntelang nur eine vergleichsweise geringe Anzahl experimentell bestimmte Proteinstrukturen vorlag, revolutionieren mittlerweile die computergestützten Vorhersagemethoden den Zugang zu diesem komplexen Universum. Herausragende technologische Durchbrüche wie AlphaFold2 und ESMfold ermöglichen die Berechnung von Hunderten Millionen Proteinstrukturen – darunter auch Sequenzen aus bislang unerforschten, oft nicht kultivierbaren Mikroorganismen, die durch metagenomische Analysen zugänglich sind. Dieser Fortschritt hat die Türen zu einem gigantischen Strukturdatensatz aufgestoßen, der nun erstmals in einem umfassenden metagenomischen Maßstab ausgewertet werden kann.
Die Integration verschiedener großer Datenbanken, allen voran die AlphaFold Protein Structure Database mit über 200 Millionen Modellen und der ESM Metagenomic Atlas mit über 600 Millionen Strukturvorhersagen, schafft ein riesiges Reservoir mit 821 Millionen Einträgen, das Forscher in einem vereinheitlichten Analyse-Framework untersuchen. Mit Hilfe eines ausgeklügelten Clustering-Verfahrens, das sequenz- und strukturbasierte Ähnlichkeiten berücksichtigt, konnten über fünf Millionen relevante Strukturcluster identifiziert werden. Damit lässt sich nicht nur das Ausmaß der Proteindiversität messen, sondern auch Muster in Bezug auf ihre evolutionären Ursprünge sowie die Umweltbedingungen, in denen sie vorkommen, erkennen. Einer der wichtigsten Erkenntnisse dieser Analyse ist, dass die Zahl der völlig neuen Proteindomänentopologien, also der Grundformen von Proteinstrukturen, bereits nahezu saturiert scheint. Selbst bei der Anwendung der AlphaFold2-Methodik auf Millionen von neu vorhergesagten Proteinen zeigt sich lediglich eine marginale Anzahl neuartiger Grundstrukturen, was auf eine nahe Vollständigkeit des bekannten Faltungsraums hinweist.
Dies bedeutet, dass die Strukturvorhersagewerkzeuge inzwischen an ihre Grenzen stoßen, wenn es darum geht, völlig unentdeckte Proteinfaltungen zu finden. Mit Blick auf Evolution und Biotechnologie ist diese Erkenntnis ein Wendepunkt, denn es zeigt sich, dass das Hauptaugenmerk nun vermehrt auf der Entdeckung neuer Kombinationen bereits bekannter Domänen gelegt werden sollte. Besonders hervorzuheben sind die fast 12.000 bislang unbekannten Mehrdomänen-Architekturen, die aus dem Zusammenspiel einzelner bekannter Strukturelemente neue funktionelle Einheiten schaffen. Diese Komplexitätssteigerung durch Domänenpaarungen erlaubt vielfältige Anpassungen an unterschiedliche Umweltbedingungen und biologische Aufgaben.
Die metagenomische Erfassung von Proteinen aus diversen Ökosystemen spielt dabei eine entscheidende Rolle. Viele Mikroorganismen leben in schwer zugänglichen Habitaten wie Tiefsee, Boden oder extremen Umweltbedingungen, und durch moderne Sequenzierungstechnologien können deren genetische Informationen zunehmend entschlüsselt und strukturell erforscht werden. Das eröffnet zugleich die Chance, neuartige Proteinkombinationen und Funktionen zu entdecken, die in etablierten Referenzorganismen bisher nicht beobachtet wurden. Darüber hinaus erlaubt die Verknüpfung der Proteinstrukturcluster mit Umweltmetadaten wie Biotopzugehörigkeit eine ökologische Einordnung, die das Verständnis für funktionelle Spezialisierungen im mikrobiellen Raum vertieft. Diese Art von Erkenntnissen ist wegweisend für verschiedene Anwendungsfelder.
In der Biotechnologie können neuartige Proteindomänen oder Kombinationen als Grundlage für die Entwicklung maßgeschneiderter Enzyme oder Wirkstoffe dienen. Der pharmazeutische Sektor profitiert von einem besseren Verständnis von Zielstrukturen in Krankheitserregern oder symbiotischen Mikroben. Außerdem unterstützt das Wissen über die Verbreitung spezifischer Proteinstrukturen in bestimmten Biomen die Suche nach umweltfreundlichen Biokatalysatoren oder bioaktiven Molekülen mit besonderen Stabilitätseigenschaften. Unter den technischen Aspekten verdient auch die Kombination von unterschiedlichen Vorhersagealgorithmen Beachtung. Obwohl AlphaFold2 und ESMfold unterschiedliche Ansätze verfolgen – AlphaFold2 nutzt tiefe neuronale Netze mit physikbasierten Modellen, ESMfold setzt auf Transformer-Modelle zur Sequenzanalyse – zeigen beide Gemeinsamkeiten und Differenzen in ihrer Fähigkeit, neue Strukturen zu generieren.
Die komplementären Stärken ermöglichen eine umfassendere Abdeckung der strukturellen Varianz und helfen dabei, Schwächen einzelner Methoden zu kompensieren. Die enorme Datengrundlage mit ihren mehr als 800 Millionen Modellen unterstreicht zugleich die Herausforderung, Daten so aufzubereiten und zugänglich zu machen, dass sie wissenschaftlich nutzbar bleiben. Interaktive Webplattformen bieten Forschern bereits heute benutzerfreundliche Such- und Analysemöglichkeiten. Neben der wissenschaftlichen Bedeutung lässt sich die Analyse des Proteinstrukturuniversums auch als gesellschaftliches Projekt verstehen. Forscher weltweit tragen zum Aufbau dieser riesigen Datenbestände bei und profitieren von Open-Access-Initiativen, was den Fortschritt in den Lebenswissenschaften beschleunigt und demokratisiert.