DieDNA ist das Fundament allen Lebens, der primäre Bauplan, der die Entwicklung und Funktion eines Organismus steuert. Auf den ersten Blick scheint die Antwort auf die Frage, wie viel Information die DNA enthält, simpel zu sein. Schließlich besteht der menschliche Genom aus etwa 3,1 Milliarden Basepaaren, wobei jede Base eine von vier möglichen Nukleotiden – Adenin, Thymin, Cytosin oder Guanin – ist. Dieses Vier-Farben-Alphabet kann digital betrachtet in Bits übersetzt werden, wobei zwei Bits ausreichen, um eine der vier Basen zu kodieren. Daraus ergibt sich ein Gesamtvolumen an genetischer Information von rund 6,2 Milliarden Bits oder exakt etwa 750 Megabyte reiner Daten.
Doch diese scheinbar einfache Berechnung kratzt nur an der Oberfläche einer vielschichtigen und komplexen Fragestellung. Der menschliche Genom ist diploid, was bedeutet, dass wir zwei komplette Chromosomensätze besitzen – einen von der Mutter und einen vom Vater. Dies verdoppelt zunächst die theoretisch zu speichernde Information auf etwa 12 Milliarden Bits. Doch hierbei stellen sich fundamentale Fragen: Soll man beide Chromosomen identisch zählen, obwohl sie größtenteils gleiche Sequenzen aufweisen? Und wie viel der DNA trägt wirklich zur Funktion unseres Körpers bei? Denn längst ist bekannt, dass ein großer Teil der DNA aus sich wiederholenden Sequenzen besteht oder sogenannte „junk DNA“ ist, deren Funktion noch unklar oder nicht existent sein könnte. Je nachdem, wie man „Information“ definiert, unterscheiden sich auch die Antworten erheblich.
In der Informationstheorie existieren mehrere Definitionen eines Bits. Im einfachsten Sinn bezeichnet ein Bit die Speicherung von zwei möglichen Zuständen. Das heißt, wenn ein Datenträger 2¹² Bits speichern kann, dann kann er 2¹² mögliche verschiedene Zustände annehmen. Doch bei DNA kommt schnell die Komplexität ins Spiel, vor allem, weil unser genetisches Material metabolisch, dynamisch und evolutionär geprägt ist. Kompression ist ein Schlüsselkonzept, das hier weiterhilft.
Eine Datenmenge gilt als informativ, wenn sie sich nur wenig komprimieren lässt. Eine lange Folge gleicher Zeichen wie „0000...000“ ist technisch groß, aber inhaltlich arm an Information, da diese Daten durch einen kurzen Code beschrieben werden können, der die Wiederholung speichert.
Die DNA enthält viele Wiederholungen und starke Abschnitte gemeinsamer Sequenzen zwischen Individuen. Dadurch lässt sie sich stark komprimieren, besonders wenn man eine Referenz hat, an der sich Unterschiede festmachen lassen. Moderne Algorithmen können das menschliche Genom auf weniger als ein Prozent seiner Grobmenge reduzieren, wenn ein Referenzgenom als Grundlage verwendet wird. Doch die Auswahl des Referenzrahmens entscheidet darüber, wie viel Information man misst. Die populäre Shannon-Definition der Information misst die erwartete Informationsmenge basierend auf der Wahrscheinlichkeit eines Ereignisses.
In diesem Sinne, wenn fast alle Menschen die gleiche Basis-DNA haben und sich nur minimale Variationen ausmachen, ist die Informationsmenge in der Differenz zu dieser Norm winzig. Auf der anderen Seite steht die Kolmogorov-Komplexität, welche die Länge des kürzesten Programms definiert, das eine bestimmte Zeichenkette (wie ein Genom) reproduzieren kann, ohne sich auf einen externen Referenzrahmen zu stützen. Diese Sichtweise erkennt eine größere Menge von biologisch wichtiger DNA an, die bei allen Menschen erhalten bleibt. Biologisch gesehen ist es jedoch komplizierter als rein mathematische Maße vermuten lassen. Etwa nur 1 Prozent des menschlichen Genoms kodiert für Proteine, den eigentlichen Bausteinen des Lebens.
Der Rest besteht aus Introns, regulatorischen Elementen, pseudogenen Sequenzen, repetitive Elementen und vielen noch teilweise unbekannten Funktionseinheiten. Die regulativen DNA-Sequenzen steuern, wann und wo Gene ein- oder ausgeschaltet werden; dabei können einige DNA-Abschnitte mehrere Funktionen gleichzeitig haben. Ein Abschnitt kann etwa als Intron fungieren und gleichzeitig regulatorische Funktionen wie Enhancer oder Silencer ausüben. Diese multifunktionalen Komponenten erschweren eine einfache Definition von Information im genetischen Code. Zudem sind epigenetische Faktoren und andere molekulare Faktoren zu berücksichtigen, die das Genom interpretieren und nutzen.
DNA kann als Datenbestand gesehen werden, doch die zelluläre Maschinenwelt, die sie verarbeitet, ist sozusagen der Programmcode, der entscheidet, wie die Informationen zu verstehen sind. Dieser Code ist nicht in der DNA enthalten, sondern in der zellulären Struktur, was die Vorstellung von „Informationsgehalt“ noch weiter in Frage stellt. Mutationen, die während der Zellteilung auftreten, sorgen für Variation, bieten aber auch Herausforderungen. Der Körper hat Mechanismen entwickelt, um Fehler zu entdecken und zu reparieren, dennoch ist die Fehlerquote bei der Verdopplung riesig, wenn man die Anzahl der kopierten Nukleotide betrachtet. Umweltfaktoren wie UV-Strahlung, Radioaktivität und Chemikalien können das Erbgut zusätzlich beeinflussen.
Interessanterweise enthalten viele DNA-Abschnitte Transposons, sogenannte „springende Gene“, die sich selbstständig kopieren und an neue Stellen im Genom einfügen können und so die Stabilität des Genoms weiter beeinflussen. Die Evolution bewegt sich in einem ständigen Spannungsfeld zwischen der bewahrenden Selektion essenzieller DNA und der Toleranz oder Ausnutzung von Mutationen. Eine noch tiefgründigere Betrachtungsweise schlägt die sogenannte „phänotypische Kolmogorow-Komplexität“ vor. Diese Idee zielt darauf ab, den Informationsgehalt zu messen, der wirklich nötig ist, um aus der DNA einen funktionsfähigen Organismus hervorzubringen – also den kürzesten genetischen Code, der trotzdem noch einen Menschen mit all seinen Eigenschaften definieren kann. Dies berücksichtigt nicht nur die reine Sequenzlänge, sondern auch, wie viele Seiten im Genom entfallen oder modifiziert werden können, ohne dass sich der Phänotyp merklich ändert.
Die Schätzung für diese reduzierte Informationsmenge schwankt zwischen 60 Megabyte und 750 Megabyte. Diese Anzahl macht deutlich, dass es unmöglich ist, die Informationsmenge in der DNA auf eine einfache Zahl zu reduzieren. Gleichzeitig unterstreicht sie, wie komplex Leben und Evolution sind und wie sehr sie von redundanten, multifunktionalen und dynamischen Systemen geprägt sind. Außerdem darf nicht übersehen werden, dass die DNA alleine nicht alles erklärt. Die Umwelt, epigenetische Vererbungsmechanismen und zelluläre Strukturen tragen ebenfalls wesentlich zur Entwicklung und Vielfalt bei.
In der Praxis hat die Erkenntnis, wie viel Information in der DNA steckt, weitreichende Konsequenzen. Sie hilft etwa bei der Entwicklung neuer Kompressionsalgorithmen für genetische Daten, was für die Biotechnologie und personalisierte Medizin von enormer Bedeutung ist. Auch unser Verständnis von Evolution, genetischer Variation und der Funktion des Genoms wird dadurch vertieft. Zusammengefasst steckt in der menschlichen DNA zwischen wenigen hundert Millionen und mehreren Milliarden Bits an Information, je nach Definition und Betrachtungsweise. Die Antwort darauf, wie viel Information in der DNA steckt, entzieht sich einer einfachen Zahl und erfordert einen interdisziplinären Blick auf Biologie, Genetik, Informatik und Evolution.
Die Reise in diese Welt zeigt, wie eng verwoben Wissenschaften sind und wie viel es noch zu entdecken gibt über den Code unseres Lebens.