Die Frage, wie viel Information in der menschlichen DNA steckt, wirkt auf den ersten Blick simpel, entpuppt sich bei genauerer Betrachtung jedoch als eine vielschichtige und komplexe Herausforderung. Die menschliche DNA besteht aus etwa 3,1 Milliarden Basenpaaren. Jedes dieser Basenpaare kann einen von vier möglichen chemischen Buchstaben annehmen: Adenin (A), Thymin (T), Cytosin (C) oder Guanin (G). Da vier Zustände zwei Bits an Information entsprechen (denn 2 hoch 2 = 4), lässt sich theoretisch ausrechnen, dass die DNA ungefähr 6,2 Milliarden Bits an reinem Speicherplatz enthält. Doch damit endet die Geschichte nicht – ganz im Gegenteil.
Tatsächlich besitzt jeder Mensch zwei Versionen von jedem Chromosom: eins von der Mutter, eins vom Vater. Das bedeutet, dass wir über zumindest theoretisch rund 12 Milliarden Bits verfügen, wenn man beide Chromosomensätze betrachtet. Der tatsächliche Informationsgehalt ist dabei allerdings durch viele Faktoren beeinflusst und nicht allein durch die reine Menge an Basenpaaren bestimmt. Ein wichtiges Konzept, um die Information in der DNA besser zu begreifen, stammt aus der Informationstheorie, insbesondere aus den Ideen von Claude Shannon und Andrey Kolmogorov. Bei Shannon-Information geht es um die durchschnittliche Unbestimmtheit oder Überraschung innerhalb eines Signals.
Hier wird Information daran gemessen, wie unwahrscheinlich ein bestimmtes Muster ist. Kolmogorov-Komplexität hingegen betrachtet die Länge des kürzesten Programms, das eine bestimmte Sequenz erzeugen kann – vereinfacht gesagt: wie sehr sich eine Sequenz komprimieren lässt. In Bezug auf unsere DNA bedeutet das, dass es unterschiedliche Möglichkeiten gibt, die Informationsmenge zu bestimmen. Eine pure Zählung der Basenpaare entspricht dem sogenannten Speicherplatz; effektive Kompressionen und Vergleiche mit einer Referenzgenomsequenz können aber zu wesentlich kleineren Zahlen führen. Tatsächlich sind alle Menschen genetisch zu etwa 99,6 Prozent identisch.
Diese Ähnlichkeit bedeutet, dass viele Teile des menschlichen Genoms redundant sind, wenn wir den Informationsgehalt eines einzelnen Menschen betrachten. Moderne Kompressionsalgorithmen, die auf Referenzgenomen basieren, können das menschliche Genom um über 99 Prozent komprimieren, indem sie nur die Unterschiede zu einem Referenzgenom speichern. Dies reduziert den Informationsgehalt auf nur noch wenige hundert Millionen Bits. Andererseits, ohne auf eine solche Referenz zurückzugreifen, können die besten Algorithmen aktuell nur bis zu etwa 62 Prozent erreichen, womit die effektive Informationsmenge bei etwa 4,6 Milliarden Bits liegt. Diese Diskrepanz zwischen massiver Kompression und relativ hoher Informationsmenge verdeutlicht, wie unterschiedlich man Informationen messen kann – und wie diese Messung stark davon abhängt, was man eigentlich als „Information“ betrachtet.
Im Falle von DNA wäre es unzweckmäßig, nur die Unterschiede zwischen Menschen zu zählen, denn die genetischen Gemeinsamkeiten repräsentieren wesentliche Funktionen und Merkmale des menschlichen Lebens. Doch geht es bei der DNA-Information nicht nur um die reine Abfolge der Basen. Die genetischen Daten sind komplex organisiert. Nur etwa ein Prozent des menschlichen Genoms codiert für tatsächlich hergestellte Proteine. Rund 24 Prozent bestehen aus sogenannten Introns, Abschnitten der DNA, die zwar transkribiert, aber beim Prozess der Proteinherstellung herausgeschnitten werden.
Der Rest besteht aus nicht codierenden Regionen, die regulatorische Funktionen übernehmen, Strukturen bilden oder teils noch unbekannten Aufgaben dienen. Die biologische Komplexität spiegelt sich auch in diesem sogenannten „genetischen Wirrwarr“ wider. Evolutionsbiologisch betrachtet dient ein großer Teil der DNA dazu, die Funktionsfähigkeit von Zellen unter ständig auftretenden mutativen Einflüssen sicherzustellen. Viele Abschnitte der DNA sind Wiederholungen, Transposons oder Pseudogene – genetische Elemente, die keine Proteine produzieren, aber durch ihre Präsenz die Stabilität oder Regulation beeinflussen können. Mutationen sind eine normale Erscheinung im Leben aller Lebewesen.
Sie entstehen bei der Zellteilung, durch äußere Einflüsse wie UV-Strahlung oder chemische Substanzen und durch Fehler bei der DNA-Replikation. Um diesen Herausforderungen zu begegnen, hat die Evolution Mechanismen hervorgebracht, die Fehler korrigieren oder deren Auswirkungen abmildern – ein Grund, warum wir trotz tausender Mutationen ein stabiles Erbgut haben. Diese biologische Robustheit erschwert es, den reinen Informationsgehalt der DNA genau zu bestimmen, denn nicht jede Base ist gleich wichtig oder funktional. Aus diesem Grund schlagen Wissenschaftler Konzepte wie die „phänotypische Kolmogorov-Komplexität“ vor. Dabei versucht man, die DNA so weit komprimiert darzustellen, dass sie dennoch die Entwicklung eines Lebewesens mit denselben Eigenschaften und Verhaltensweisen ermöglicht.
Dieser Ansatz berücksichtigt nicht nur die DNA-Sequenz, sondern auch ihre Wirkung – ihr „Phänotyp“. Aktuell wird geschätzt, dass die effektive Informationsmenge in der menschlichen DNA, gemessen an dieser phänotypischen Komplexität, zwischen 60 Megabyte und 750 Megabyte liegen könnte. Das zeigt, wie stark die Menge der tatsächlich bedeutungsvollen genetischen Information von der rein physikalischen Datenmenge abweicht. Vergleicht man die Information in der DNA mit alltäglichen Datenträgern, wird die große Leistung klar: Der gesamte Bauplan für einen Menschen benötigt etwa so viel Speicherplatz wie 40 Minuten Standard-Definition-Video. Dabei beinhaltet dieser Bauplan eine immense Komplexität an Regulation, Interaktion und unverstandenen Funktionen.
Um den Informationsinhalt der DNA vollständig zu entschlüsseln, bedarf es weiterhin intensiver Forschung in den Bereichen Genetik, Bioinformatik und Informationswissenschaft. Fortschritte in der Datenkompression, insbesondere durch den Einsatz von Deep Learning, bieten neue Möglichkeiten, verborgene Muster und Funktionen im Genom zu erkennen und besser zu verstehen, wie Information in der biologischen Welt organisiert ist. Zusätzlich eröffnen neue Erkenntnisse zu nicht-codierender RNA und epigenetischen Faktoren komplexe Perspektiven, die das klassische Verständnis von genetischer Information erweitern. So zeigen zahlreiche Studien, dass die Information in der DNA nicht statisch gespeichert ist, sondern dynamisch durch Prozesse beeinflusst wird, die sich noch nicht vollständig erklären lassen. Abschließend lässt sich festhalten, dass die Frage nach der Informationsmenge in der DNA weit mehr als eine reine Speicherplatzfrage ist.
Sie führt uns in ein faszinierendes Feld an der Schnittstelle von Biologie, Mathematik und Informatik, das unser Verständnis von Leben, Evolution und Komplexität weiterhin herausfordert und bereichert. Noch sind viele Geheimnisse der DNA ungelüftet, doch mit jeder neuen Entdeckung werden wir dem Gesamtbild des menschlichen Erbguts und seiner Bedeutung für das Leben einen Schritt näherkommen.