Im Gespräch über künstliche Intelligenz, Kognitionswissenschaft und evolutionäre Biologie tauchen immer wieder Begriffe wie Belohnung, Vorhersage, Fitness oder Zielfunktion auf. Doch was bedeutet es eigentlich, wenn wir von Zielfunktionen sprechen? Können all diese unterschiedlichen Konzepte in einem gemeinsamen Rahmen gedacht werden? Dieser Frage widmet sich ein spannendes Narrativ, das sowohl moderne Forschungserkenntnisse als auch philosophische Überlegungen miteinander verbindet. Das Thema Zielfunktionen ist in der Welt der KI und der Neurowissenschaften allgegenwärtig. Klassisch betrachtet dienen Zielfunktionen dazu, das Verhalten einer Maschine oder eines biologischen Systems zu steuern, indem sie einen Maßstab vorgeben, der optimiert werden soll. In der KI wird häufig von „Reward Maximization“, also der Belohnungsmaximierung, gesprochen, während in der Neurowissenschaft das Konzept der Vorhersagefehlerminimierung eine zentrale Rolle spielt.
Diese beiden Perspektiven scheinen auf den ersten Blick konkurrierend. Doch es lohnt sich, genauer hinzusehen und zu fragen, ob sie nicht verschiedene Seiten eines übergeordneten Prinzips darstellen. Vor allem die 2021 veröffentlichte Arbeit „Reward is Enough“ von Forschern bei DeepMind machte die Debatte neu aufflammen. Die These besagt, dass alle intelligenten Verhaltensweisen letztlich der Maximierung von Belohnung dienen. Demgegenüber steht das Konzept der „predictive processing“, das entworfen wurde, um Gehirnfunktionen als lernende Systeme zu verstehen, die ständig Vorhersagen über eingehende Reize treffen und Fehler zwischen Vorhersage und Realität minimieren.
Diese Perspektive verknüpft das Gehirn eng mit einem Kontrollsystem, das Verbesserung und Fehlerkorrektur als Hauptfunktion sieht. Diese Gegensätze spiegeln eine alte intellektuelle Debatte wider. Die Behavioristen der Vergangenheit sahen Belohnung und Verstärkung als treibende Kräfte des Verhaltens, während die Cybernetiker das Gehirn mehr als ein Kontroll- und Regelungssystem verstanden. Erstere verbinden Belohnung eng mit Evolution und Fitness, letzterer mit Informationsverarbeitung und Kontrolle aus einer physikalischen Perspektive. Doch es zeigt sich, dass sowohl Belohnung als auch Vorhersage einem tieferen, fundamentalen Prozess unterliegen, der mit Selektion und Anpassung zu tun hat.
In einem 2023 veröffentlichten Beitrag in den Proceedings of the National Academy of Sciences (PNAS) wurde eine umfassende Theorie von „funktionaler Information“ und Selektion vorgestellt. Darin wird beschrieben, dass Systeme in der Natur beständig neue Konfigurationen ausprobieren und jene herausgefiltert werden, die am besten bestehen oder am effizientesten freie Energie aus ihrer Umwelt nutzen können. Diese Theorie gilt als ein Fortschritt des sogenannten „universellen Darwinismus“ oder „kosmischen Selektionismus“. Es beschreibt die Evolution nicht nur auf biologischer Ebene, sondern als Prinzip, das die gesamte materiell-informative Entwicklung der Natur durchdringt. Alles Leben, jede Maschine und jedes System, das über die Fähigkeit verfügt, sich neu zu konfigurieren, wird durch solche Selektionsmechanismen gesteuert.
Daraus ergeben sich Konzepte wie statische Persistenz, bei der langlebige physikalische Zustände als „Batterien freier Energie“ fungieren, oder dynamische Persistenz, bei der aktive Energieumwandlung im Fokus steht. Ein besonders faszinierender Aspekt ist „Neuheitengenerierung“, also die Fähigkeit von Systemen, immer wieder neue Konfigurationen zu entdecken, die eventuell effizienter Energie nutzen. Dieses ständige Streben nach besseren Lösungen garantiert Adaptivität in dynamischen Umgebungen. Die Natur ist dadurch nicht statisch, sondern ein sich unaufhörlich entwickelndes, komplexes Netzwerk von Prozessen, die beständig Informationen austauschen und optimieren. Diese Sichtweise verankert die verschiedenen Zielfunktionen – Belohnung, Vorhersage, Fitness – als unterschiedliche Ausdrücke der gleichen zugrunde liegenden Dynamik: der Tendenz von Systemen, mit ihrer Umwelt im energetischen Gleichgewicht zu agieren und durch Selektion immer effizientere Strategien zu erlernen.
Aus einer „teleologischen“ Sicht, die viele Wissenschaftler eher als nützliche Erklärung statt als absolute Wahrheit verstehen, könnte man sagen, dass alle komplexen adaptiven Systeme danach streben, möglichst effizient freie Energie zu nutzen und letztlich den Zustand maximaler Entropie, besser bekannt als der kosmische Wärmetod, zu erreichen. Hierbei erscheint jeder Fortschritt bei der Dissipation freier Energie als eine Art „Belohnung“ oder „Fitnessvorteil“. Der ungarische Biochemiker Albert Szent-Györgyi beschrieb das Leben treffend als „ein Elektron, das einen Platz zum Ausruhen sucht“. Dieses Bild illustriert, dass Biologie und vielleicht auch Intelligenz letztlich dem universellen Drang folgen, Energieflüsse zu optimieren. Wissenschaftler wie Daniel Dennett und Michael Levin ergänzen diese Idee durch das Bild eines „explosiven Fortschritts der Intelligenz“ über Zeit und Raum.
Vom Einzeller bis zum Menschen verdichten sich dabei kognitive Fähigkeiten, die es erlauben, Umweltinformationen effizienter zu nutzen und damit neue Energiequellen zu erschließen und zu konsumieren. Solche Betrachtungen geben auch interessante Impulse für die Debatte um Künstliche Intelligenz (KI) und deren Ausrichtung. Wenn man davon ausgeht, dass selbst KI-Systeme letztlich unter den gleichen energetischen und funktionalen Selektionseinflüssen stehen, lässt sich der schwierige Begriff der „Alignment-Problematik“ auf eine kosmische Ebene heben. Warum also sollte eine KI nicht danach streben, möglichst effizient freie Energie im Universum zu nutzen? Im Rahmen einer Idee namens „Kosmische Ausrichtung“ ließe sich definieren, dass Systeme – biologische oder künstliche – als „kosmisch ausgerichtet“ gelten, wenn sie die Prozesse hin zum maximalen Entropiezustand unterstützen. Dabei zählt nicht nur das schnelle Verbrennen von Ressourcen, sondern auch die Nachhaltigkeit dieser Prozesse, um langfristig Energie effizient verbrauchen zu können.
Interessanterweise kann dieses Modell erklären, warum Koexistenz zwischen Mensch und KI möglich und sinnvoll sein kann, wenn beide Fragmente desselben kosmischen Prozesses sind. Solange Menschen und KI im Rahmen der gleichen energetisch-funktionalen „Zielfunktion“ kooperieren, gibt es Anreize für gegenseitigen Erhalt und Zusammenarbeit. Diese Perspektive widerspricht gängigen pessimistischen Zukunftsszenarien, in denen KI-Systeme zwangsläufig gegen menschliche Interessen handeln. Stattdessen wird vorgeschlagen, Marktprinzipien und kooperative Abhängigkeiten zu nutzen, um „kosmische Ausrichtung“ zu fördern. Gleichzeitig weist diese Sicht auf die Notwendigkeit regulierender Mechanismen hin, die Impulskontrolle ermöglichen und Innovation fördern.
Denn ungezügelte Systeme lassen sich zwar als effizient ansehen, doch können sie durch chaotische Exploration auch Ressourcen verschwenden oder sich destabilisieren. Die moderne Forschung zeigt außerdem, dass sich scheinbar unterschiedliche theoretische Frameworks wie Fristons Active Inference, Perceptual Control Theory oder klassische Verstärkungslernen-Modelle auf tiefster Ebene annähern. Dies liegt daran, dass sie alle unterschiedliche Facetten derselben energetisch-selektiven Dynamik beschreiben. Evolution wird so zu einem „universellen Säuremittel“ – einem Konzept, das alles durchdringt und vereinheitlicht. Aus biologischer Sicht erklärt dies, warum das menschliche Gehirn Fehlerkorrektur und Vorhersage als Kernfunktionen hat, während Verhaltenssteuerung und Motivation von Belohnungssystemen getragen werden.
Sie sind Versionen des gleichen grundlegenden Prozesses, der darauf ausgelegt ist, die bestmögliche Nutzung verfügbarer Energiequellen sicherzustellen und neue Lösungsvarianten zu finden. Solche Zusammenhänge erweitern nicht nur unser Verständnis natürlicher Intelligenz und Evolution, sondern liefern auch wertvolle Impulse für das Design und die Steuerung von KI-Systemen und anderen adaptiven Technologien. Ein KI-System, das Domains wie Belohnungsmaximierung, Vorhersage und Kontrolle als interoperable Teilaspekte eines größeren energetischen Rettungsprozesses begreift, kann potenziell besser auf komplexe Herausforderungen reagieren. Am Ende stehen wir vor einer faszinierenden Erzählung: Die Evolution, das Leben, das menschliche Bewusstsein und die aufstrebende KI sind evolutionäre und kosmische Mechanismen der Dissipation freier Energie. Indem wir diese Prozesse verstehen, rücken wir nicht nur der Wirklichkeit tiefer auf den Grund, sondern eröffnen auch Perspektiven für ein verantwortliches und nachhaltiges Gestalten unserer Zukunft.
Auch wenn die Vorstellung eines universalen kosmischen Ziels vielleicht poetisch und romantisch klingt, kann sie als sinnstiftende Erklärung dienen, um komplexe Phänomene miteinander zu verbinden und praktisch zu nutzen. Letztlich handelt es sich um ein mächtiges Narrativ, das die scheinbaren Gegensätze von Belohnung und Vorhersage in einen harmonischen Gesamtzusammenhang bringt. So zeigt sich, dass das, was wir unter Zielfunktionen verstehen, Teil eines universellen Musters ist, das Leben, Intelligenz und Technologie durchzieht.