Die Welt der Künstlichen Intelligenz (KI) und der virtuellen Simulationen befindet sich in einem ständigen Wandel, getrieben von Technologien, die immer komplexere und realistischere digitale Welten erschaffen. In diesem Kontext setzt das innovative Projekt Multiverse neue Maßstäbe. Es handelt sich hierbei um das weltweit erste KI-gesteuerte Multiplayer-Weltmodell, das die Art und Weise, wie virtuelle Welten generiert und gemeinsam erlebt werden können, grundlegend verändert. Entwickelt von einem Team aus ehemaligen Mitgliedern der renommierten 8200 Einheit und Experten führender israelischer Start-ups, kombiniert Multiverse tiefgreifendes Forschungswissen mit fortschrittlicher Systemtechnik, um eine beispiellose Spielerfahrung zu schaffen. Das Projekt ist nicht nur ein technisches Highlight, es öffnet auch ein neues Kapitel in der Interaktion zwischen Menschen und KI innerhalb digitaler Räume.
Im Zentrum steht die Fähigkeit, nicht nur Einzelspielermodelle zu beherrschen, sondern kooperative Mehrspieler-Welten zu generieren, die durch innere Konsistenz und realistische Dynamiken überzeugen. Traditionelle KI-gesteuerte Weltmodelle beschränken sich meist auf Singleplayer-Erfahrungen: Sie empfangen eine Abfolge von Videobildern sowie die Aktionsdaten des Spielers und berechnen daraus die nächste Bildsequenz. Die grundlegende Architektur umfasst dabei typischerweise drei Kernbestandteile. Das Aktions-Embedder-Modul transformiert die Eingaben des Spielers, entwickelt ein abstraktes Repräsentationsformat für die Steuerbefehle. Darauf folgt ein Diffusions-basiertes Denoising-Netzwerk, welches aus dem Bildverlauf und den eingebetteten Aktionen das nächste Bild generiert.
Eine optionale Komponente ist der Upsampler, der die grafische Auflösung und Detailfülle der erzeugten Bilder deutlich erhöht. Dieses System hat sich bei Singleplayer-Szenarien gut bewährt, stößt bei Mehrspielerumgebungen jedoch schnell an seine Grenzen. Multiverse überwindet diese Hürden durch eine radikale Neukonzeption der Architektur. Anstatt nur einzelne Spielerexistenzen separat zu simulieren, verarbeitet das Modell die Aktionen beider Teilnehmer gemeinsam und erzeugt synchron deren spielrelevante Weltbilder. Dies ist eine erhebliche Herausforderung, denn ein Multiplayer-Spiel basiert auf einem konsistenten, geteilten Weltstatus.
Ereignisse wie Kollisionen, Positionsveränderungen oder Umweltinteraktionen müssen für alle Spieler stimmig und gleichzeitig sichtbar sein, auch wenn deren Perspektiven individuell sind. Die Lösung von Multiverse besteht darin, die Bilddaten der beiden Spieler nicht einfach separat, sondern als eine verschmolzene Einheit im Netz zu verarbeiten. Dabei werden die beiden Frames nicht wie üblich nebeneinander aneinandergereiht, sondern entlang der Farbkanäle gestapelt. Diese Architektur nutzt die Vorteile der U-Net-Struktur des Diffusionsmodells optimal und ermöglicht es, dass beide Sichtweisen gleichzeitig und in enger Verzahnung bearbeitet werden. Dadurch wird eine kohärente, koordinierte Darstellung des Spiels gewährleistet, die für den Betrachter absolut plausibel wirkt.
Ein weiterer entscheidender Aspekt des Modells ist der Umgang mit temporalen Kontextdaten. Um realistische Fahrdynamiken, wie Bremsmanöver, Beschleunigung oder Kurvenverhalten, akkurat abzubilden, ist es notwendig, nicht nur die aktuellen Aktionen, sondern auch frühere Bildsequenzen und Befehle des Spielers zu berücksichtigen. Interessanterweise bewegen sich Spielerfahrzeuge in Rennen oft sehr schnell relativ zur Umgebung, aber ihre gegenseitigen Relativgeschwindigkeiten ändern sich wesentlich langsamer. Multiverse nutzt hierfür eine spezielle spärliche Abtaststrategie, bei der zeitlich nicht alle, sondern ausgewählte Frames in größeren Abständen in den Kontext miteinfließen. Anhand von acht Frames in schneller Folge und vier weiteren in größeren Schrittweiten kann das Modell die wichtige Dynamik der Fahrzeuge und deren Relativbewegungen exakt erfassen, ohne die Rechnerlast unnötig zu erhöhen.
Dieses effiziente Vorgehen erlaubt es, umfangreichen temporalen Input in Echtzeit zu verarbeiten, was für die Performance des Spielmodells essenziell ist. Beim Training des Multiplayer-Modells sind noch größere Herausforderungen zu meistern. Während Singleplayer-Modelle gewöhnlich auf kurze Zukunftsintervalle zielen – typischerweise wenige hundert Millisekunden – müssen für realistische Multiplayer-Szenarien deutlich längere Vorhersagen getroffen werden. Denn die Interaktionen zwischen Spielern und deren Auswirkungen auf die gemeinsame Welt entwickeln sich oft erst über mehrere Sekunden. Die Entwickler von Multiverse setzten daher auf sogenanntes Curriculum Learning: Der Trainingsprozess beginnt mit kurzen Vorhersagehorizonten und wird schrittweise auf bis zu 15 Sekunden erweitert.
Dies gibt der KI zunächst Gelegenheit, die Grundlagen wie Fahrbahn- und Fahrzeuggeometrie zu erlernen, bevor sie sich komplexeren Verhaltensweisen und Szenarien widmet. Das Ergebnis ist ein Modell mit verbesserter Objektpermanenz und deutlich höherer Konsistenz bei Spielszenen über lange Zeiträume. Die Fähigkeit, solche Langzeitvorhersagen zu treffen, stellt eine technische Innovation dar und bietet erhebliche Vorteile bei der Simulation komplexer dynamischer Umgebungen. Technisch wird das umfassende Training durch clevere Speicherverwaltung unterstützt. Da das Laden vieler Frames gleichzeitig den VRAM von GPUs überfordern würde, setzt Multiverse auf eine sogenannte Paginationsstrategie im autoregressiven Vorhersageprozess.
Dabei werden Sequenzen in Abschnitte unterteilt und nacheinander verarbeitet, während ältere Frames, die nicht mehr im Kontext benötigt werden, verworfen werden. Dies erlaubt eine effiziente Verarbeitung großer zeitlicher Kontextfenster ohne immense Hardwareanforderungen. Zur Entwicklung und Validierung von Multiverse wurde das Rennspiel Gran Turismo 4 als Testplattform gewählt. Obwohl nicht lizenziert, dient die Gran Turismo-Umgebung aufgrund ihrer hohen Detailtreue und Fanbasis als ideale Grundlage. Der Fokus lag auf einem einfachen 1 gegen 1 Rennen auf der Tsukuba Rennstrecke, die – trotz ihrer überschaubaren Komplexität – alle relevanten Fahrdynamiken bietet.
Da das Spiel selbst keine reine 1v1 Darstellung im Vollbildmodus unterstützt, wurde die Engine modifiziert, um eine solche Umgebung schaffen zu können. Hierbei half das Einbinden und Synchronisieren von mehreren Wiedergabeperspektiven aus dem Spiel, inklusive computergesteuerter Gegner und Oberflächeninformationen. Die Erfassung relevanter Eingabedaten der Spieler erfolgte auf innovative Weise. Anstatt aufwendig aufzuzeichnen, welche Tasten gedrückt wurden, nutzte das Team die im Spiel angezeigten HUD-Elemente. Drehzahlmesser, Brems- und Gaspedalanzeigen wurden durch Computer-Vision-Techniken analysiert und in Steuerungsbefehle übersetzt.
Dadurch konnte ein vollständiges Aktionsprotokoll aus Videomaterial extrahiert werden, ohne dass invasive Methoden nötig waren. Um den Umfang an Trainingsdaten zu erhöhen und menschliche Spieler nicht dauerhaft zu benötigen, wurden automatisierte Rennen im sogenannten B-Spec Modus von Gran Turismo genutzt. In diesem Modus steuern KI-Bots die Fahrzeuge, die durch einfache Anweisungen durch Spieler oder Scripte gelenkt werden können. Dies ermöglichte eine skalierbare und reproduzierbare Datenproduktion. Alternativ wurden auch fortschrittliche Modelle wie OpenPilot Supercombo erprobt, aber letztendlich durch das B-Spec System ersetzt.
Das Resultat von Multiverse ist nicht nur ein Meilenstein in Sachen Technik, sondern auch ein visionärer Schritt in der Simulation gemeinsamer digitaler Realitäten. Durch die Verschmelzung von Bildsicht und Steuerung in einem einheitlichen Modell bekommen Spieler die Möglichkeit, interaktive Umgebungen mit hohem Realitätsgrad zu erleben – und das unter Nutzung alltäglicher Hardware, die über GitHub und Hugging Face öffentlich zugänglich ist. Dieses Konzept hat Potenzial weit über den reinen Gaming-Sektor hinaus. Denkbar sind Anwendungen in der autonomen Fahrzeugforschung, Robotik, Training von KI-Agenten oder kooperativen virtuellen Trainingswelten. Multiverse zeigt eindrucksvoll, wie die Kombination aus neuer AI-Architektur und innovativen Datenerhebungstechniken die bestehenden Grenzen bei der Generierung mehrspielerfähiger Welten sprengt.
Die Ergebnisse öffnen Türen zu neuen Formen der Interaktion zwischen Mensch und Maschine in dynamischen, gemeinschaftlichen Umgebungen. Die Vision dahinter ist klar: Multiplayer-KI-Weltmodelle als Fundament für die nächste Generation immersiver digitaler Erfahrungen, bei denen Zusammenarbeit, realistische Physik und langanhaltende Kohärenz miteinander verschmelzen. Im Grunde genommen repräsentiert Multiverse die erste umfassende real-time Simulation lebendiger, gemeinschaftlicher Welten, die sowohl technisch als auch inhaltlich zukünftige Markt- und Forschungsansätze prägen wird.