Die Möglichkeit, aus alltäglichen Videoaufnahmen realistische dreidimensionale Welten zu erschaffen, hat in den letzten Jahren enorme Fortschritte gemacht. Virtuelle Realitäten und interaktive Erlebnisse gewinnen dadurch kontinuierlich an Qualität und Zugänglichkeit. Im Zentrum dieser Revolution steht die innovative Methode des 3D Gaussian Splatting, eine Technologie, die es erlaubt, aus Videos oder einer Reihe von Bildern Ihrer Umgebung rasch und detailreich dreidimensionale Szenen zu generieren. Diese Technik hat nicht nur die Qualität der 3D-Rekonstruktion im Vergleich zu früheren Verfahren erheblich gesteigert, sondern auch die Komplexität und Dauer der Entwicklung stark reduziert. Für Industrien, die von realitätsnahen 3D-Modellen profitieren, ist dies ein bedeutender Durchbruch – sei es in der Spieleentwicklung, Architekturvisualisierung, digitalen Kartografie oder Filmproduktion.
3D Gaussian Splatting, oft abgekürzt als 3DGS, besticht durch die Erzeugung lebensechter Objekte, die sich dynamisch an die Position der Kamera anpassen. Das bedeutet, dass sich Objekte in Farbe, Größe und Transparenz verändern, je nachdem, aus welchem Blickwinkel sie betrachtet werden. Dieser Effekt sorgt für eine bislang unerreichte Immersion und natürliche Darstellung, die traditionelle photogrammetrische Methoden oder frühere Radiance-Field-Methoden wie NeRF nicht leisten konnten. Einen weiteren bemerkenswerten Vorteil bietet die Leistungsfähigkeit auf moderner Hardware: Die erzeugten 3D-Welten lassen sich mit über 100 Bildern pro Sekunde anzeigen – ideal für interaktive Anwendungen. Gleichzeitig dauert der Aufbau der Modelle erheblich kürzer als bei vergleichbaren Verfahren.
Wichtig zu wissen ist, dass hinter 3DGS verschiedene Ansätze stecken, die je nach Anwendungsfall zu unterschiedlichen Ergebnissen führen. Adaptive Density Control (ADC) ist ein nicht zu rechenintensiver Ansatz, der die Szene von innen nach außen aufbaut und besonders kompakte Dateigrößen erzeugt. Diese Methode eignet sich optimal zur Abbildung komplexer Umgebungen, etwa ganzer Landschaften oder Innenräume. Markov Chain Monte Carlo (MCMC) ist hingegen rechenintensiver und modelliert Szenen von außen nach innen mithilfe probabilistischer Modelle. MCMC zeigt vor allem bei der Rekonstruktion einzelner Objekte Stärken.
Das neueste Profil namens Splat3 erlaubt ebenfalls einen innen-außen-Aufbau und gibt dem Anwender mehr Kontrolle über die Anzahl der erzeugten Splats – die kleinsten visuellen Bausteine der Szene. Dieses Know-how ermöglichte es Innovatoren, Web-basierte Tools zu entwickeln, die eine intuitive Bearbeitung und Optimierung von 3D Gaussian Splats erlauben. Plattformen wie Luma AI, Teleport von Varjo und Kiri Engine haben inzwischen webfreundliche Lösungen angeboten, mit denen selbst Anwender ohne tiefgehende Programmierkenntnisse relativ unkompliziert realistische 3D-Modelle aus eigenen Videos erzeugen können. Ein exemplarisches Experiment verdeutlicht die praktische Umsetzung: Ein 68 Sekunden langes Video, aufgenommen mit einem modernen Smartphone in 4K-Auflösung bei 60 fps, diente als Ausgangsmaterial. Die Videodatei mit HEVC-Kodierung wurde anschließend verschiedensten Tools unterzogen.
Das Ergebnis: Luma AI benötigte rund eine Stunde und 45 Minuten, um einen 3D-Gaussian-Splat der Szene zu erstellen. Dabei entstand nicht nur ein interaktives Modell für die Web-basierte Vorschau, sondern eine Reihe von umfangreichen Datenpaketen – darunter Punktwolken, voll texturierte Meshes in Formaten wie GLB und USDZ sowie für Unreal Engine nutzbare Dateien mit hohem Detailgrad. Beeindruckend ist, dass diese hochauflösenden Modelle von modernen Programmen wie Blender problemlos importiert und weiter verarbeitet werden können. Die Lebendigkeit der Szene wird besonders beim Betrachten aus der üblichen Blickhöhe deutlich; je höher oder niedriger die Position verändert wird, desto sichtbarer werden aber teils noch fehlende Sichtwinkel oder nicht erfasste Details. Ein realistischer 3D-Eindruck basiert eben stets auf möglichst umfangreichem Quellmaterial.
Gleichzeitig ist die Kompatibilität mit weitverbreiteten Geoinformationssystemen wie QGIS interessant, wenn geografische Daten eine Rolle spielen. Zwar sind punktwolkenbasierte PLY-Dateien prinzipiell ladbar, ihre korrekte georeferenzierte Einbindung in Werkzeuge wie ArcGIS Pro oder AutoCAD bleibt jedoch aktuell noch Herausforderung und Thema künftig zu verbessernder Schnittstellen. Neben Luma AI sind weitere Marktteilnehmer wichtig zu erwähnen. Teleport von Varjo arbeitete ebenfalls mit dem Beispielmaterial und benötigte für seine Version der 3DGS-Szene etwa eine Stunde und 30 Minuten. Zwar war das Ergebnis erkennbar, zeigte jedoch die bekannten Ecken und Kanten, die bei noch nicht optimal erfassten Szenen vorkommen.
Der Effekt bei feinsten Details, wie Seilen an einem Spielplatz, ließ noch Wünsche offen. Die frei verfügbare Testversion gestattete hier lediglich den Download eines MP4-Films der Szene, nicht aber sämtlicher zugrundeliegender Daten. Der dritte im Bunde war Kiri Engine, die mit lediglich 21 Minuten Vorbereitungszeit besonders beeindruckend schnell waren. Das erzeugte 3D-Modell war etwas reduzierter und schloss Teile der Szenerie aus, offenbar durch das begrenzte Filmmaterial. Dessen Web-Interface punktete allerdings mit hilfreichen Fortschrittsanzeigen und einfachen Bearbeitungsmöglichkeiten.
Auch hier standen zum Download ein hochpolygonales PLY sowie die benötigte Textur bereit. Besonders spannend ist, welche Hardwareressourcen für die verschiedenen Verfahren benötigt werden. Manche Profile, wie das Splat3-Verfahren, verlangen explizit Grafikprozessoren der RTX-Generation ab Nvidia RTX 2080, da sie auf Raytracing und spezielle KI-Hardware zur Beschleunigung setzen. Für Nutzer mit älteren GPUs, beispielsweise einer GTX 1080, ist diese Option noch nicht praktikabel. Der Fortschritt im Bereich der 3D-Erzeugung aus Videos findet also im engen Zusammenspiel von Soft- und Hardware statt.
Betrachtet man die technischen Rahmenbedingungen, so ist klar, dass auch CPUs eine wichtige Rolle spielen. Ein moderner Hochleistungsprozessor mit vielen Kernen und viel RAM sorgt für eine geschmeidige Datenverarbeitung und erlaubt ein paralleles Rendern und Aufbauen der komplexen Szenenstrukturen. Bei großen Datensätzen erleichtern schnelle Massenspeicher mit hoher NVMe-Lesegeschwindigkeit die Handhabung der umfangreichen Bild- und Punktwolkeninformationen massiv. Die Nutzbarkeit moderner 3D-Formate wie USDZ ist ein weiterer Vorteil. Gegründet durch einen Zusammenschluss von Branchengrößen wie Pixar, Adobe, Apple, Autodesk und Nvidia und unter dem Namen OpenUSD Alliance, sorgen diese Kooperationen für eine breitere Akzeptanz und bessere Interoperabilität bei der Verwendung und Weitergabe von 3D-Inhalten.
Ein wesentlicher Nutzen besteht darin, dass Entwickler, Designer und GIS-Experten dieselben Modelle nahtlos in unterschiedlichen Softwareumgebungen einsetzen können. So wird der Arbeitsablauf effizienter und zeitaufwändiges Neukonstruieren entfällt. Die Umwandlung der Point Cloud oder der komplexen Meshdaten in für AutoCAD oder ArcGIS leicht handhabbare Formate bleibt eine Herausforderung der kommenden Jahre. Hier wird sich die Branche sicher weiter anpassen und native Unterstützung bieten. Auch die Integration in moderne Game Engines wie Unreal Engine gewinnt zunehmend an Bedeutung.
Zwar gibt es bereits Plugins, die das einfache Laden und Verwenden der 3D Gaussian Splats ermöglichen, allerdings sind sie teilweise noch instabil oder verlangen eine intensive Fehlersuche, was ambitionierte, aber unerfahrene Nutzer vor Hürden stellt. Dennoch zeigt sich klar, dass die Zukunft großer 3D-Welten aus einfachen Videos realistisch und greifbar wird. Die Kombination aus fortschrittlicher Verfahrenstechnik, zugänglichen Plattformen und moderner Hardware vergrößert den Kreis derer, die mit wenig Aufwand beeindruckende digitale Welten gestalten können. Für Unternehmen, die ihre Produkte, Umgebungen oder Projekte innovativ präsentieren wollen, ergeben sich spannende Chancen. Maßgeschneiderte Visualisierungen, immersive Schulungen oder virtuelle Touren lassen sich schneller und günstiger realisieren als je zuvor.