Forscher von renommierten Universitäten wie dem MIT, der Stanford University, der Columbia University und der Cornell University haben einen neuen Ansatz namens PhysDreamer entwickelt, der eine wegweisende Verbesserung in der Videoerzeugung für dynamische 3D-Objektinteraktionen darstellt. Diese bahnbrechende Technologie setzt einen neuen Standard im Bereich der virtuellen Realität, indem sie es ermöglicht, dass statische 3D-Objekte innerhalb einer virtuellen Umgebung dynamisch und realistisch interagieren können, basierend auf ihren physikalischen Eigenschaften wie Steifigkeit. PhysDreamer arbeitet mit Hilfe von Videogenerierungsmodellen, um vorherzusagen, wie Objekte auf verschiedene physikalische Interaktionen reagieren, wie z.B. das Drücken oder Manipulieren von Objekten.
"Durch das Destillieren dieser Prioritäten ermöglicht PhysDreamer die Synthese realistischer Objektreaktionen auf neuartige Interaktionen, wie externe Kräfte oder von Agenten durchgeführte Manipulationen", schrieben die Autoren der Studie. Die Forscher demonstrierten ihren Ansatz an verschiedenen elastischen Objekten wie Blumen, Pflanzen, einem Hut und einem Telefonkabel. Diese Methode zeichnet sich dadurch aus, dass sie die Materialeigenschaften von Objekten genau in ihre Vorhersagen einbezieht, was einen signifikanten Fortschritt gegenüber früheren Techniken darstellt, die diese Details nicht berücksichtigt haben. In Experimenten konnte PhysDreamer seine Fähigkeit unter Beweis stellen, realistische Bewegungen verschiedener elastischer Objekte zu erzeugen. Die Technologie übertraf bestehende Methoden signifikant, was zu einer intensiveren und ansprechenderen Erfahrung in virtuellen Simulationen führte.
"PhysDreamer macht einen Schritt hin zu ansprechenderen und realistischeren virtuellen Erlebnissen, indem es statischen 3D-Objekten ermöglicht, dynamisch auf interaktive Reize in einer physikalisch plausiblen Weise zu reagieren", schlossen die Autoren. Im Vergleich dazu konzentriert sich OpenAI's Sora ebenfalls auf die Erzeugung realistischer Videos, jedoch ohne explizite physikalische Modellierung. Sora ist ein großes textbedingtes Diffusionsmodell, das sowohl auf Videos als auch auf Bildern im großen Maßstab trainiert wurde. Es ist in der Lage, hochwertige Videos von bis zu einer Minute Länge mit konsistenter 3D-Bewegung und großer Kohärenz zu generieren. Allerdings zielt Sora nicht darauf ab, genaue physikalische Interaktionen zu simulieren oder Materialeigenschaften wie PhysDreamer zu schätzen.
Yann LeCun, VP & Chief AI Scientist bei Meta, wies darauf hin, dass Technologien wie Sora bahnbrechend für die Videogenerierung sind, aber möglicherweise nicht optimal für das Verständnis von tiefen Video-Repräsentationen oder die Simulation von realen physikalischen Phänomenen. PhysDreamer eröffnet neue Möglichkeiten für Anwendungen in der virtuellen Realität, im Gaming und in Simulationen und verspricht realistischere und interaktivere Benutzererlebnisse.