Die fortschreitende Entwicklung von Künstlicher Intelligenz und maschinellem Lernen hat in den letzten Jahren zu bahnbrechenden Fortschritten im Bereich der Videogenerierung geführt. Besonders hervorzuheben ist dabei der neue Ansatz des sogenannten Force Promptings, der es Videogenerierungsmodellen ermöglicht, physikbasierte Kräfte als Steuerungssignale zu lernen und auf vielfältige Szenarien zu übertragen. Diese Technik eröffnet nicht nur neue Möglichkeiten in der computergestützten Bild- und Videobearbeitung, sondern stellt auch einen wichtigen Schritt in Richtung eines tieferen Verständnisses physikalischer Interaktionen in virtuellen Umgebungen dar. Anders als herkömmliche Methoden, die auf zeitaufwändigen physikalischen Simulationen beruhen, setzt Force Prompting auf neural basierte Modelle, die mithilfe synthetischer Trainingsdaten lernen, die Wirkungen von Kräften visuell überzeugend darzustellen. Diese Vorgehensweise reduziert die Rechenkosten erheblich und sorgt gleichzeitig für eine erstaunliche Generalisierungskraft der Modelle.
Grundlegend basiert das Force Prompting auf der Idee, dass ein Nutzer eine Kraftvektor-Eingabe spezifizieren kann, welche die Stelle, Richtung und Stärke der Einwirkung angibt. Das Modell generiert daraufhin eine Videofolge, die das Ergebnis dieser kraftbasierten Einwirkung zeigt, etwa das Poken einer Pflanze oder das Bewegen eines Balls. Besonders beeindruckend ist die Fähigkeit der Modelle, sowohl lokale Punktkräfte als auch globale Kräfte wie Wind abbilden zu können. Das Training dieser Modelle beruht überwiegend auf synthetisch erzeugten Videodaten, die mit Programmen wie Blender erstellt wurden. Trotz der vergleichsweise geringen Menge von etwa 15.
000 Trainingsbeispielen gelingt es den Modellen, aufgrund sorgfältig ausgewählter Vielfalt in den Datensätzen und der Verwendung spezifischer Textschlüsselworte während des Trainings, physikalische Effekte überzeugend zu generalisieren. Beispielsweise kann ein Modell, das auf Videos trainiert wurde, in denen Fahnen im Wind wehen, den Einfluss von Wind auf völlig unterschiedliche Objekte und Materialien übertragen. Gleiches gilt für den lokalen Kraftmodus, bei dem das Poken von Pflanzen oder Bällen in diversen Umgebungen mit unterschiedlicher Objektanzahl und Materialvarianz gelernt wird. Ein bedeutendes Ergebnis dieser Forschung ist die beobachtete teilweise Erkennung von Massenunterschieden bei Objekten. So reagiert ein einzelnes Buch anders auf dieselbe Kraft als ein Stapel von Büchern, ohne dass explizite Masseninformationen im Input gegeben sind.
Diese implizite „Massenerkennung“ deutet darauf hin, dass das Videoerzeugungsmodell ein gewisses physikalisches Verständnis in den generierten Darstellungen verankert hat. Die Nutzung von Schlüsselwörtern wie „Wind“, „Blasen“ oder „Brise“ während des Trainings spielt eine wichtige Rolle für die Fähigkeit der Modelle, physikalisch korrekte Bewegungen zu erlernen und diese auf ähnliche Konzepte zu übertragen. Diese Worte helfen dem Modell, die semantische Verbindung zwischen Kraftsignalen und den entsprechenden Videomustern herzustellen. Interessanterweise ist diese Verwendung der Keywords während der Trainingsphase entscheidend, jedoch nicht zwingend erforderlich während der Inferenz, was auf die Robustheit des trainierten Modells hinweist. Trotz der vielen Erfolge gibt es auch Herausforderungen und Grenzen.
In bestimmten Szenarien, die stark vom ursprünglichen Verteilungsspektrum der Trainingsdaten abweichen, etwa das Rollen von ungewöhnlichen Formen wie Eiern oder komplexe Mensch-Objekt-Interaktionen, stößt das Modell an seine Grenzen und erzeugt weniger plausible Ergebnisse. Außerdem kann der interne Video-Hintergrundprior des Modells dazu führen, dass Objekte oder Partikel in Bewegung gebracht werden, die nicht zum Kraftprompt passen, was die physikalische Glaubwürdigkeit etwas schmälert. Ein weiterer Vorzug der Methode liegt in ihrer Rechenökonomie. Das Training des Modells erfordert lediglich einen Tag auf vier NVIDIA A100 GPUs, was im Vergleich zu aufwändigen Physiksimulationen sehr effizient ist. Diese Ressourcengünstigkeit ebnet den Weg für eine breitere Forschung und praktische Anwendung.