Die rasante Entwicklung von Künstlicher Intelligenz hat in den letzten Jahren eine enorme Vielfalt an Anwendungen hervorgebracht, insbesondere im Bereich der Videogenerierung. In diesem Kontext setzt Seaweed APT2 neue Maßstäbe. Dieses Modell stellt einen bedeutenden Fortschritt dar, indem es die Erzeugung von Videos in Echtzeit und mit interaktiver Steuerungsmöglichkeit ermöglicht. Die Bedeutung von Seaweed APT2 liegt nicht nur in seiner Geschwindigkeit, sondern auch in seiner Fähigkeit, durch eine neuartige Trainingsmethode und architektonische Innovationen qualitativ hochwertige Videos mit minimaler Verzögerung zu generieren. Damit erfüllt es Anforderungen an moderne, interaktive Anwendungen, die eine flüssige und personalisierte Nutzererfahrung bieten wollen.
Seaweed APT2 basiert auf einem autoregressiven Ansatz, bei dem das Modell jeweils einen sogenannten Latent Frame generiert, welcher vier Videoframes enthält. Diese Frames werden durch eine einzelne Vorwärtsevaluation des neuronalen Netzes erstellt, was als „1 Network Forward Evaluation“ (1NFE) bezeichnet wird. Dank der Nutzung eines sogenannten Key-Value Caches ist Seaweed APT2 in der Lage, kontinuierlich Videos mit langer Dauer zu generieren, ohne die Rechenzeit zu erhöhen. Das bedeutet, dass die Videolänge praktisch unbegrenzt sein kann, während die Rechenressourcen konstant bleiben. Die Leistungsfähigkeit von Seaweed APT2 zeigt sich besonders darin, dass ein 8-Milliarden-Parameter-Modell auf einer einzigen Nvidia H100 GPU Videos in 736x416 Pixel Auflösung mit 24 Bildern pro Sekunde in Echtzeit ausgeben kann.
Diese Auflösung entspricht in etwa dem klassischen VGA-Standard (640x480). Dies stellt einen enormen Fortschritt gegenüber bisherigen Verfahren dar, die oft weitaus höhere Rechenkapazitäten oder längere Zeiten benötigen, um vergleichbare Videos zu erzeugen. Neben der Standardauflösung ermöglicht Seaweed APT2 auch das Streaming hochauflösender Videos mit 1280x720 Pixeln (HD-Qualität) bei 24fps in Echtzeit. Für diese Anforderungen werden allerdings mehrere GPUs eingesetzt, konkret acht Nvidia H100 Karten. Dabei kann das Modell Videos mit einer Länge von bis zu einer Minute (1440 Frames) nonstop generieren, ohne an Berechnungsintensität zuzulegen.
Im Vergleich mit früheren Versionen, wie etwa APT1, ist dies ein klarerer und leistungsfähigerer Meilenstein, da dort nur wenige Dutzend Frames erzeugt werden konnten. Die Einsatzgebiete von Seaweed APT2 sind äußerst vielfältig. Einer der spannendsten Bereiche ist die interaktive virtuelle Menschengenerierung. Dabei wird ein Anfangsbild vom Nutzer vorgegeben, das als Grundlage für die Identität der virtuellen Person dient. Anschließend kann der Nutzer die Pose in Echtzeit steuern, was etwa für virtuelle Avatare in Spielen, Online-Konferenzen oder Augmented Reality Anwendungen von großem Nutzen ist.
Seaweed APT2 übernimmt die Umsetzung dieser Bewegungen und berechnet die fließenden Videosequenzen in Echtzeit, während der Nutzer eingreift. Ein weiterer Einsatzbereich ist die virtuelle Welterkundung. Nutzer können hier eine Umgebung auswählen und mit der Kamera verschiedene Richtungen ansteuern. Das Modell verarbeitet präzise Kamerabewegungen und -orientierungen als Eingaben und sorgt dafür, dass sich die Perspektive dynamisch und realistisch verändert. Die Kombination aus Echtzeitkontrolle und kontinuierlicher Videoerzeugung bietet die Möglichkeit, virtuelle Räume interaktiv und immersiv zu erkunden.
Technisch gesehen unterscheidet sich das Seaweed APT2 Modell stark von den traditionell in der Videogenerierung genutzten Verfahren wie der Diffusionsmodellierung oder der Vorhersage des nächsten Tokens. Stattdessen wird ein adversariales Trainingsverfahren genutzt, das an die Architektur großer Sprachmodelle (Large Language Models, LLMs) angelehnt ist und den KV-Cache vollkommen ausnutzt. Dabei trainiert der Generator mithilfe einer Block-Causal-Attention, die nur vorhergehende und aktuelle Frames berücksichtigt, um eine konstante Inferenzgeschwindigkeit zu gewährleisten. Eingeführte Werte aus vorherigen Schritten werden als Input für die Folgeframes recycelt, um eine kohärente und lange Videosequenz zu erzeugen. Der Diskriminator teilt dieselbe architektonische Grundlage und bewertet in der Trainingsphase alle Frames parallel.
Die Trainingsfunktion nutzt dabei eine Kombination aus einem Relativistischen GAN-Verlust und approximativen Regulierungsmethoden (R1 + R2), welche die Stabilität und Qualität der Erzeugungen verbessern. Die Initialisierung des Modells beruht auf einem vortrainierten, bidirektionalen Videodiffusionsmodell, welches im Anschluss durch die „Autoregressive Adversarial Post-Training“ (AAPT) Methode effizient in den neuen Autoregressiven Generator umgewandelt wird. Ein wichtiger Vergleich zeigt, dass Seaweed APT2 mit bisherigen Diffusionsmodellen, wie SkyReel-V2, klar überlegen ist. Diese Modelle leiden bei längeren Videos oft unter Degradationseffekten und Qualitätsverlusten nach etwa 20 Sekunden. Zwar kann das Einstellen des Classifier Free Guidance Scales (CFG) gewisse Verbesserungen bewirken, jedoch auf Kosten der strukturellen Integrität des Videos.
Seaweed APT2 hingegen bietet verbesserte Stabilität, Qualität und Länge der Videos. Das Modell kann auch vielfältige und unterschiedliche Varianten eines Videos schaffen, wenn es mit demselben Ausgangsbild, aber unterschiedlichen Zufallsrauschen versorgt wird. Das erlaubt eine Simulation verschiedenster Szenarien und eröffnet neue Möglichkeiten für kreative Anwendungen, Simulationen und Entertainment. Trotz der beeindruckenden Fähigkeiten hat das System auch noch Herausforderungen. Szenen mit sehr schnellen Bewegungen stellen eine Schwierigkeit dar, da der Speicherbedarf und die Modellkapazität begrenzt sind.
Die verwendete Sliding-Window Attention begrenzt außerdem den Langzeitkontext und das Modell vergisst ab längeren Zeitspannen mitunter Subjekte und Umgebungen. Physikalische Gesetzmäßigkeiten werden gelegentlich verletzt, was bei zukünftigen Weiterentwicklungen adressiert werden soll. Zudem fehlen derzeit Ausrichtungen und Feinjustierungen durch menschliche Präferenzen, die die Qualität und Nutzerzufriedenheit wie bei modernen Diffusionsmodellen weiter verbessern könnten. Eine wesentliche Erkenntnis aus den durchgeführten Ablationsstudien ist die Rolle der Wiederverwendung zuvor generierter Frames als Input für die Folgeschritte. Maskiert man diese Eingaben, verschlechtert sich die Videoqualität deutlich und große kohärente Bewegungen können nicht mehr zuverlässig erzeugt werden.
Dies unterstreicht, dass Recycling und Erhalt von Generierungsergebnissen entscheidend für qualitativ hochwertige Langzeitvideos sind. Auch beim Training wurde festgestellt, dass eine „student-forcing“ Vorgehensweise günstiger ist als eine „teacher-forcing“ Methode. Ersteres führt zu stabileren und weniger driftanfälligen Ergebnissen, was speziell bei der Vorhersage von kontinuierlichen latenten Pixelwerten relevant ist, die anfälliger für Fehlerakkumulation sind als diskrete Tokens in Sprachmodellen. Ein herausragendes Merkmal von Seaweed APT2 ist die Fähigkeit, Videoinhalte mit deutlich längerer Dauer als im Training gesehen zu generieren. Das Modell lässt sich „zero-shot“ auf fünfminütige Streams ausdehnen und arbeitet dabei immer noch mit nur 1NFE durch effizientes Caching.
Allerdings kommt es bei so langen Sequenzen zur beschriebenen Begrenzung der Erinnerung, die bei zukünftiger Forschung adressiert wird. Insgesamt stellt Seaweed APT2 einen wichtigen Schritt in der automatisierten Echtzeit-Videogenerierung dar und eröffnet verschiedene Anwendungsmöglichkeiten, die bisher technisch kaum realisierbar waren oder extrem ressourcenintensiv abliefen. Von virtuellen Interaktionen über immersive Welterkundungen bis hin zu personalisierten Avataren – die Technologie bringt Künstliche Intelligenz in den interaktiven Videoalltag. Die Kombination aus autoregressiver Generation, adversarialem Training und innovativer Architektur macht Seaweed APT2 zu einem Vorreiter für Echtzeit-Streamingvideos mit einer bislang unerreichten Balance aus Geschwindigkeit, Flexibilität und Qualität. Die Forschung dürfte ihre Zukunft in der weiteren Optimierung von Langzeiterinnerung, jeweils adaptiver Nutzersteuerung und verbesserten physikalischen Kohärenzmodellen finden.
Somit markiert Seaweed APT2 einen bedeutenden Meilenstein auf dem Weg zu grenzenloser, live gesteuerter Videoproduktion und setzt Impulse für die nächste Generation digitaler Medien und Anwendungen.