In der heutigen digitalen Welt wird das Online-Shopping für Milliarden von Menschen zunehmend zur bevorzugten Einkaufsform. Dennoch fehlt vielen Kunden das haptische Erlebnis, das sie aus physischen Geschäften kennen. Das Betrachten, Anfassen und Drehen eines Produkts vor dem Kauf sind wichtige Faktoren, die Kaufentscheidungen beeinflussen. Genau hier setzt die innovative Technologie der generativen KI an, um virtuelle Einkaufserlebnisse so realistisch und interaktiv wie möglich zu gestalten und ein neues Zeitalter des E-Commerce einzuläuten. Google Labs hat mit seiner neuesten Entwicklung einen bedeutenden Fortschritt in der Darstellung von Produkten online erzielt.
Anstelle von einfachen 2D-Bildern, die oftmals nur eingeschränkte Perspektiven und Details bieten, ermöglicht der Einsatz von generativer KI die Erstellung von hochwertigen 3D-Produktvisualisierungen. Dabei können bestehende Produktfotos – und zwar so wenige wie drei Stück – in beeindruckende, interaktive Darstellungen verwandelt werden, die Kunden eine umfassendere Einsicht gewähren und gleichzeitig den Aufwand und Kosten für Händler erheblich senken. Die Technologie basiert auf der Evolution von intelligenten Modellen, die nun komplexe dreidimensionale Informationen eines Produkts aus wenigen Bildern rekonstruieren können. In der ersten Generation kamen Neural Radiance Fields (NeRFs) zum Einsatz, die durch multiple Fotos eines Objekts eine 3D-Darstellung erstellten, welche das Produkt aus verschiedenen Blickwinkeln zeigte. Diese Methode ermöglichte interaktive 360-Grad-Ansichten und wurde erstmals für die Darstellung von Schuhen auf Google Search verwendet.
Allerdings stießen diese Ansätze bei schwierigen Produkten wie Sandalen oder hochhackigen Schuhen an Grenzen, da dünne Strukturen und komplexe Geometrien schwer rekonstruierbar waren, besonders wenn nur wenige Bilder vorhanden waren. Aus diesen Herausforderungen entstand die zweite Generation der Technologie, die den Einsatz sogenannter view-conditioned Diffusionsmodelle einführte. Diese Modelle sind in der Lage, die Ansicht eines Produkts abhängig von einem gegebenen Bild vorherzusagen und so fehlende Perspektiven virtuell zu ergänzen. Beispielsweise kann aus einem Bild der Oberseite eines Schuhs auf dessen Vorderseite geschlossen werden. Die dabei eingesetzte Methode der Score-Distillation-Sampling (SDS) unterstützt die Verfeinerung der 3D-Modelle kontinuierlich, indem sie gerenderte Ansichten mit erwarteten Darstellungen vergleicht und durch Rückkopplung die Genauigkeit steigert.
Mit diesem Fortschritt konnten viel mehr Produktkategorien abgedeckt werden, vor allem im Bereich verschiedener Schuhmodelle, die heute auf Google Shopping interaktiv präsentiert werden. Die Verlässlichkeit und Qualität der Darstellungen verbesserte sich deutlich, wodurch Verbraucher ein realistischeres und greifbareres Online-Einkaufserlebnis geboten wird. Einige Monate später folgte die dritte Generation, die auf Googles moderner Video-Generations-Technologie Veo basiert. Diese Plattform kann komplexe Wechselwirkungen zwischen Licht, Material, Textur und Geometrie selbst bei wenigen Bildern erstaunlich realistisch und konsistent rekreieren. Dafür wurde das Modell an einem umfangreichen Datensatz synthetischer 3D-Modelle trainiert, die unter unterschiedlichsten Kamerawinkeln und Beleuchtungsbedingungen gerendert wurden.
Das Ergebnis ist die Fähigkeit, aus einem oder mehreren Produktbildern durchgängig konsistente 360-Grad-Videos zu generieren, die eine natürliche und lebendige Visualisierung gewährleisten. Der Einsatz von Veo erlaubt es zudem, auf das zuvor notwendige exakte Ausrichten der Kamera zurückzublicken. Das Modell kann nun ohne präzise Kamerapositionen auskommen, was die Implementation erheblich vereinfacht und eine größere Zuverlässigkeit bringt. Auch Materialeigenschaften wie Glanz und Reflektionen, die in vorherigen Generationen schwer darzustellen waren, werden von Veo überzeugend erzeugt. Dadurch profitieren neben Schuhen auch Möbel, Bekleidung, Elektronik und zahlreiche weitere Produktkategorien von dieser bahnbrechenden Technologie.
Die Qualität der generierten 3D-Objekte steigt mit der Menge der verwendeten Produktbilder deutlich an. Schon mit drei Bildern, die verschiedene Oberflächen eines Produkts zeigen, lassen sich detailreiche und genaue Nachbildungen erstellen, die Halluzinationen vermeiden helfen und Kunden ein umfassendes Produktverständnis vermitteln. Dadurch kann die Entscheidungsfindung des Kunden gezielt unterstützt werden, was wiederum die Wahrscheinlichkeit eines Kaufs erhöht und Retouren vermindert. Die Entwicklung in diesem Bereich ist nicht nur für Konsumenten spannend, sondern auch für Händler und Hersteller, die sich durch die Integration von generativer KI erheblich vom Wettbewerb differenzieren können. Die Möglichkeit, schnell und automatisiert beeindruckende 3D-Darstellungen zu erzeugen, senkt die Hürden für die professionelle Präsentation im Netz.
Auf diese Weise tragen technologische Innovationen dazu bei, die unterschiedlichsten Produktwelten erlebbar zu machen und das Vertrauen in den Online-Kauf zu stärken. Zukunftsweisend ist die Aussicht, dass weitere Fortschritte im Bereich generativer Modelle die Grenzen der Darstellungsmöglichkeiten noch verschieben werden. Mit der Integration von noch realistischeren Materialeigenschaften, präziseren Details und interaktiveren Oberflächen könnten virtuelle Produktansichten künftig das Einkaufserlebnis so stark verbessern, dass die Trennung zwischen digitalem und stationärem Handel weiter verschwimmt. Gerade für komplexe und hochwertige Produkte wird dieser Trend neue Maßstäbe setzen. Durch Forschungskooperationen zwischen diversen Teams aus Google Labs, Google DeepMind und Google Shopping entstehen stetig neue Ideen und Innovationen auf dem Gebiet der computergestützten Produktvisualisierung.
Die wissenschaftliche Veröffentlichung der zugrundeliegenden Arbeiten sorgt zudem für einen offenen Austausch unter Forschern und Entwicklern, der die gesamte Branche voranbringt. Generative KI hat damit heute bereits ihren festen Platz in der Welt des E-Commerce gefunden und revolutioniert die Art und Weise, wie Produkte präsentiert und erlebt werden. Das verschafft nicht nur dem Online-Handel einen enormen Schub, sondern bringt auch Verbrauchern ein unmittelbares und ehrliches Produktverständnis. Dies stärkt die Kundenzufriedenheit und trägt letztlich zu mehr Nachhaltigkeit bei, indem Retouren und Fehlkäufe reduziert werden. Abschließend lässt sich sagen, dass die Verwendung von generativer KI, wie sie in der neuesten Veo-Technologie steckt, den Grundstein für eine neue Dimension des digitalen Einkaufens legt.
Die realistischen, interaktiven 3D-Darstellungen schaffen ein Einkaufserlebnis, das dem Vor-Ort-Einkauf immer näherkommt und diesen in vielen Fällen sogar übertrifft. Die Zukunft des E-Commerce wird daher durch immersive Visualisierungen und innovative KI-Anwendungen maßgeblich geprägt und verspricht ein spannendes und nachhaltiges Wachstum der Branche.