Die rasante Digitalisierung und die immense Zunahme an Daten im Einzelhandel und Zahlungsverkehr haben eine neue Ära der künstlichen Intelligenz eingeläutet, in der maschinelles Lernen und insbesondere sogenannte Foundation Models eine zentrale Rolle spielen. Ein besonders bahnbrechendes Projekt in diesem Kontext ist BehaviorGPT – ein Modell, das auf der Struktur und Methodik großer Sprachmodelle basiert, diese aber auf Verhaltensdaten anwendet. Statt reiner Textdaten wird hier das Kauf- und Konsumverhalten von Menschen als eine Art „Sprache“ verstanden, die analysiert und vorhergesagt werden kann. Die Entstehung von BehaviorGPT begann bereits 2020 mit dem Ziel, aus den reichhaltigen Daten des Lebensmittelhandels ein Modell zu schaffen, das in der Lage ist, zukünftige Kaufhandlungen basierend auf einer Vielzahl von Faktoren zu prognostizieren und so die Kundenbindung und den Umsatz zu steigern. Der Kern von BehaviorGPT liegt im Konzept der Sprachmodellierung, einer Technologie, die ursprünglich in der Verarbeitung natürlicher Sprache (NLP) entwickelt wurde.
Diese Technologie behandelt Wörter oder Token als Elemente einer Sequenz und berechnet Wahrscheinlichkeiten für deren Abfolge, um den nächsten Begriff mit hoher Genauigkeit vorherzusagen. BehaviorGPT überträgt dieses Prinzip auf das Verhalten der Konsumenten, indem es jede einzelne Transaktion oder Aktion als Token innerhalb einer zeitlich geordneten Sequenz interpretiert. So lassen sich sowohl das individuelle Verhalten von Nutzern als auch die Beziehung zu Produkten oder Dienstleistungen systematisch erfassen und analysieren. Das Modell wurde auf der Grundlage eines gewaltigen Datensatzes trainiert, der etwa 600 Millionen Online-Aktionen und 15 Milliarden stationäre Einkäufe umfasst – alle thematisch auf den Lebensmittelhandel bezogen. Mit einem Transformer-Netzwerk, das ungefähr 150 Millionen Parameter umfasst und spezifische architektonische Anpassungen besitzt, wurde BehaviorGPT so optimiert, dass es die komplexen und feinen Nuancen im Einkaufsverhalten zuverlässig interpretieren kann.
Die erzielten Ergebnisse sind bemerkenswert: Im Bereich der Produktempfehlungen erzielte BehaviorGPT eine zehnfache Verbesserung gegenüber traditionellen Basismodellen. Zudem konnte das Modell die Konversionsrate bei Suchanfragen signifikant steigern und übertraf dabei etablierte Lösungen wie RichRelevance um 9,4 % und Algolia um 5,7 %. Auch im stationären Handel zeigte der Einsatz des Modells durch die dynamische Zuordnung von Sortimenten an regionale Einkaufsgewohnheiten einen messbaren Erfolg mit einem Umsatzanstieg von 2,2 %. Ein weiteres herausragendes Merkmal von BehaviorGPT ist die Fähigkeit zur Personalisierung. Selbst kleine Änderungen innerhalb der Sequenz der Kaufhistorie können die Empfehlungen maßgeblich beeinflussen.
So zeigt sich, dass die Anpassung des drittletzten Produkts im Warenkorb signifikante Verschiebungen in der Interpretation der Kundenbedürfnisse hervorruft. Dadurch ist das Modell in der Lage, Kunden nicht nur zielgerichtet sondern auch kontextsensitiv passende Produkte vorzuschlagen. Dieses personalisierte Erlebnis steigert nicht nur die Kundenzufriedenheit, sondern fördert auch den Umsatz und die Kundenbindung. Der Fokus auf den Lebensmittelhandel als Ausgangspunkt für die Entwicklung von BehaviorGPT ist besonders sinnvoll, da Konsumdaten aus diesem Segment eine hohe Dichte aufweisen. Lebensmittel werden deutlich häufiger eingekauft als beispielsweise Kleidung oder Körperpflegeprodukte.
Diese hohe Kaufhäufigkeit ermöglicht besonders detaillierte und aussagekräftige Verhaltensmuster. Gleichzeitig kehren Kunden oft in dieselben Geschäfte zurück, was eine verlässliche Datenbasis für das Modell schafft. Außerdem hat die Analyse von BehaviorGPT sogar zuvor unerkannten Konsumentengruppen und Verhaltensmustern Aufschluss gegeben, beispielsweise eine Gruppe von gesundheitsbewussten Käufern oder spezielle Clustermitglieder mit besonderem Konsumverhalten. Diese Einsichten sind für Marketing- und Vertriebsstrategien von unschätzbarem Wert. In frühen Entwicklungsphasen setzte das Team auf eine einfache Tokenisierung, bei der jedes Produkt als eigenes Token codiert wurde.
Zusätzlich wurden sogenannte Domain-Embeddings eingeführt, mit denen kontextuelle Informationen wie geografische Region, Datum oder genutztes Gerät kodiert und in das Modell eingespeist werden konnten. Diese Verknüpfung steigerte die Genauigkeit signifikant, insbesondere bei kurzen Kaufhistorien oder wenn der Nutzer früher wenig Interaktionen hatte. Zeitbezogene Daten wie Wochentag oder Monat erwiesen sich als zentrale Einflussfaktoren. Ein weiterer wesentlicher Fortschritt bestand in der Integration von Produktbeschreibungen und weiterer Textinformationen durch ein sogenanntes Masked Language Modeling (MLM), bei dem nicht nur einzelne Wörter, sondern komplette Produktbeschreibungen als Einheit maskiert und prognostiziert wurden. Dies führte zu einem tiefen Verständnis von Produktbeziehungen, das über reine textliche Ähnlichkeiten hinausging und stattdessen das gemeinschaftliche Auftreten von Produkten im Einkaufswagen in den Mittelpunkt stellte.
Auf dieser Basis entstanden robuste Produkt- und Laden-Embeddings, mit denen physische Store-Cluster identifiziert und Sortimente dynamisch regional angepasst werden konnten – was den Umsatz in stationären Filialen messbar steigerte. Das Modell wurde zudem weiterentwickelt, um Bilder, Texte und weitere Produktmerkmale simultan zu verarbeiten. Dabei wurde der ursprüngliche Einbettungsmechanismus durch ein Feature-Embedder ersetzt, der die eigenständige Kodierung von Bildern und Texten ermöglicht. Dieser Prozess wurde in zwei Phasen trainiert, um effiziente und genaue Vorhersagen zu erzeugen. Die Integration von visuellen Elementen ist vor allem für Suchanfragen bedeutend, da Nutzer häufig spezifische Marken oder Produkte nach ihren visuellen Eigenschaften suchen.
Die End-to-End-Trainierung auf Verhaltensdaten ermöglichte eine besonders domänenspezifische Optimierung, die klassische Suchalgorithmen deutlich übertraf. Neben der Steigerung von Empfehlungen und Suchergebnissen unterstützt BehaviorGPT auch die Betrugserkennung. Indem das Modell die Wahrscheinlichkeit von Verhaltenssequenzen bewertet, können ungewöhnliche oder unwahrscheinliche Handlungen identifiziert werden – beispielsweise, wenn eine Person beim Selbstbedienungskassiervorgang Zutaten für ein Gericht kauft, jedoch ein einzelnes wird systematisch ausgelassen. Diese Detektion von Anomalien ist effektiver als herkömmliche Verfahren, die lediglich auf Produkt- oder Transaktions-Embeddings beruhen. Die Intelligenz von BehaviorGPT zeigt sich auch in der Fähigkeit, gesellschaftlich und kulturell prägende Kaufmuster zu verstehen.
So kann das Modell typische Speise- oder Getränkekombinationen für bestimmte Anlässe, wie das schwedische "Fredagsmys" (ein gemütlicher Freitagabend mit Snacks und Getränken), zuverlässig reproduzieren. Ebenso berücksichtigt es saisonale Schwankungen, etwa Office- und Feiertagsverhalten, durch die Verknüpfung mit Datums- und Zeit-Embeddings. Diese automatische Anpassungsfähigkeit ersetzt bisher erforderliche manuelle Programmierungen und spart Unternehmen erhebliche Ressourcen. Die Fortschritte, die mit BehaviorGPT erzielt wurden, markieren den Beginn einer neuen Ära in der Nutzung großer KI-Modelle für die Analyse menschlichen Verhaltens in transaktionalen Kontexten. Während bisher Foundation Models vor allem in den Bereichen Text, Bild und Genomik dominiert haben, erweitert BehaviorGPT diese paradigmatischen Techniken in das Feld des Verhaltens und der Aktionen, also die Art, wie Menschen täglich interagieren, konsumieren und einkaufen.