Retrieval-Augmented Generation, kurz RAG genannt, hat in den letzten Jahren immense Aufmerksamkeit erlangt. Diese Technologie verbindet die Stärke von großen Sprachmodellen mit externem Wissen, um präzise und kontextbezogene Antworten zu liefern. Doch trotz der Fortschritte gibt es einen großen blinden Fleck in der RAG-Community, der die Entwicklung und Optimierung dieser Systeme erheblich bremsen kann: das Fehlen einer fundierten Analyse von Nutzerinteraktionen als Bewertungsgrundlage. Stattdessen liegt der Fokus überwiegend auf menschlichen oder LLM-basierten Evaluationen, die wertvolle Einblicke aus realen Nutzerhandlungen oft nicht abbilden. Warum ist das so problematisch und welche Wege gibt es, um das Potential von Engagement-basierten Daten zu nutzen? Diese Fragen wollen wir im Folgenden beleuchten.
Das Dilemma traditioneller Evaluationen Die klassischen Evaluierungsmethoden bei Such- und Informationsabrufsystemen beruhen häufig auf menschlichen Urteilen. Experten betrachten eine Auswahl an Ergebnissen, bewerten deren Relevanz und vergleichen diese Bewertungen mit den Vorschlägen der Modelle. Auch automatisierte Bewertungen durch große Sprachmodelle (LLMs) gewinnen an Bedeutung. Doch hier liegt ein Kernproblem: Diese Bewertungen erfassen meist eine sachliche, oft objektive Perspektive, die sich an Fakten orientiert. Sie stammen aus Einzelsichtungen und spiegeln nicht zwingend das wider, was tatsächliche Nutzer in ihrer Interaktion als hilfreich oder relevant erleben.
Ein weiterer Nachteil ist die mangelnde Verfügbarkeit und Größe von Daten, die auf echten Nutzerhandlungen basieren. Bei RAG-Anwendungen, die oft noch in der Entwicklungs- oder Erprobungsphase stecken, existieren selten große Mengen an Live-Daten aus echten Suchsessions. Besonders bei komplexen, langen und einzigartigen Nutzeranfragen lässt sich keine einfache Aggregation vornehmen. Beispielhaft ist die Frage „Was sind die Steuererklärungen von Unternehmen X für die Jahre 2018 bis 2022?“ – eine Suchanfrage, die möglicherweise nur sehr selten exakt so mehrfach wiederholt wird. Die herkömmliche Methode, hunderte ähnliche Suchanfragen zusammenzufassen, ist hier kaum anwendbar.
Warum sind Nutzerinteraktionen so wichtig? In vielen digitalen Bereichen – seien es Shopping-Plattformen, soziale Netzwerke oder Content-Sharing-Dienste – geben Nutzerverhalten und gezielte Engagement-Signale wesentlich bessere Hinweise darauf, welche Inhalte tatsächlich relevant und wertvoll sind. User klicken, merken sich Inhalte, teilen oder speichern sie, was mehr über ihre wirklichen Präferenzen aussagt als eine reine objektive Qualitätsbewertung. Ein Beispiel aus der Praxis illustriert dies anschaulich: Auf einer Plattform wie Reddit könnte eine Suche nach „Cybertruck“ zwar formell technisch korrekte und informative Fahrzeugtests liefern. Die tatsächlichen Nutzererwartungen könnten aber deutlich anders gelagert sein, indem User eher unterhaltsame Beiträge über Pannen und lustige Erfahrungen mit dem Cybertruck suchen. Die reine Faktenorientierung ist hier weniger relevant als das subjektive Nutzerinteresse.
Daten, die Nutzerfeedback sichtbar machen, bieten die Möglichkeit, RAG-Systeme auf echtes Nutzerverhalten auszurichten und so die Ergebnisse deutlich zu verbessern. Leider sind diese Daten oft schwer zugänglich oder werden noch gar nicht gesammelt. Klassifizierung von RAG-Anwendungen und passende Nutzerdaten Um gezielt wertvolle Engagement-Daten sammeln zu können, ist es hilfreich, RAG-Anwendungen in verschiedene Typen einzuordnen. Jede Kategorie bringt unterschiedliche Möglichkeiten mit sich, Nutzerhandlungen zu erfassen und auszuwerten. Eine Variante umfasst RAG-Systeme, die parallel zu klassischen Suchergebnissen eingesetzt werden, beispielsweise in E-Commerce-Umgebungen.
Hier stehen klar sichtbare Resultate bereit, auf die Nutzer klicken, sie bewerten oder in Warenkörbe legen können. Diese Aktionen können traditionell erfasst und analysiert werden. Eine zweite Form sind Systeme, die in Chats oder Konversationen Informationen durch Zitierungen oder Links zu externen Quellen bereitstellen. Die Nutzer klicken nicht direkt auf Produkte oder Resultate, sondern interagieren mit den verlinkten Inhalten, was verfolgt werden kann. Darüber hinaus lassen sich Aktionen wie das Verweilen über einem Text, das Kopieren von Inhalten oder das Teilen von Ergebnissen erfassen und bieten zusätzliche Einblicke.
Die dritte, besonders herausfordernde Kategorie sind vollständig integrierte Systeme, die Suchergebnisse nahezu unsichtbar in die Antwort einfließen lassen, ohne das der Nutzer das als Suchinteraktion wahrnimmt. Hier ist es essenziell, Transparenz zu schaffen und dem Nutzer deutlich zu machen, woher und wie die Antworten entstehen, um bewussteres Feedback und sinnvolle Zwischenaktionen zu ermöglichen. Aggregationsproblematik bei komplexen Nutzeranfragen Einer der Kernpunkte für die Nutzung von Engagement-Daten ist, Fragen und Suchanfragen sinnvoll zu gruppieren, um statistisch belastbare Auswertungen zu erhalten. Im traditionellen Search-Umfeld ist dies mit exakt gleichen oder zumindest sehr ähnlichen Suchstrings einfacher. Im Kontext von RAG ist es aber nahezu unmöglich, exakte Duplikate von Suchanfragen zu identifizieren.
Menschen formulieren Queries oft unterschiedlich, stellen verfeinerte oder verwandte Fragen oder beziehen persönliche Bedingungen mit ein. Beispielhaft können Suchanfragen nach Restaurants in einer Stadt sehr unterschiedlich lauten – von schlicht „beste Restaurants in Berlin“ bis hin zu „gute kinderfreundliche Restaurants in Berlin Mitte“. Eine simple stringbasierte Gruppierung greift hier nicht. Modernere Ansätze nutzen semantische Ähnlichkeiten, ermittelt beispielsweise durch Vektor-Embedding-Modelle, um Anfragen zusammenzufassen. Ein Satz wie „Was sind tolle Restaurants in Berlin?“ kann so als sehr ähnlich zu „Welches sind die besten Essensplätze in Berlin?“ bewertet werden.
Dabei lässt sich ein Schwellenwert definieren, über den ähnliche Anfragen zusammengeführt werden. Allerdings bleibt dabei die Herausforderung bestehen, wann ähnliche Anfragen als ausreichend nah genug zu definieren sind, um auszuwerten. Probabilistische Aggregation bietet eine mögliche Lösung. Anstatt eine harte Grenze für Ähnlichkeiten zu verwenden, gewichtet man Suchanfragen und die daraus resultierenden Interaktionen entsprechend ihrer Ähnlichkeit. So fließen Klick- und Engagement-Daten auch von etwas anders formulierten, aber semantisch verwandten Suchanfragen in die Bewertung eines zentralen Terms ein.
Um Unsicherheiten in der Datensammlung zu modellieren, bietet sich die Nutzung statistischer Methoden an. Die Beta-Verteilung ermöglicht dabei, sowohl die Wahrscheinlichkeit einer Relevanz als auch das Vertrauen in diese Aussage darzustellen. Durch fortlaufende Nutzerinteraktionen kann das Modell stetig lernen, wie sicher die Annahme bezüglich bestimmter Suchergebnisse ist. Besonders bei seltenen oder komplexen Fragen hilft das, Fehlbewertungen aufgrund geringer Datenmengen zu minimieren. Weitere Optimierungspotentiale und offene Fragen Auch wenn das Konzept Engagement-basierter Evaluierung vielversprechend ist, bleiben einige offene Herausforderungen.
So zeigt sich, dass einfache Embeddings nicht immer die beste Grundlage zur Gruppierung harmonischer Suchanfragen sind. Es wäre denkbar, strukturierte Query-Formate—beispielsweise mit Attributen wie Farbe oder Kategorie bei Produktsuchen—zu etablieren, doch diese erfordern aufwändige Vorverarbeitung und sind bei vielfältigen Themen quasi unmöglich universell anzuwenden. Zudem ist unklar, ob man komplexe, mehrstufige Gespräche bei RAG-Anwendungen einfach in eine prägnante Suchfrage zusammenfassen kann. Die Umwandlung eines langen Dialogs in eine einzelne Query ist ein anspruchsvolles Forschungsfeld, das sich gerade erst entwickelt. Ein weiteres Thema betrifft systematische Verzerrungen (Biases).
Ähnlich wie bei klassischen Suchmaschinen neigen Nutzer dazu, bevorzugt Ergebnisse oben in der Liste zu klicken. Darauf muss bei der Auswertung Rücksicht genommen werden, um Präsentations- und Positionsbezogene Verzerrungen zu minimieren. Der Nutzen für die Verbesserung von RAG-Systemen Engagement-Daten können nicht nur bei der Evaluation helfen, sondern auch direkt in die Systemoptimierung einfließen. In Suchsystemen sind Signale aus früheren Nutzerinteraktionen wertvolle Indikatoren, um die Rangfolge der Ergebnisse an die tatsächlichen Präferenzen der Nutzer anzupassen. Für RAG kann das bedeuten, dass bei einer Anfrage ähnliche Suchanfragen und deren erfolgreichen Ergebnisvorschläge als temporäre Boosting-Signale eingesetzt werden.
So lässt sich der Rückgriff auf ein Query-Index-System aufbauen, das die besten Antworten höher platziert – eine wichtige Erweiterung gegen die bisher sehr statische oder rein modellbasierte Rangierung. Fazit Der Fokus auf menschliche Bewertungen und LLM-gestützte Evaluation allein greift bei RAG-Anwendungen zu kurz. Nur durch die gezielte Integration von Nutzerinteraktionsdaten gewinnt man ein realistisches Bild darüber, welche Ergebnisse tatsächlich relevant und wertvoll sind. Die Nutzung von probabilistischer Aggregation, Beta-Verteilung zur Modellierung von Unsicherheiten sowie der Einbezug von mehrdimensionalen Interaktionssignalen, kann das Fundament für verbesserte RAG-Systeme bilden. Die Umsetzung erfordert allerdings eine intensive Auseinandersetzung mit Datenverfügbarkeit, Aggregationsmethoden und Bias-Korrekturen.
Zudem sind transparente Nutzerinterfaces wichtig, damit Anwender verstehen, wie Ergebnisse zustande kommen und gezielt mit dem System interagieren können. Wer sich mit Suchtechnologien, RAG und KI beschäftigt, sollte deshalb unbedingt das enorme Potenzial von Engagement-basierten Daten erkennen und weiter erforschen. Nur so lässt sich die nächste Generation von suchbasierten Antworten schaffen, die sowohl faktisch korrekt als auch wirklich relevant für die Bedürfnisse der Nutzer sind.