Retrieval-Augmented Generation, kurz RAG, hat in den letzten Jahren als vielversprechende Technologie zur Verbesserung von Such- und Antwortsystemen einiges an Aufmerksamkeit erhalten. Dabei werden große Sprachmodelle mit externen Datenbanken kombiniert, sodass sie nicht nur auf im Training gelernte Informationen zurückgreifen, sondern sie durch gezieltes Abrufen aktueller Daten auch stets relevante Antworten liefern können. Doch trotz aller Fortschritte hat RAG eine bedeutende Schwachstelle, die häufig übersehen wird: die mangelnde Einbeziehung von Nutzer-Engagement als Bewertungsgrundlage. Während klassische Suchmaschinen seit langer Zeit auf die Auswertung von Nutzersignalen wie Klicks, Verweildauer oder Käufen setzen, konzentriert sich die RAG-Community oft vorwiegend auf menschliche Bewertungen oder die Urteilsfähigkeit von großen Sprachmodellen als Richter. Dieser Fokus vernachlässigt jedoch die subtilen, aber wertvollen Rückmeldungen, die das tatsächliche Verhalten der Anwender liefert.
In der Vergangenheit, besonders in der Ära vor dem Aufstieg von ChatGPT und ähnlichen Modellen, spielte das sogenannte Learning to Rank eine zentrale Rolle bei der Optimierung von Suchergebnissen. Damals wurden Klickdaten von Tausenden von Nutzern gesammelt, um deren Präferenzen zu ermitteln. Wenn beispielsweise Nutzer nach "rote Schuhe" suchten, konnte man feststellen, welche Produktangebote häufiger angeklickt oder gekauft wurden. Doch diese scheinbar einfache Methode birgt schon Herausforderungen. Nutzer klicken tendenziell eher auf höher platzierte Ergebnisse, was eine Positions- oder Präsentationsverzerrung verursacht.
Solche Verzerrungen mussten mit komplexen Modellen und sorgfältiger Datenaufbereitung berücksichtigt werden, etwa durch sogenannte Click Models. Das Ziel war ein gutes Modell, das auf Milliarden von Klick-Daten trainiert wurde und Produkte mit hoher Relevanz für eine Suchanfrage bevorzugt. Überträgt man diesen Ansatz nun auf die Welt von RAG und den damit verbundenen Chat-Anwendungen, wird schnell klar, warum das Sammeln vergleichbarer Engagement-Daten schwieriger ist. Nutzer stellen meist individuelle, komplexe Fragen in lange Gespräche eingebettet – zum Beispiel zu Steuerberichten eines bestimmten Unternehmens über bestimmte Jahre. Diese Fragen wiederholen sich selten in ihrer genauen Wortwahl.
Das erschwert eine einfache Aggregation von Nutzerinteraktionen. Noch komplizierter wird es, weil Nutzer häufig nicht direkt mit den gefundenen Quellen interagieren. Stattdessen konsumieren sie die vom Sprachmodell generierte Zusammenfassung, die oftmals nur indirekt auf die zugrundeliegenden Dokumente verweist. Anders als bei einer Liste von Suchergebnissen, die Nutzer gezielt anklicken können, bleibt hier oft unsichtbar, welche Daten tatsächlich berücksichtigt wurden oder wie sie bewertet werden. Dieser Mangel an direkten Nutzer-Signalen führt dazu, dass viele RAG-Anwendungen stattdessen auf menschliche Bewertungen setzen – manuelle Einschätzungen, die entweder von Experten oder Crowdworkern stammen, oder nicht selten durch ein weiteres Sprachmodell, das als Richter fungiert.
Diese Evaluationsform bleibt jedoch abstrakt und entfernt sich vom tatsächlichen Nutzerverhalten. Dabei ist gerade das Nutzerengagement oft der beste Indikator für Relevanz und Zufriedenheit. In kommerziellen Bereichen wie Shopping-Plattformen oder sozialen Netzwerken zeigt sich die Diskrepanz besonders deutlich. Nutzerpräferenzen sind hier häufig subjektiv und von Emotionen geleitet. Ein Beispiel aus meiner Arbeit bei Reddit zeigte deutlich, dass Menschen bei einer Suche nach "Cybertruck" weniger an sachlichen Produktbewertungen interessiert waren, sondern vielmehr an unterhaltsamen Inhalten, wie peinlichen Besitzer-Erfahrungen.
Ein rein objektives Verständnis von Suchintention oder reine Faktenwiedergabe reicht hier also nicht aus. Welche Nutzerdaten können also überhaupt erhoben werden, um die Relevanz von RAG-Ergebnissen besser einzuschätzen? Die Bandbreite variiert stark nach Art der Anwendung. Bei einem Chat kombiniert mit klassischen Suchergebnissen, wie etwa einem AI Fashion Stylisten, sind traditionelle Klick- und Conversion-Daten leicht zugänglich. Nutzer klicken auf Produkte, speichern Lieblingsstücke, teilen Empfehlungen oder lassen sich Items genauer anzeigen. All diese Aktionen erlauben eine quantitative Bewertung der Relevanz eines Suchergebnisses.
In Szenarien mit Zitaten oder Links zu Quellen, etwa bei wissenschaftlichen Recherchen oder Community-Antworten auf Reddit-artigen Plattformen, eröffnen sich weitere Möglichkeiten. Neben offensichtlichen Metriken wie Klicks auf zitierte Beiträge können auch Mikro-Interaktionen wie Maus-Hovering über Antwortabsätze oder Copy-Paste-Aktionen wertvolle Hinweise liefern, wie intensiv das Ergebnis genutzt wird. Ein besonders lohnender Ansatz ist es, nicht nur klassisches Feedback wie Daumen hoch oder runter auszuwerten, sondern nützliche Aktionen konkret zu erfassen. Funktionen wie Lesezeichen setzen, Inhalt erweitern oder Teilen sind oft subtil aber aussagekräftig und spiegeln das tatsächliche Interesse der Nutzer wider. Erfolgreiche Plattformen wie YouTube nutzen solche indirekten Signale, wenn etwa ein Video durch Hovern automatisch startet und so die Aufmerksamkeit des Nutzers bindet.
Aus Sicht der Nutzerfreundlichkeit sollte man zudem darauf achten, Transparenz über den Suchprozess zu schaffen. Anwendungen, in denen RAG komplett unsichtbar bleibt und Informationen präsentiert werden, ohne den Suchmechanismus offenzulegen, können das Vertrauen der Nutzer untergraben. Daher empfiehlt es sich, auf ausführliche Zitate und klare Rückverweise auf die Herkunft der Informationen zu setzen, sodass Anwender nachvollziehen können, wie und wo die Daten herkommen. Die Aggregation von Nutzerinteraktionen über vielfältige, aber ähnliche Suchanfragen stellt einen weiteren zentralen Aspekt dar. Wie beim Suchbeispiel "rote Schuhe" lassen sich dort durch die Zusammenfassung von Klickdaten eine verlässlichere Einschätzung gewinnen.
Im RAG-Kontext zeigen sich allerdings große Herausforderungen, weil Nutzeranfragen oft sehr variabel formuliert sind. So sind "Beste Restaurants in Charlottesville" und "Großartige Restaurants in Charlottesville" ähnlich, sollen aber klar von "Kinderfreundliche Restaurants in Charlottesville" unterschieden werden. Für eine sinnvolle Aggregation ist eine gewisse Normalisierung oder semantische Gruppierung der Fragen unerlässlich. Hier können moderne Embedding-Modelle helfen, die semantische Nähe zweier Anfragen mittels Kosinus-Ähnlichkeit bewerten. Doch solche Verfahren sind nicht perfekt und können die inhaltlichen Nuancen manchmal nicht ausreichend abbilden.
Eine Innovation liegt darin, diese Ähnlichkeit nicht als harter Schwellenwert, sondern als Wahrscheinlichkeit zu interpretieren, mit der Ergebnisse einer Anfrage auch für eine andere relevant sind. Die Klickrate einzelner Ergebnisse lässt sich so probabilistisch gewichtet zusammenfassen, was eine flexiblere und robustere Bewertung ermöglicht. Um die Unsicherheiten solcher Bewertungen zu modellieren, eignet sich die Beta-Verteilung. Sie hilft, nicht nur die Wahrscheinlichkeit der Relevanz abzuschätzen, sondern auch die Sicherheit darüber – also wie verlässlich die Datenlage ist. Bei wenigen Beobachtungen ist das Vertrauen gering, es wächst aber mit zunehmender Anzahl an Nutzeraktionen.
Mit diesem mathematischen Instrumentarium lässt sich das Signal-Rausch-Verhältnis bei seltenen oder individualisierten Suchanfragen deutlich verbessern. Trotz dieser vielversprechenden Ansätze steht die Suche nach besseren Methoden zur Erkennung von Query-Ähnlichkeiten und deren Relevanz weiterhin offen. Statt allein auf Embeddings zu setzen, könnten strukturierte Ansätze hilfreich sein, bei denen Nutzerfragen in vordefinierte Kategorien oder Entitäten zerlegt werden. Während dies mehr Aufwand in der Modellierung bedeutet, erhöht es die Interpretierbarkeit und ermöglicht eine gezieltere Aggregation. Zudem kann durch die Zusammenfassung von komplexen Mehrfachfragen zu einer einzigen prägnanten Suchanfrage die Datenmenge für die Bewertung besser handhabbar gemacht werden.
Eine weitere Herausforderung sind die Biases. Wie bei klassischen Suchmaschinen neigen Nutzer auch bei RAG-Ergebnissen dazu, eher mit über den Hauptpositionen angezeigten Ergebnissen zu interagieren. Die Berücksichtigung solcher Verzerrungen muss in die Analysen einfließen, sonst droht eine verfälschte Beurteilung der Relevanz. Insgesamt bieten diese Methoden einen großen Hebel zur Verbesserung der Resultate in RAG-Anwendungen. Indem vergangene Nutzeraktionen und ihre Kontextähnlichkeit gespeichert und gewichtet werden, lassen sich künftig Suchergebnisse gezielter anpassen und verbessern.
Das System kann quasi von der kollektiven Intelligenz der Nutzer profitieren. Abschließend bleibt festzuhalten, dass die bisherige Ausrichtung der RAG-Community auf menschliche Label oder Modell-basierte Bewertungen zwar wichtig ist, aber ohne die Einbindung echter Nutzerinteraktionen ein großes blindes Feld in der Optimierung bestehen bleibt. Die Erfassung, Aggregation und intelligente Auswertung von Engagement-Daten besitzen ein enormes Potenzial, um RAG-Systeme relevanter, vertrauenswürdiger und nutzerfreundlicher zu machen. Gerade für kommerzielle Anwendungen und stark individualisierte Suchkontexte stellt dies einen entscheidenden Wettbewerbsvorteil dar. Der Weg dahin ist technisch anspruchsvoll und erfordert eine genaue Berücksichtigung von Bias, Unsicherheit und semantischer Nähe, doch die Belohnung sind deutlich verbesserte Erlebnisse für alle Nutzer.
In einer Zeit, in der KI und Suchtechnologien immer stärker verschmelzen, darf die Wichtigkeit der Nutzerperspektive nicht unterschätzt werden. Das Verständnis echter Präferenzen jenseits rein objektiver Fakten ist das fehlende Puzzleteil, das RAG aus einer vielversprechenden Idee in einen praxisrelevanten Standard heben kann.