Im Zeitalter der Künstlichen Intelligenz und insbesondere der groß angelegten Sprachmodelle (LLMs) gewinnt die Qualität von maschinellen Übersetzungen zunehmend an Bedeutung. Für Entwickler und Forscher ist es unerlässlich, robuste Bewertungssysteme zu haben, die nicht nur die Leistung der Modelle akkurat widerspiegeln, sondern auch kosteneffizient und skalierbar sind. Hier setzt Nuenki an und beleuchtet ein zentrales Problem: Warum der weit verbreitete Ansatz der paarweisen Evaluation für sie nicht geeignet ist und welche Alternativen sie entwickelt haben, um qualitativ hochwertige Bewertungsergebnisse mit vertretbarem Ressourceneinsatz zu erzielen. Die grundsätzliche Idee hinter paarweisen Bewertungen ist simpel und wissenschaftlich elegant. Modelle werden paarweise miteinander verglichen; für jede Übersetzung wird festgehalten, welches Ergebnis besser abschneidet.
Anschließend kann man mit Modellen wie dem Bradley-Terry-Modell (einem statistischen Verfahren zur Bewertung von Präferenzdaten) versuchen, eine objektive Rangfolge der Modelle zu bestimmen. Dieses Verfahren bietet theoretisch klare Vorteile, da es Verzerrungen durch einzelne Bewertungsskalen minimiert und sich an objektivierten Wahrscheinlichkeiten orientiert. Trotzdem stößt dieses Verfahren in der Praxis auf erhebliche Hindernisse. Die Kosten für das Durchführen einer ausreichenden Anzahl an paarweisen Vergleichen sind immens. Größere Datensätze benötigen eine enorme Menge an Vergleichen, um Messergebnisse mit statistisch signifikanten P-Werten zu erhalten, welche verlässliche Schlüsse erlauben.
Bei Nuenki führte ein Versuch, mit einem Budget von 100 US-Dollar ein ausreichend großes Datenset zu evaluieren, dazu, dass trotz dieses Aufwandes kein verlässliches Signal aus den Daten gezogen werden konnte. Die Ausgaben stiegen exponentiell, irreale Budgets wären nötig gewesen, um weitergehende Verbesserungen zu erzielen. Zudem zeigte sich, dass die Rendite dieser Investitionen stark abnimmt – nach einer gewissen Menge an Paarvergleichen sind weitere Daten kaum noch hilfreich. Dieses Kostenproblem bringt ein Dilemma mit sich: Wissenschaftlich betrachtet ist die paarweise Evaluation unter Umständen die präziseste Methode, um Übersetzungsqualität zu messen. Praktisch jedoch sind die Ressourcenanforderungen oft so hoch, dass sie die Machbarkeit einschränken oder gar verhindern.
Für Unternehmen und Projekte mit begrenztem Budget ist diese Methode daher wenig zielführend. Aus diesem Grund entwickelte Nuenki einen hybriden Ansatz, der versucht, das Beste aus beiden Welten zu verbinden. Die neue Methode basiert darauf, einzelne Übersetzungen von etwa 160 Sätzen durch verschiedene Modelle generieren zu lassen. Diese Übersetzungen werden dann von sechs unterschiedlichen Bewertungssystemen analysiert – die sogenanntes automatische Translation Evaluation Tools darstellen. Diese Tools bewerten Übersetzungen anhand verschiedener Qualitätsmerkmale und geben stabile Scores auf einer Skala von 0 bis 100.
Die Bewertungen werden anschließend statistisch ausgewertet, um verlässliche Erkenntnisse zu gewinnen. Die Besonderheit dieser Methode liegt darin, dass zwar weiterhin mehrere Bewertungen einfließen, jedoch nur eine zentrale Metrik für das finale Ergebnis verwendet wird, anstatt mehrere gleichzeitig zu berücksichtigen. Außerdem werden die Bewertungen zwar nicht vollständig blind durchgeführt – die bewertenden Systeme sehen alle Übersetzungen auf einmal – dies trägt jedoch zur Effizienz bei und beeinflusst die Ergebnisse kaum negativ, solange die Reihenfolge der Sätze randomisiert wird und Übersetzungen bei Duplikaten zusammengefasst werden. Solche Kontrollmechanismen gewährleisten ein hohes Maß an Objektivität und vermeiden systematische Verzerrungen. Ein weiterer großer Vorteil dieses Systems ist die drastisch reduzierte finanzielle Belastung.
Die Tests mit der neuen Methode sind bereits mit etwa sechs US-Dollar durchführbar – ein Bruchteil der Kosten für ausführliche paarweise Bewertungen. Trotz der Einsparungen liefert die Methode noch zuverlässige statistische Werte inklusive P-Werten, die belastbare Interpretationen möglich machen. Auch wenn die Garantie für perfekte objektive Einordnung einzelner Übersetzungen damit nicht gegeben ist, stellt dieses Vorgehen für Nuenki einen praktikablen Kompromiss dar. Es ermöglicht eine kontinuierliche Verbesserung der Übersetzungsmodelle, ohne das Budget zu sprengen oder auf aufwendige manuelle Bewertungen angewiesen zu sein. Damit erhält das Unternehmen eine solide Grundlage zur Optimierung seiner Systeme und zur Entwicklung von Sprachlerntools, die auf den Erkenntnissen basieren.
Das Beispiel von Nuenki illustriert ein großes Problem in der Bewertung von KI-Sprachübersetzungen: Das Spannungsfeld zwischen Anspruch und Realität. Wissenschaftlich anspruchsvolle Evaluationsmethoden können teuer und zeitintensiv sein, während praktikable Lösungen oft Abstriche bei theoretischer Genauigkeit verlangen. Die Herausforderung besteht darin, diese Abstriche so gering wie möglich zu halten und gleichzeitig praktikable und nachvollziehbare Ergebnisse zu erzielen. Darüber hinaus betont Nuenkis Fall auch, wie wichtig es ist, ein tiefes Verständnis der verwendeten Bewertungsmethoden und deren Limitationen zu entwickeln. Die Wahl des richtigen Systems beeinflusst maßgeblich die Geschwindigkeit, mit der Übersetzungen verbessert und letztlich auch der Anwendermehrwert gesteigert werden kann.
Nicht alle wissenschaftlich anspruchsvollen Methoden sind in jedem Anwendungsfall sinnvoll einsetzbar, gerade wenn Ressourcen knapp sind. Abschließend lässt sich sagen, dass Innovationen und Kompromisse in der Experimentierpraxis sowohl für die Qualitätssicherung als auch für die Skalierbarkeit von KI-Übersetzungen essenziell sind. Nuenkis Entscheidung, von der paarweisen Evaluation abzurücken und stattdessen einen kombinierten Bewertungsansatz zu wählen, unterstreicht die Bedeutung pragmatischer Lösungen in einem komplexen Forschungs- und Entwicklungsumfeld. Für die Zukunft ist zu erwarten, dass solche hybriden Systeme weiter verfeinert werden und dazu beitragen, dass maschinelle Übersetzungen zuverlässiger, schneller und kostengünstiger verbessert werden können – zum Nutzen aller Nutzer, die auf schnelle, präzise und verständliche Übersetzungen angewiesen sind.