Sarvam-M ist ein bahnbrechendes hybrides Sprachmodell mit 24 Milliarden Parametern, das auf dem Open-Weights-Modell Mistral Small aufbaut. Entwickelt mit dem Ziel, die Herausforderungen der Indischen Sprachen und komplexer Aufgaben wie Mathematik und Programmierung zu meistern, positioniert sich Sarvam-M als Meilenstein in der KI-Entwicklung für den indischen Subkontinent. Durch einen sorgfältigen Prozess von Supervised Fine-Tuning (SFT), Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) und ausgefeilter Inferenzoptimierung liefert das Modell beeindruckende Leistungssteigerungen, insbesondere in der Verarbeitung von indigenen Sprachen und komplexen Denkaufgaben.Der Startpunkt Sarvam-M entwickelte sich aus dem Mistral Small-Modell, einem bereits leistungsfähigen 24 Milliarden Parameter großen LLM, das unter der Apache 2.0 Lizenz frei verfügbar ist.
Obwohl Mistral Small eine solide Grundlage bietet, zeigte es vor allem bei Indischen Sprachen, speziell Hindi, Schwächen wie mangelndes Verständnis grundlegender Zahlen und arithmetischer Operationen. Dies war der Auslöser für gezielte Verbesserungen, um diese Lücke zu schließen und das Modell für die vielfältigen sprachlichen und kulturellen Anforderungen Indiens fit zu machen.Das Feintuning von Sarvam-M basiert auf einer umfangreichen und sorgfältig kuratierten Datensammlung aus über 11 Millionen verschiedenen Prompts, welche durch intelligente Algorithmen wie Min-Hash und Fuzzy-Deduplikation auf 7 Millionen reduziert wurden. Die Prompts wurden kategorisiert, unter anderem in Bereiche wie Codierung, mathematisches Denken und kreative Texte. Es zeigte sich, dass manche Datensätze politisch voreingenommen oder kulturell ungeeignet waren, weshalb es notwendig wurde, die Daten manuell und algorithmisch auf Qualität und Vielfalt zu optimieren.
Ein besonderes Augenmerk galt der Unterstützung von zehn Haupt-Indischen Sprachen, inklusive Hindi, Bengali, Marathi und Tamil, welche mehr als 70 Prozent der indischen Bevölkerung abdecken. Um der sprachlichen Realität gerecht zu werden, wurden zudem verschiedene Ausdrucksformen unterstützt wie native Schriften, Romanisierung und code-mixing (Kombination von Englisch mit Indischen Sprachen).Der Feintuning-Prozess von Sarvam-M beinhaltet zwei spezialisierte Trainingsmodi — den 'Think'- und den 'Non-Think'-Modus. Der 'Think'-Modus ermöglicht es dem Modell, innerhalb spezieller Tags eine Zwischenschicht von überlegtem Text in Englisch zu erzeugen, bevor die finale Antwort in der gewünschten Sprache folgt. Dieser mehrstufige Denkansatz steigert die Genauigkeit bei komplizierten Anfragen, insbesondere bei mathematischen und programmatischen Aufgaben.
Interessanterweise zeigte sich, dass ein zweiphasiges Verfahren mit zunächst zwei Epochen im Non-Think-Modus gefolgt von zwei Epochen im Think-Modus die besten Resultate liefert. Diese Erkenntnis widerspricht einigen vorangegangenen Literaturberichten und verdeutlicht, wie spezifisch die Herausforderungen in der Verarbeitung Indischer Sprachen sind.Beim Reinforcement Learning mit verifizierbaren Belohnungen, bekannt als RLVR, setzt Sarvam-M auf eine ausgeklügelte Methodik, bei der Aufgaben in einem lernfördernden Curriculum angeordnet sind. Dieses Curriculum kombiniert mathematische Herausforderungen wie GSM8K, Code-Generierung, Übersetzungen und mehr, wobei der Trainingsprozess die Balance sicherstellt, dass sowohl einfache als auch schwierige Beispiele angemessen gewichtet sind. Eine innovative Komponente ist dabei die Verwendung von Gruppierungsansätzen via Group Relative Policy Optimization (GRPO), die effizienter und weniger ressourcenintensiv als herkömmliche Methoden wie PPO funktioniert und so schnelle Fortschritte erlaubt.
Besondere Aufmerksamkeit verdient die Belohnungsfunktion, welche bei Programmieraufgaben nicht nur binäre Erfolgswerte, sondern auch graduelle Teilbelohnungen einsetzt. Dies führt zu einer verbesserten Lernkurve bei komplexen Codesnippets. Auch die Übersetzungsgenauigkeit verbessert sich deutlich, dank einer raffinierten relativen Bewertung der Resultate, basierend auf dem chrF++-Score. Das Modell zeigt somit bemerkenswerte Fähigkeiten, auf sprachlich anspruchsvolle Aufgaben situationsgerecht einzugehen und präzise Antworten zu generieren.In den umfassenden Benchmarks meistert Sarvam-M eine breite Palette von Aufgaben.
Besonders beeindruckend sind die Verbesserungen bei indianischen Sprachbenchmarks, wo das Modell enorme Zuwächse gegenüber der Ausgangsbasis verzeichnet – teilweise mit Steigerungen von über 20 Prozentpunkten. Auch mathematische und programmiertechnische Prüfungen liegen in der Spitzengruppe, während größere Wettbewerber wie Llama 4 Scout und Llama 3.3 70B im gleichen Leistungsbereich gehalten oder übertroffen werden. Einziger leichter Schwachpunkt sind englischsprachige Wissensabfragen, in denen Sarvam-M minimal hinter den Ausgangsmodellen zurückfällt, was aber durch die Integration eines externen Wissensdatenbank-Lookups teilweise kompensiert wird.Die Optimierung der Inferenzleistung ist ein weiterer zentraler Baustein für den praktischen Einsatz des Modells.
Sarvam-M wird erfolgreich via Post-Training-Quantisierung auf FP8-Format komprimiert, ohne nennenswerte Einbußen bei der Genauigkeit. Dies erlaubt die deutlich schnellere und ressourcenschonendere Ausführung auf modernen GPUs wie der Nvidia H100. Darüber hinaus wurde Lookahead-Decoding implementiert, welches die Erzeugung von Antworttokens signifikant beschleunigt, allerdings mit gewissen Einschränkungen bei hoher Konkurrenz an gleichzeitigen Anfragen. Zwei optimale Bereitstellungskonfigurationen wurden etabliert, die entweder auf hohe Parallelität oder maximale Antwortgeschwindigkeit ausgelegt sind und so flexibel unterschiedlichen Nutzeranforderungen gerecht werden.Die Integration eines externen Wikipedia-basierten Wissensgrundlagen-Systems hebt die Fähigkeiten von Sarvam-M auf ein neues Level.
Das Modell entscheidet eigenständig, wann ein Wissenslookup sinnvoll ist, und erzeugt passende Suchanfragen. Dadurch verbessert sich die faktische Genauigkeit signifikant, was anhand des SimpleQA-Benchmarks eindrucksvoll demonstriert wird – in einigen Fällen verdreifacht sich die korrekte Antwortquote. Dies ist maßgeblich für Anwendungen, bei denen stets aktuelle oder spezifische Fakten erwartet werden, die außerhalb des Trainingsdatensatzes liegen.Trotz der Erfolge wurden auch Lernschritte aus weniger erfolgreichen Experimenten gezogen. Beispielsweise stellte sich heraus, dass die Erweiterung des Tokenizers mit Indischen Sprachtokens ohne Vortrainingsphase zu Leistungsabfällen führt.
Ebenso erwies sich der Versuch, das Vokabular eines Lehrermodells transplantierend zu übernehmen, als aufwendig und ohne klare Vorteile gegenüber einfachem Finetuning. Darüber hinaus zeigte sich, dass Belohnungen, die auf nicht-deterministischen LLM-basierten Bewertungen beruhen, zu instabilen Lernergebnissen bei Programmieraufgaben führen.Zusammenfassend ist Sarvam-M ein aussichtsreiches Modell, das speziell auf die vielfältigen und komplexen Anforderungen indianischer Sprachen und anspruchsvoller Denkaufgaben zugeschnitten ist. Die Kombination aus hybriden Trainingsmodi, effizienten RL-Techniken und ausgefeilter Inferenzoptimierung bringt einen Quantensprung hinsichtlich Qualität und Geschwindigkeit. Darüber hinaus unterstreicht das Projekt das Potenzial eines souveränen KI-Ökosystems in Indien, das kulturelle Eigenheiten berücksichtigt und künftig weitere Innovationen in der KI-Forschung vorantreibt.
Die kontinuierliche Veröffentlichung von Modellen und Benchmarks fördert zudem die offene Zusammenarbeit und den Fortschritt auf diesem zukunftsweisenden Gebiet.