In der Welt der Künstlichen Intelligenz (KI) und insbesondere bei Sprachmodellen hat sich das Verständnis von „klein“ in den letzten Jahren deutlich gewandelt. Wo man früher von Modellen mit wenigen Millionen Parametern sprach, die auf einfachen Geräten wie einem Raspberry Pi oder einem Smartphone liefen, gelten heute Modelle mit mehreren zehn Milliarden Parametern als „klein“, sofern sie nur eine einzige GPU zur Ausführung benötigen. Dieser Wandel zeigt eine spannende Entwicklung sowohl in der Technologie als auch in den Anforderungen an KI-Anwendungen. Ursprünglich waren kleine Modelle tatsächlich klein. In den frühen Tagen des maschinellen Lernens galten einfache Entscheidungsbäume oder kleine neuronale Netze, die auf Laptops ohne dedizierte Grafikprozessoren liefen, als angemessen.
Diese Modelle waren oft speziell und mit klar eingegrenzten Aufgaben betraut. Beispielweise nutzte man Bibliotheken wie scikit-learn, um relativ einfache Klassifikationen und Regressionen durchzuführen. Doch mit dem Aufkommen der Transformer-Architektur und der großen Sprachmodelle (Large Language Models, LLMs) wurde die Landschaft deutlich komplexer und leistungsfähiger. Mit großen Sprachmodellen wie GPT-3 oder ähnlichen Systemen stiegen die Parameterzahlen explosionsartig an, was neue Hardwareanforderungen mit sich brachte. Große Modelle benötigten massive Rechencluster mit vielen High-End-GPUs, die für viele Unternehmen und Entwickler unerschwinglich waren.
Infolgedessen hat sich die Definition von „klein“ mehr an den praktischen Einsatzmöglichkeiten und der Verfügbarkeit der Hardware orientiert, anstatt nur an der Zahl der Parameter. So gelten heute Modelle mit 30 Milliarden, oder sogar 70 Milliarden Parametern als klein, wenn sie auf nur einem einzigen Grafikprozessor ausgeführt werden können, insbesondere mit cleverem Quantisierungs- und Komprimierungstricks. Diese Entwicklung hat zur Entstehung zweier Hauptkategorien kleiner Sprachmodelle geführt. Auf der einen Seite stehen sogenannte Edge-optimierte Modelle. Diese sind so konzipiert, dass sie auf mobilen Endgeräten oder Edge-Hardware betrieben werden können.
Sie zeichnen sich durch schnelle Ausführung, effizienten Speicherverbrauch und die Fähigkeit aus, auch offline zu funktionieren. Beispiele hierfür sind Modelle wie Phi-3-mini mit 3,8 Milliarden Parametern, Gemma mit 2 Milliarden Parametern oder TinyLlama mit 1,1 Milliarden. Diese Modelle finden Anwendung bei Sprachassistenten, mobilen Übersetzungen, bot-gesteuerten Chat-Systemen und Offline-Textzusammenfassungen. Gerade in Bereichen, in denen die Rechenleistung eingeschränkt ist oder Datenschutz eine wichtige Rolle spielt, sind diese kleinen Modelle Gold wert. Auf der anderen Seite gibt es die sogenannten GPU-freundlichen Modelle.
Während diese immer noch eine GPU benötigen, ist es damit möglich, große Modelle mit 30 oder sogar 70 Milliarden Parametern auf nur einer einzigen Karte zu betreiben, ohne dass dafür ein ganzes Rechenzentrum notwendig ist. Beispiele hierfür sind quantisierte Varianten von Meta Llama 3 mit 70 Milliarden Parametern oder MPT-30B. Solche Modelle eignen sich hervorragend für unternehmensinterne Anwendungen wie Retrieval-Augmented Generation (RAG)-Pipelines, Chatbot-Endpunkte, Textzusammenfassungen oder auch Codeassistenten. Die Tatsache, dass 70 Milliarden-Parameter-Modelle mittlerweile auf einer einzelnen Consumer-GPU realistisch und mit akzeptabler Geschwindigkeit betrieben werden können, hätte vor wenigen Jahren noch als Science-Fiction gegolten. Neben dieser Kategorisierung ist die Spezialisierung ein wesentlicher Vorteil kleiner Sprachmodelle, der oft übersehen wird.
Große, allgemeine Modelle wie GPT-4 oder Claude versuchen, universelle Fähigkeiten in verschiedensten Domänen abzudecken – also eine Art „Alleskönner“ zu werden. Kleine Modelle hingegen sind häufig schmaler und fokussierter. Sie übernehmen gezielt eng definierte Aufgabenbereiche und verzichten somit auf das Mittragen von unnötigen Parametern für Funktionen, die sie gar nicht benötigen. Dadurch bleiben sie schlank und sind gleichzeitig oft in ihrem Fachgebiet besser als große, allgemeine Modelle. Ein spezialisiertes Modell im juristischen Bereich wird etwa konkretere und akkuratere Ergebnisse liefern als ein breit aufgestelltes System, wenn es um juristische Dokumente geht.
Diese Spezialisierung bringt zudem Vorteile bei der Feinabstimmung und dem Training der Modelle mit sich. Kleine Modelle benötigen weniger Trainingsdaten und kürzere Trainingszeiten, was besonders für Unternehmen interessant ist, die schnell Iterationen durchführen und Modelle an spezifische Anforderungen anpassen möchten. Typische Anwendungsfälle umfassen das Zusammenfassen medizinischer Dokumente, das Erkennen von Sicherheitslücken in Quelltexten oder das Parsen und Verarbeiten von Rechnungen. Hier sind Generalisten oft unnötig oder sogar kontraproduktiv. Auch wenn es zunächst paradox klingt, gelten selbst Modelle mit mehr als 30 Milliarden Parametern inzwischen als klein, sofern sie pragmatisch in der Anwendung sind.
Durch intelligente Quantisierungstechniken lassen sich beispielsweise Modelle, die im Standard-FP16-Format noch ca. 140 Gigabyte Speicherplatz benötigen, auf weniger als 25 Gigabyte schrumpfen. Dies erlaubt es, auch mit einer 24GB-Grafikkarte wie der NVIDIA RTX 4090 komfortabel zu arbeiten. Die Durchsatzrate von etwa 60 Token pro Sekunde ist dabei für viele produktive Anwendungen ausreichend und macht den Einsatz solcher Modelle auch im kommerziellen Umfeld attraktiv. Das Kriterium für „Kleinheit“ hat sich damit klar von der reinen Größe des Modells und der Anzahl der Parameter zu einer Frage der Nutzbarkeit und Skalierbarkeit verschoben.
Kleine Modelle zeichnen sich heute vor allem dadurch aus, dass sie ohne verteiltes Rechnen auskommen, dass sie auf einer einzigen GPU laufen können und dass ihre Anpassung nicht die enorme Infrastruktur großer Forschungslabors erfordert. Diese pragmatische Herangehensweise macht kleine Modelle für eine breite Anwenderschaft zugänglich und eröffnet neue Möglichkeiten in verschiedensten Branchen. Trotz der Faszination für neue, große Modelle sind kleine, etablierte Modelle nach wie vor unverzichtbar und oft die heimlichen Helden der KI-Anwendungen. Dienste wie Google Translate profitieren unglaubliche Jahre bereits von Modellen, die mit vergleichsweise bescheidenen 160 Millionen Parametern arbeiten und dennoch Milliarden von Wörtern täglich übersetzen. Seit 2016 setzt Google auf ein neuronales Maschinenübersetzungssystem (GNMT), das auf einer Encoder-Decoder-Architektur basiert und sowohl LSTM-Schichten als auch Aufmerksamkeitsmechanismen einsetzt.
Dieses System hat die Übersetzungsqualität revolutioniert, ohne auf gigantische Datenmengen und enorme Rechenkapazitäten angewiesen zu sein. Auch Anbieter wie AWS mit Textract zeigen eindrucksvoll, wie spezialisierte Modelle in der Praxis Milliarden von Dokumenten verarbeiten, extrahieren und analysieren – von Rechnungen über medizinische Berichte bis hin zu sonstigen gescannten Texten. Diese Lösungen zeigen den klaren Mehrwert, der durch spezialisierte kleine Modelle entsteht, die effizient, sicher und skalierbar sind. Für Start-ups und KMU bedeutet die Entwicklung kleiner, effektiver Sprachmodelle eine Demokratisierung von KI-Technologie. Die hohen Kosten für Infrastruktur können drastisch reduziert werden, wodurch innovative Anwendungen auch mit begrenztem Budget realisiert werden können.
Gleichzeitig erhöht sich die Möglichkeit, lokale oder datenschutzorientierte Anwendungen zu erstellen, die ganz ohne Cloud-Anbindung auskommen. Für große Unternehmen wiederum eröffnen kleine Modelle die Möglichkeit, gezielt auf bestimmte Anwendungsfälle zu fokussieren und Modelle schnell und kostengünstig zu trainieren, ohne den Aufwand und die Komplexität großer LLMs. Die Wettbewerbsfähigkeit kleiner Modelle nimmt stetig zu. Wenn ein kleines, gut optimiertes Modell in Benchmarks mit einem GPT-3.5 mithalten kann, ist dies ein Zeichen dafür, dass die Ära der „immer größeren Modelle“ nicht zwangsläufig der einzige Weg zum Erfolg ist.