Im digitalen Zeitalter gewinnt die Entwicklung künstlicher Intelligenz immer mehr an Bedeutung, insbesondere im Bereich der großen Sprachmodelle (Large Language Models – LLMs). DeepSeek v3, ein bahnbrechendes LLM aus China, hat Ende 2024 für großes Aufsehen gesorgt. Trotz der weltweit dominierenden Position von Unternehmen im Silicon Valley zeigt DeepSeek v3, dass technische Innovationen und intelligente Engineering-Lösungen ohne enorme finanzielle Ressourcen möglich sind. Dieses Modell stellt nicht nur die Leistungsfähigkeit geschlossener Systeme wie GPT-4o und Claude 3.5 Sonnet in den Schatten, sondern stellt auch die bisherigen Annahmen zum Aufwand und zur Entwicklungspraxis solcher Systeme grundlegend in Frage.
Die Grundlage von DeepSeek v3 bildet ein Modell mit 671 Milliarden Parametern, trainiert auf einer enormen Datenmenge von 13,8 Billionen Token. Token sind die Grundeinheiten, die Modelle verstehen und verarbeiten – sie entsprechen häufig Silben, Wörtern oder Wortteilen. Das Training einer solch gewaltigen Menge an Daten verlangt immense Rechenressourcen und deshalb sind technische Innovationen bei Architektur und Training besonders wichtig, um Kosten und Dauer drastisch zu reduzieren. Eine der wichtigsten Innovationen von DeepSeek v3 ist die sogenannte Multi-Head Latent Attention (MLA). Traditionelle Transformer-Architekturen beruhen auf einer sogenannten Key-Value (KV) Cache-Infrastruktur, die für die Aufmerksamkeit auf bisherige Token sorgt.
Dieser Cache speichert Schlüssel- und Wert-Vektoren zur Wiederverwendung in Folgeoperationen und erleichtert somit die Token-Generierung. Allerdings ist der Speicherbedarf für den KV-Cache hoch und wächst linear mit der Tokenanzahl. Herkömmliche Ansätze wie Grouped-Query Attention oder Multi-Query Attention haben versucht, diese Belastung zu verringern, sind jedoch mit Performance-Abstrichen verbunden. MLA geht einen anderen Weg: Die Schlüssel- und Wert-Vektoren werden in einem niederdimensionalen latenten Raum komprimiert und als sogenannte latente Vektoren zwischengespeichert. Beim Vorwärtsdurchlauf werden diese latenten Vektoren in den Cache geschrieben.
Beim Generieren neuer Ausgabetoken nutzt das Modell nicht die vollständigen, originalen Schlüssel- und Wert-Vektoren, sondern arbeitet direkt mit den latenten Vektoren. Diese bewusste Abkehr von der exakten Rekonstruktion spart Speicherplatz und Rechenzeit, indem Operationen verschmolzen und mehrfacher Rechenaufwand vermieden werden. Diese Methode erlaubt es, ohne Leistungsverlust die Skalierung und Geschwindigkeit erheblich zu verbessern. So gleicht MLA das Problem wachsender Speicherkosten elegant aus. Eine weitere entscheidende Komponente von DeepSeek v3 ist das Mixture of Experts (MoE) Prinzip.
Im Modell befinden sich insgesamt 256 Experten-Module. Diese Experten sind spezialisierte Teile des Modells, die exklusiv und dynamisch für bestimmte Eingaben aktiviert werden. Allerdings werden während der Verarbeitung nur acht Experten gleichzeitig aktiv geschaltet. Dieses spezialisierte Routing hat den Vorteil, dass trotz der enormen Gesamtparameterzahl von 671 Milliarden nur rund 32 Milliarden Parameter tatsächlich genutzt werden. Dies reduziert den Rechenaufwand und die Speicherbelastung drastisch, ohne dabei die Leistungsfähigkeit einzuschränken.
Eine Herausforderung bei MoE-Systemen ist das sogenannte „Routing Collapse“, bei dem das Modell dazu neigt, immer nur eine kleine Teilmenge an Experten zu verwenden, was eine Überlastung und Unterauslastung anderer Experten zur Folge hat. Die Entwickler von DeepSeek haben hierfür spezielle Optimierungen bei der Zuweisung der Experten vorgenommen, wodurch die Balance gewahrt und die Effizienz gesteigert wird. Dies führt zu einer schnelleren Trainingszeit und geringeren Laufzeitkosten beim Einsatz. Neben dieser besonderen Architektur verfolgt DeepSeek v3 einen neuartigen Trainingsansatz namens Multi-Token Prediction (MTP). Herkömmliche LLMs lernen meist nur vorherzusagen, welches Token als nächstes folgt.
DeepSeek erweitert diesen Ansatz und trainiert gleichzeitig darauf, mehrere zukünftige Tokens vorherzusagen – im konkreten Fall zwei Tokens. Hierfür sind sogenannte „Prediction Modules“ eingebaut, die sequentiell miteinander verknüpft sind. Während dieser aufwendigere Trainingsansatz nur während des Trainings genutzt wird, verbessert er das Modell signifikant darin, längerfristige Zusammenhänge im Text zu verstehen und einen besseren Kontextaufbau zu erlernen. Die zusätzlichen Komponenten werden beim Inferenzbetrieb wieder entfernt, um Ressourcen zu sparen. Die Effizienz der Trainingsphase wird zudem durch die Verwendung von FP8-Mixed-Precision Training erheblich gesteigert.
Während herkömmliche Trainings oft auf 32-Bit Fließkommazahlen (FP32) setzen, nutzt DeepSeek eine Teilgenauigkeit mit nur 8 Bit (FP8). Dadurch werden Speicherbedarf und Rechenzeit reduziert. Da dies aber oft mit Einbußen bei der Modellgenauigkeit verbunden ist, wendet DeepSeek gezielte Strategien an: Einige kritische Module, etwa Embeddings oder das Ausgabemodul, werden weiterhin in höherer Präzision trainiert, während kleinere Rechenoperationen fein granular quantisiert und mit verbessertem Akkumulationstrick ausgeführt werden. So bleibt die Modellleistung erhalten, obwohl deutlich weniger Rechenressourcen benötigt werden. Ein großes Problem beim Training riesiger Modelle mit Mixture of Experts besteht in der Kommunikation zwischen den Rechenknoten, die durch den Datenaustauch erhebliche Verzögerungen verursachen kann.
Für dieses Problem hat das DeepSeek-Team eine eigene Lösung namens DualPipe entwickelt. DualPipe stellt eine Weiterentwicklung des Pipeline-Pipeline-Parallelismus dar und zielt darauf ab, aufwändige Kommunikation und Berechnungen besser zu überlappen und so Wartezeiten im Trainingsprozess zu eliminieren. Es teilt den Vorwärts- und Rückwärtsdurchlauf in kleinere Schritte und ordnet sie neu an, sodass sich Datenübertragung und Rechenarbeit überlappen. Durch diese Methode werden sogenannte Pipeline-Bubbles (Leerlaufzeiten) verringert, was den Trainingsprozess beschleunigt und auch bei größeren Modellen mit wachsender Expertenzahl skalierbar bleibt. Die Kombination all dieser technischen und algorithmischen Innovationen hat es DeepSeek erlaubt, in einer vergleichsweise kurzen Zeit und mit verhältnismäßig wenig Hardware ein Modell auf Spitzenniveau zu trainieren.
Hierfür wurden 2.048 NVIDIA H800 GPUs über 57 Tage eingesetzt, was insgesamt etwa 2,8 Millionen GPU-Stunden entspricht. Im Vergleich dazu benötigte Meta für ihr Llama 3.1 mit weniger Parametern über elfmal so viel Rechenzeit. Noch beeindruckender ist der Preis: DeepSeek gibt die Trainingskosten mit etwa 5,6 Millionen US-Dollar an, während Meta angeblich über 100 Millionen US-Dollar für Llama 3 ausgab.
Dies ist zum Teil auf den Einsatz der günstigeren H800 GPUs zurückzuführen, die speziell für den chinesischen Markt entwickelt wurden und gemäß amerikanischer Exportbestimmungen in begrenzter Leistungsfähigkeit verfügbar sind. Diese ökonomischen und technischen Fortschritte haben einen nachhaltigen Einfluss auf die Welt der KI-Entwicklung. DeepSeek zeigt, dass Innovation und systematisches Engineering oft wichtiger sind als pure Rechenkraft oder enorme finanzielle Ressourcen. Dies könnte den Eintritt neuer Spieler in den KI-Markt erleichtern und dazu beitragen, dass Forschung und Entwicklungen globaler und diversifizierter erfolgen. Es entsteht eine Dynamik, in der immer mehr Organisationen und Institute mit beschränkten Mitteln wettbewerbsfähige KI-Systeme bauen können.
Dies könnte zu einer raschen Verstärkung von algorithmischen Innovationen führen, um klassische Skalierungsgesetze von KI-Modellen zu durchbrechen. Die Vorherrschaft großer westlicher Firmen wird dadurch herausgefordert, denn die vermeintlich unüberwindlichen Moats bezüglich Hardware und Trainingskostenvorteilen werden durch clevere Ansätze zunehmend durchlässiger. Weiterhin wird die Entwicklung von Frontier-Modellen – also von Modellen an der Spitze des technisch Möglichen – deutlich beschleunigt, denn die in DeepSeek v3 vorgestellten Methoden sind mittlerweile öffentlich zugänglich und können von weltweit tätigen Teams adaptiert werden. Der Bogen spannt sich so von einem rein technologischen Triumph zu einem geopolitischen Gamechanger, der auch Fragen zur technologischen Souveränität und globalen Innovationskraft aufwirft. Zusammenfassend steht DeepSeek v3 für eine neue Generation von LLMs, die durch intelligente Architektur, optimiertes Training und Hardwareverständnis enorme Effizienz- und Leistungsgewinne erzielen.
Diese Entwicklung verändert die Annahmen über notwendige Ressourcen und eröffnet neue Wege für die KI-Forschung weltweit. Der Fokus verschiebt sich damit weg von alleiniger Hardwarekraft hin zu innovativen Softwarelösungen und intelligenter Systemgestaltung. Der Einfluss auf das zukünftige KI-Ökosystem wird umfassend sein und sowohl technologische als auch wirtschaftliche sowie geopolitische Fragestellungen prägen.