Digitale NFT-Kunst

DeepSeek v3: Revolutionäre Fortschritte bei großen Sprachmodellen aus China

Digitale NFT-Kunst
Understanding how DeepSeek v3 works

DeepSeek v3 markiert einen Meilenstein in der Entwicklung großer Sprachmodelle (LLMs) durch innovative technische Lösungsansätze, die Effizienz und Leistung drastisch verbessern. Die Neuerungen bei Architektur, Trainingsmethoden und Hardwareeinsatz fördern nicht nur die Wettbewerbsfähigkeit außerhalb westlicher Technologiemetropolen, sondern verändern auch grundlegend die ökonomischen Rahmenbedingungen der KI-Entwicklung.

Im digitalen Zeitalter gewinnt die Entwicklung künstlicher Intelligenz immer mehr an Bedeutung, insbesondere im Bereich der großen Sprachmodelle (Large Language Models – LLMs). DeepSeek v3, ein bahnbrechendes LLM aus China, hat Ende 2024 für großes Aufsehen gesorgt. Trotz der weltweit dominierenden Position von Unternehmen im Silicon Valley zeigt DeepSeek v3, dass technische Innovationen und intelligente Engineering-Lösungen ohne enorme finanzielle Ressourcen möglich sind. Dieses Modell stellt nicht nur die Leistungsfähigkeit geschlossener Systeme wie GPT-4o und Claude 3.5 Sonnet in den Schatten, sondern stellt auch die bisherigen Annahmen zum Aufwand und zur Entwicklungspraxis solcher Systeme grundlegend in Frage.

Die Grundlage von DeepSeek v3 bildet ein Modell mit 671 Milliarden Parametern, trainiert auf einer enormen Datenmenge von 13,8 Billionen Token. Token sind die Grundeinheiten, die Modelle verstehen und verarbeiten – sie entsprechen häufig Silben, Wörtern oder Wortteilen. Das Training einer solch gewaltigen Menge an Daten verlangt immense Rechenressourcen und deshalb sind technische Innovationen bei Architektur und Training besonders wichtig, um Kosten und Dauer drastisch zu reduzieren. Eine der wichtigsten Innovationen von DeepSeek v3 ist die sogenannte Multi-Head Latent Attention (MLA). Traditionelle Transformer-Architekturen beruhen auf einer sogenannten Key-Value (KV) Cache-Infrastruktur, die für die Aufmerksamkeit auf bisherige Token sorgt.

Dieser Cache speichert Schlüssel- und Wert-Vektoren zur Wiederverwendung in Folgeoperationen und erleichtert somit die Token-Generierung. Allerdings ist der Speicherbedarf für den KV-Cache hoch und wächst linear mit der Tokenanzahl. Herkömmliche Ansätze wie Grouped-Query Attention oder Multi-Query Attention haben versucht, diese Belastung zu verringern, sind jedoch mit Performance-Abstrichen verbunden. MLA geht einen anderen Weg: Die Schlüssel- und Wert-Vektoren werden in einem niederdimensionalen latenten Raum komprimiert und als sogenannte latente Vektoren zwischengespeichert. Beim Vorwärtsdurchlauf werden diese latenten Vektoren in den Cache geschrieben.

Beim Generieren neuer Ausgabetoken nutzt das Modell nicht die vollständigen, originalen Schlüssel- und Wert-Vektoren, sondern arbeitet direkt mit den latenten Vektoren. Diese bewusste Abkehr von der exakten Rekonstruktion spart Speicherplatz und Rechenzeit, indem Operationen verschmolzen und mehrfacher Rechenaufwand vermieden werden. Diese Methode erlaubt es, ohne Leistungsverlust die Skalierung und Geschwindigkeit erheblich zu verbessern. So gleicht MLA das Problem wachsender Speicherkosten elegant aus. Eine weitere entscheidende Komponente von DeepSeek v3 ist das Mixture of Experts (MoE) Prinzip.

Im Modell befinden sich insgesamt 256 Experten-Module. Diese Experten sind spezialisierte Teile des Modells, die exklusiv und dynamisch für bestimmte Eingaben aktiviert werden. Allerdings werden während der Verarbeitung nur acht Experten gleichzeitig aktiv geschaltet. Dieses spezialisierte Routing hat den Vorteil, dass trotz der enormen Gesamtparameterzahl von 671 Milliarden nur rund 32 Milliarden Parameter tatsächlich genutzt werden. Dies reduziert den Rechenaufwand und die Speicherbelastung drastisch, ohne dabei die Leistungsfähigkeit einzuschränken.

Eine Herausforderung bei MoE-Systemen ist das sogenannte „Routing Collapse“, bei dem das Modell dazu neigt, immer nur eine kleine Teilmenge an Experten zu verwenden, was eine Überlastung und Unterauslastung anderer Experten zur Folge hat. Die Entwickler von DeepSeek haben hierfür spezielle Optimierungen bei der Zuweisung der Experten vorgenommen, wodurch die Balance gewahrt und die Effizienz gesteigert wird. Dies führt zu einer schnelleren Trainingszeit und geringeren Laufzeitkosten beim Einsatz. Neben dieser besonderen Architektur verfolgt DeepSeek v3 einen neuartigen Trainingsansatz namens Multi-Token Prediction (MTP). Herkömmliche LLMs lernen meist nur vorherzusagen, welches Token als nächstes folgt.

DeepSeek erweitert diesen Ansatz und trainiert gleichzeitig darauf, mehrere zukünftige Tokens vorherzusagen – im konkreten Fall zwei Tokens. Hierfür sind sogenannte „Prediction Modules“ eingebaut, die sequentiell miteinander verknüpft sind. Während dieser aufwendigere Trainingsansatz nur während des Trainings genutzt wird, verbessert er das Modell signifikant darin, längerfristige Zusammenhänge im Text zu verstehen und einen besseren Kontextaufbau zu erlernen. Die zusätzlichen Komponenten werden beim Inferenzbetrieb wieder entfernt, um Ressourcen zu sparen. Die Effizienz der Trainingsphase wird zudem durch die Verwendung von FP8-Mixed-Precision Training erheblich gesteigert.

Während herkömmliche Trainings oft auf 32-Bit Fließkommazahlen (FP32) setzen, nutzt DeepSeek eine Teilgenauigkeit mit nur 8 Bit (FP8). Dadurch werden Speicherbedarf und Rechenzeit reduziert. Da dies aber oft mit Einbußen bei der Modellgenauigkeit verbunden ist, wendet DeepSeek gezielte Strategien an: Einige kritische Module, etwa Embeddings oder das Ausgabemodul, werden weiterhin in höherer Präzision trainiert, während kleinere Rechenoperationen fein granular quantisiert und mit verbessertem Akkumulationstrick ausgeführt werden. So bleibt die Modellleistung erhalten, obwohl deutlich weniger Rechenressourcen benötigt werden. Ein großes Problem beim Training riesiger Modelle mit Mixture of Experts besteht in der Kommunikation zwischen den Rechenknoten, die durch den Datenaustauch erhebliche Verzögerungen verursachen kann.

Für dieses Problem hat das DeepSeek-Team eine eigene Lösung namens DualPipe entwickelt. DualPipe stellt eine Weiterentwicklung des Pipeline-Pipeline-Parallelismus dar und zielt darauf ab, aufwändige Kommunikation und Berechnungen besser zu überlappen und so Wartezeiten im Trainingsprozess zu eliminieren. Es teilt den Vorwärts- und Rückwärtsdurchlauf in kleinere Schritte und ordnet sie neu an, sodass sich Datenübertragung und Rechenarbeit überlappen. Durch diese Methode werden sogenannte Pipeline-Bubbles (Leerlaufzeiten) verringert, was den Trainingsprozess beschleunigt und auch bei größeren Modellen mit wachsender Expertenzahl skalierbar bleibt. Die Kombination all dieser technischen und algorithmischen Innovationen hat es DeepSeek erlaubt, in einer vergleichsweise kurzen Zeit und mit verhältnismäßig wenig Hardware ein Modell auf Spitzenniveau zu trainieren.

Hierfür wurden 2.048 NVIDIA H800 GPUs über 57 Tage eingesetzt, was insgesamt etwa 2,8 Millionen GPU-Stunden entspricht. Im Vergleich dazu benötigte Meta für ihr Llama 3.1 mit weniger Parametern über elfmal so viel Rechenzeit. Noch beeindruckender ist der Preis: DeepSeek gibt die Trainingskosten mit etwa 5,6 Millionen US-Dollar an, während Meta angeblich über 100 Millionen US-Dollar für Llama 3 ausgab.

Dies ist zum Teil auf den Einsatz der günstigeren H800 GPUs zurückzuführen, die speziell für den chinesischen Markt entwickelt wurden und gemäß amerikanischer Exportbestimmungen in begrenzter Leistungsfähigkeit verfügbar sind. Diese ökonomischen und technischen Fortschritte haben einen nachhaltigen Einfluss auf die Welt der KI-Entwicklung. DeepSeek zeigt, dass Innovation und systematisches Engineering oft wichtiger sind als pure Rechenkraft oder enorme finanzielle Ressourcen. Dies könnte den Eintritt neuer Spieler in den KI-Markt erleichtern und dazu beitragen, dass Forschung und Entwicklungen globaler und diversifizierter erfolgen. Es entsteht eine Dynamik, in der immer mehr Organisationen und Institute mit beschränkten Mitteln wettbewerbsfähige KI-Systeme bauen können.

Dies könnte zu einer raschen Verstärkung von algorithmischen Innovationen führen, um klassische Skalierungsgesetze von KI-Modellen zu durchbrechen. Die Vorherrschaft großer westlicher Firmen wird dadurch herausgefordert, denn die vermeintlich unüberwindlichen Moats bezüglich Hardware und Trainingskostenvorteilen werden durch clevere Ansätze zunehmend durchlässiger. Weiterhin wird die Entwicklung von Frontier-Modellen – also von Modellen an der Spitze des technisch Möglichen – deutlich beschleunigt, denn die in DeepSeek v3 vorgestellten Methoden sind mittlerweile öffentlich zugänglich und können von weltweit tätigen Teams adaptiert werden. Der Bogen spannt sich so von einem rein technologischen Triumph zu einem geopolitischen Gamechanger, der auch Fragen zur technologischen Souveränität und globalen Innovationskraft aufwirft. Zusammenfassend steht DeepSeek v3 für eine neue Generation von LLMs, die durch intelligente Architektur, optimiertes Training und Hardwareverständnis enorme Effizienz- und Leistungsgewinne erzielen.

Diese Entwicklung verändert die Annahmen über notwendige Ressourcen und eröffnet neue Wege für die KI-Forschung weltweit. Der Fokus verschiebt sich damit weg von alleiniger Hardwarekraft hin zu innovativen Softwarelösungen und intelligenter Systemgestaltung. Der Einfluss auf das zukünftige KI-Ökosystem wird umfassend sein und sowohl technologische als auch wirtschaftliche sowie geopolitische Fragestellungen prägen.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
A 1970s Soviet Spacecraft Is About to Fall Back to Earth
Samstag, 14. Juni 2025. Sowjetisches Raumfahrzeug aus den 1970er Jahren steht kurz vor dem Wiedereintritt in die Erdatmosphäre

Ein sowjetisches Raumfahrzeug aus den 1970er Jahren, das Jahrzehnte im Orbit verbracht hat, nähert sich dem Wiedereintritt in die Erdatmosphäre. Experten beobachten die Situation genau, da unklare Trümmer den Boden erreichen könnten.

Trump-Linked World Liberty Financial Launches $WLFI Snapshot Vote Airdrop as USD1 Stablecoin Market Cap Hits $2 Billion
Samstag, 14. Juni 2025. World Liberty Financial: Neuer $WLFI Snapshot Vote Airdrop und der Aufstieg des USD1 Stablecoins über 2 Milliarden Dollar

World Liberty Financial, im Zusammenhang mit Donald Trump stehend, startet einen innovativen Snapshot Vote Airdrop für den $WLFI Token. Gleichzeitig wächst die Marktkapitalisierung des USD1 Stablecoins auf beeindruckende 2 Milliarden Dollar.

Bitcoin Surpasses Amazon With $2.015 Trillion Market Cap to Become Fifth Largest Asset Globally on May 8, 2025
Samstag, 14. Juni 2025. Bitcoin übertrifft Amazon: Mit 2,015 Billionen US-Dollar Marktwert fünftgrößtes Asset der Welt

Bitcoin erreicht am 8. Mai 2025 einen historischen Meilenstein, indem es Amazon als fünftgrößtes Asset der Welt nach Marktwert überholt und somit seine Bedeutung im globalen Finanzmarkt festigt.

Hoka Maker’s Stock Is the S&P 500’s Biggest Loser. Wall Street Sees Better Days Ahead
Samstag, 14. Juni 2025. Hoka-Hersteller: Größter Verlierer im S&P 500 – Warum Wall Street auf bessere Zeiten setzt

Die Aktie des Hoka-Herstellers erlebt derzeit im S&P 500 den stärksten Kursrückgang, doch Analysten prognostizieren eine Wende und bessere Marktchancen in naher Zukunft. Ein tiefer Einblick in die Ursachen, aktuelle Entwicklungen und Zukunftsaussichten für Investoren und Interessierte.

Dayforce Stock Leads S&P Decliners as Profit, Q2 Outlook Fall Short
Samstag, 14. Juni 2025. Tagforce-Aktie stürzt ab: Gewinn- und Umsatzprognosen enttäuschen Erwartungen im zweiten Quartal

Die Aktie von Dayforce verzeichnet einen markanten Kursrückgang nach enttäuschenden Gewinnzahlen und einer nach unten korrigierten Umsatzprognose für das zweite Quartal. Eine genauere Analyse der Ergebnisse und künftigen Aussichten des Human-Resources-Softwareanbieters zeigt die Herausforderungen, denen sich das Unternehmen und der Markt gegenübersehen.

Citi's Moore Says 'We're Not Adding to Risk Assets'
Samstag, 14. Juni 2025. Citi-Strategie in Zeiten der Unsicherheit: Warum Kate Moore derzeit nicht in Risikoanlagen investiert

Kate Moore, CIO von Citi Wealth, betont aufgrund wirtschaftlicher und politischer Unsicherheiten die Vorsicht bei Investments und erklärt, warum die Hinzufügung von Risikoanlagen aktuell nicht ratsam ist.

Why ExxonMobil Stock Fell 11.2% in April, But Remains a Buy
Samstag, 14. Juni 2025. Warum die ExxonMobil-Aktie im April um 11,2 % fiel, aber weiterhin eine Kaufempfehlung ist

Die ExxonMobil-Aktie erlebte im April einen erheblichen Kursrückgang, trotz starker Quartalszahlen und langfristiger Unternehmensziele. Eine Analyse der Ursachen und Zukunftsperspektiven des weltweit größten US-Ölkonzerns erklärt, warum die Aktie trotz kurzfristiger Herausforderungen attraktiv bleibt.