Rechtliche Nachrichten Interviews mit Branchenführern

Die Entstehung von DeepSeek-R1: Ein Blick hinter die Kulissen des bahnbrechenden KI-Modells

Rechtliche Nachrichten Interviews mit Branchenführern
What Went into Training DeepSeek-R1? – Epoch AI

Eine detaillierte Analyse der Entwicklung und des Trainingsprozesses von DeepSeek-R1, einem der fortschrittlichsten KI-Reasoning-Modelle, seine Architektur, Trainingskosten, innovative Techniken sowie seine Marktposition im Vergleich zu Wettbewerbern wie OpenAI.

In der schnelllebigen Welt der Künstlichen Intelligenz (KI) markiert die Veröffentlichung von DeepSeek-R1 im Januar 2025 einen bedeutenden Meilenstein. DeepSeek-R1 ist ein Open-Weights-Modell mit beeindruckenden Fähigkeiten im Bereich des logischen und mathematischen Reasonings, welches auf Benchmark-Performance auf Augenhöhe mit OpenAIs o1-Modell operiert. Trotz der enormen technischen Leistungsfähigkeit haben Diskussionen und Spekulationen über die tatsächlichen Trainingskosten und die gezeigte Effizienz für Aufsehen gesorgt. Um dieses Modell besser zu verstehen, lohnt es sich, die Kernelemente seiner Architektur, den Trainingsprozess und die Innovationsschritte genauer zu betrachten. Dabei zeigt sich eine Mischung aus bewährter Technik und neuartigen Ansätzen, die DeepSeek-R1 zu einem solch leistungsstarken Modell gemacht haben.

Die Architektur von DeepSeek-R1 baut auf der Basis des Vorgängermodells DeepSeek v3 auf, welches bereits im Dezember 2024 veröffentlicht wurde. Das Modell zeichnet sich durch eine sehr große Anzahl an Parametern aus – insgesamt 671 Milliarden – wobei pro Token stets nur rund 37 Milliarden aktiv sind. Dies wird durch eine Sparse Mixture-of-Experts (MoE)-Architektur ermöglicht, welche Experten in zwei Kategorien unterteilt: Zum einen gibt es einen „Shared Expert“, der für jeden Token aktiviert wird, zum anderen 256 „Routed Experts“, von denen jeweils acht für einen gegebenen Token aktiv sind. Diese Aufteilung sorgt für eine effiziente Verwendung der Rechenressourcen, da nur ein Bruchteil der Gesamtparameter für die Verarbeitung jedes einzelnen Tokens benötigt wird. Ein besonders zukunftsweisendes Element ist das sogenannte Multi-Head Latent Attention (MLA), das in DeepSeek v3 eingeführt wurde.

Dieses neuartige Aufmerksamkeitsmechanismus-Design reduziert die Größe des Key-Value-Caches erheblich, ohne die Performance einzuschränken – ein Problem, das viele andere Ansätze wie grouped-query attention oder multi-query attention nicht beherrschen. Allerdings führt das MLA zu einem höheren Rechenaufwand pro Token während der Decodierung, wodurch DeepSeek anders als viele andere Modelle bei längeren Kontexten eher arithmetisch als speichergebunden arbeitet. Dies manifestiert sich etwa darin, dass ab etwa 5000 Tokens der Rechenaufwand für die Attention vergleichbar ist mit den Parameter-Multiplizierungen, während bei Modellen wie Llama 3 70B dieser Punkt erst bei 50.000 Tokens erreicht wird. Die Bedeutung dieser Architekturinnovationen kann nicht hoch genug eingeschätzt werden.

Zwar sind viele der eingesetzten Techniken nicht brandneu – MLA wurde bereits im Sommer 2024 im Zuge von DeepSeek v2 vorgestellt – doch deren Kombination und Verfeinerung hat die Grundlage für ein effizienteres und leistungsfähigeres Basismodell geschaffen. Besonders wichtig ist diese solide Ausgangsbasis, da das folgende Reinforcement Learning (RL) auf einem bereits starken Modell fungiert und so die Effektivität des Lernprozesses erhöht. Die Trainingsphase von DeepSeek-R1 gliedert sich im Wesentlichen in zwei Abschnitte: Das Pretraining, welches die Vorstufe und das Fundament bildet, und das darauf aufbauende Reinforcement Learning, mit dem der Reasoning-Aspekt des Modells konkret verbessert wird. Das Pretraining wurde durch das DeepSeek v3-Modell realisiert, das auf einem Cluster von 2048 Nvidia H800 GPUs trainiert wurde. DeepSeek dokumentierte bemerkenswert detailliert, wie sie trotz der enormen Datenmengen zielgerichtet und effizient vorgingen.

Dabei kamen Mixed Precision Trainingsmethoden mit FP8 zum Einsatz, um Rechenzeit und Ressourcen zu optimieren. Die vorliegende Schätzung geht von etwa 14,8 Billionen Tokens aus, die im Pretraining verarbeitet wurden, was bei etwa 3,7 Tagen Rechenzeit pro Billion Tokens auf der genannten Hardware zu einer Gesamtdauer von rund 55 Tagen führte. Die Rechenkapazität, die in FP8-Flops gemessen wird, beläuft sich dabei auf circa 3e24 FLOPs. Zu beachten ist hierbei, dass das Modell nicht die volle theoretische Rechenleistung der GPUs ausschöpfte, sondern eine Modell FLOP Utilization (MFU) von etwa 23% erzielt wurde. Trotz dieser vergleichsweise niedrigen Auslastung erstaunt die Effizienz des Modells, vor allem vor dem Hintergrund, dass der vergleichbare Llama 3 70B mit deutlich mehr Rechenaufwand schlechtere Benchmark-Ergebnisse erzielt.

Ein Grund für diese scheinbare Diskrepanz liegt in den algorithmischen Fortschritten, die DeepSeek in die Architektur und das Training von v3 einfließen ließ. Insbesondere die MoE-Struktur brachte zwar Herausforderungen mit sich – etwa aufwändige Kommunikation zwischen den Experten über das Netzwerk – aber auch signifikante Vorteile hinsichtlich der Effizienz. DeepSeek begegnete den erwartungsgemäß hohen Kommunikationsanforderungen, die durch die Verteilung der Experten auf verschiedene GPUs entstehen, mit einer intelligenten Optimierung der Datenflüsse. So wurde eine Überlappung von Kommunikation und Berechnung implementiert, und Experten mit höherer Aktivierungswahrscheinlichkeit wurden näher im Netzwerk zusammengebracht, um latenzärmere Verbindungen wie NVLink zu nutzen. Dies trug maßgeblich dazu bei, die Trainingszeit trotz der Komplexität in einem handhabbaren Rahmen zu halten.

Nach dem erfolgreichen Pretraining begann die Phase des Reinforcement Learnings, welche DeepSeek-R1 den entscheidenden Reasoning-Schub verlieh. Die Trainingsmethode ist als Group-Relative Policy Optimization (GRPO) bekannt, eine effizientere Alternative zum populären PPO-Algorithmus. Das Verfahren basiert darauf, dass das Modell für einen gegebenen Input verschiedene Antwortmöglichkeiten generiert, die anschließend eine Bewertung – teilweise durch andere Modelle oder regelbasierte Tests – erhalten. Darauf basierend wird der Algorithmus so angepasst, dass zukünftig bevorzugt hochwertige, belohnte Antworten erzeugt werden. Die Berechnung des FLOP-Aufwands für das RL-Training gestaltet sich komplex.

Neben den 37 Milliarden aktiven Parametern spielen die durchschnittlichen Antwortlängen von etwa 4000 Tokens sowie die Batch- und Generierungsgrößen eine Rolle. Insgesamt wird der Aufwand auf rund 6,1e23 FLOPs geschätzt, was etwa einem Millionen-Dollar-Betrag an GPU-Kosten entspricht, wenn die Auslastung mit der des Pretrainings vergleichbar ist. Dieser Wert ist damit erheblich geringer als die Kosten des Pretrainings und spiegelt die Effektivität der optimierten Trainingsmethode wider. Der Reinforcement Learning Prozess verlief dabei keineswegs in einem einzigen Schritt. Nach dem initialen RL-Loop, der das sogenannte R1-Zero Modell erzeugte, folgten weitere Feinschleifen.

DeepSeek erstellte einen sogenannten Cold-Start-Datensatz, um das Modell auf menschlich lesbare Outputs zu stabilisieren, bevor eine zweite RL-Phase das endgültige DeepSeek-R1 formte. Zusätzlich erfolgte eine Phase des supervised fine-tunings mit einer vergleichsweise geringen Menge an speziellen Reasoning-Beispielen, was zeigt, wie wenig Daten nötig sind, um ein starkes Reasoning-Verhalten aus einem guten Basismodell heraus zu fördern. Die finale Schätzung der Trainingskosten summiert sich somit auf etwa 6 Millionen US-Dollar: rund 5 Millionen für das Pretraining von v3 und etwa eine Million für die RL-Phasen, was für ein Modell dieser Größenordnung als eher moderat gilt. Interessanterweise zeigt sich damit, dass die Debatte über angebliche Unterberichterstattung der Trainingskosten wenig Substanz hat und dass DeepSeek technisch gesehen realistischen Aufwand betrieben hat, um ihr Modell auf Spitzenniveau zu bringen. Im Vergleich zur Konkurrenz, insbesondere zu OpenAIs o1-Modell, positioniert sich DeepSeek-R1 als wirklich konkurrenzfähiger Player.

Leistungsmäßig sind die Modelle etwa gleichauf, wobei DeepSeek-R1 in etwa halb so viele Benchmarks verliert, wie es gewinnt. Die eigentliche Überraschung liegt jedoch in der Preiskalkulation: DeepSeek bietet R1 für etwa 2,2 US-Dollar pro Million Tokens an, während OpenAI für o1 rund 60 US-Dollar verlangt. Diese enorme Preisvariante macht DeepSeek-R1 zu einer äußerst attraktiven Option auf dem Markt – wenn auch die günstigeren Preise vermutlich eher auf geringere Gewinnmargen und schlankerer Preispolitik basieren als auf einer intrinsischen Effizienzsteigerung des Modells. Diese günstige Preisgestaltung dürfte nicht nur Auswirkungen auf die Nutzung von DeepSeek-R1 selbst haben, sondern könnte auch einen Druck auf andere führende KI-Anbieter erzeugen. Vor allem chinesische Anbieter wie DeepSeek positionieren sich als kosteneffiziente Alternativen, was die internationale Wettbewerbslandschaft nachhaltig beeinflussen könnte.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Tech oligarchs impose their prophetic visions
Freitag, 16. Mai 2025. Tech-Oligarchen und ihre prophetischen Visionen: Wie Silicon Valley die Zukunft gestaltet

Die Tech-Oligarchen aus Silicon Valley prägen zunehmend unsere gesellschaftliche und politische Landschaft. Mit visionären Ideen und enormem Einfluss formen sie Gesetze, Institutionen und kulturelle Normen, um ihre Zukunftsentwürfe Wirklichkeit werden zu lassen.

Trinitite
Freitag, 16. Mai 2025. Trinitit: Das grüne Glas der ersten Atombombe und seine faszinierende Geschichte

Trinitit ist das glasartige Relikt, das nach dem ersten Atombombentest 1945 in der Wüste von New Mexico entstand. Es fasziniert Wissenschaftler und Sammler gleichermaßen und bietet Einblicke in Kernwaffentests, Materialforschung und Nuklearforensik.

NSA sought to curb university cryptography research in 1983 (MIT report, PDF)
Freitag, 16. Mai 2025. Wie die NSA 1983 versuchte, die Kryptographieforschung an Universitäten zu unterbinden

Im Jahr 1983 unternahm die National Security Agency (NSA) Schritte, um die wissenschaftliche Forschung im Bereich der Kryptographie an US-amerikanischen Universitäten einzuschränken. Diese Initiative hatte weitreichende Folgen für die akademische Freiheit und die Entwicklung moderner Verschlüsselungstechnologien.

Ignatius van der Stock (1636 – 1668) – Paintings, Drawings, Prints
Freitag, 16. Mai 2025. Ignatius van der Stock – Meisterwerke der Sonianer Waldmalerschule des 17. Jahrhunderts

Ignatius van der Stock zählt zu den bedeutenden Malern der 17. Jahrhunderts, dessen Werke insbesondere durch die Verbindung von Naturstudien und meisterhafter Technik beeindrucken.

Opinion: Business co-founders in tech startups are less valuable than they think
Freitag, 16. Mai 2025. Warum Geschäftsgründer in Tech-Startups oft weniger wert sind, als sie glauben

Ein tiefgehender Einblick in die tatsächliche Bedeutung von Geschäftsgründern in Tech-Startups und warum technische Mitgründer bei der Umsetzung der Ideen oft unverzichtbar sind. Die wichtigsten Herausforderungen, Missverständnisse und wie sich Geschäftsgründer wirklich unverzichtbar machen können.

Low Background Steel
Freitag, 16. Mai 2025. Low Background Steel: Unverfälschte Quellen in einer Ära der KI-Generierung

Low Background Steel beschreibt Materialien und Informationen, die frei von modernen, insbesondere KI-bedingten, Verunreinigungen sind. Dieses Konzept gewinnt zunehmend an Bedeutung, da die Flut künstlich generierter Inhalte die Authentizität und Zuverlässigkeit traditioneller Datenquellen herausfordert.

2 Magnificent AI Stocks Down 27% and 32% That Investors Will Wish They Bought on the Dip
Freitag, 16. Mai 2025. Zwei Außergewöhnliche KI-Aktien, die um 27 % und 32 % Gefallen Sind – Warum Investoren Diese Chancen Nicht Verpassen Sollten

Die Aktien von Alphabet und Meta Platforms haben in letzter Zeit erhebliche Einbußen erlebt, was sich als wertvolle Einstiegschance für Anleger erweisen könnte. Trotz rechtlicher Herausforderungen bleiben diese Technologie-Giganten im Bereich Künstliche Intelligenz und Online-Werbung unverzichtbare Marktführer mit langfristigem Wachstumspotenzial.