Krypto-Wallets

Wie SGLang die Inferenzleistung von DeepSeek auf ein neues Level hebt

Krypto-Wallets
Match DeepSeek's inference system performance with SGLang

Entdecken Sie, wie die innovative parallele Architektur von SGLang erstmals die leistungsstarke Inferenz von DeepSeek nahezu vollständig nachbildet und dabei Kosten senkt sowie Effizienz und Skalierbarkeit verbessert.

DeepSeek ist ein bedeutendes Beispiel für einen leistungsstarken, quelloffenen Large Language Model (LLM), der aufgrund seiner einzigartigen Architektur mit Multi-head Latent Attention (MLA) und Mixture of Experts (MoE) eine anspruchsvolle Infrastruktur für effiziente Inferenz benötigt. Die Verarbeitung großer Modelle mit spezialisierten Mechanismen stellt oft enorme Herausforderungen an Speicher- und Rechenkapazitäten, besonders wenn der Betrieb auf Clustern mit mehreren GPU-Knoten erfolgt. SGLang, eine flexible und hochoptimierte Softwarelösung, hat nun durch gezielte Optimierungen und parallele Hardwareausnutzung die Inferenz von DeepSeek nachgeahmt und zielt dabei auf maximale Durchsatzraten und Kosteneffizienz ab.SGLang setzt bei der Verarbeitung von DeepSeek auf eine Verteilung über 12 Nodes mit jeweils 8 NVIDIA H100 GPUs im Atlas Cloud Cluster. Mit einer geschickten Kombination aus Prefill-Decode-Disaggregation und groß angelegtem Expert-Parallelismus (EP) erreicht die Plattform beeindruckende Werte von über 52.

000 Eingabetokens und mehr als 22.000 Ausgabetokens pro Sekunde und Node bei einer Eingabelänge von 2000 Tokens. Dies ist ein Meilenstein in der Open Source Welt, da es erstmals möglich wird, die offizielle DeepSeek-Inferenz mit öffentlich zugänglichen Mitteln nahezu eins zu eins zu replizieren. Gleichzeitig sind die Kosten mit etwa 0,20 US-Dollar pro Million generierter Output-Tokens signifikant geringer – etwa ein Fünftel der offiziellen DeepSeek-API-Kosten.Eine der wichtigsten Innovationen, die SGLang auszeichnet, ist die sogenannte Prefill-Decode-Disaggregation (PD-Disaggregation).

Dieses Konzept separiert die teils rechen- und teils speicherintensiven Phasen der LLM-Inferenz in zwei spezialisierte Server-Komponenten. Die Prefill-Phase verarbeitet dabei vollständig die Eingabesequenz und generiert Schlüssel- und Wert-Caches (KV-Caches), die dann asynchron an die Decodier-Komponente übergeben werden. Diese erzeugt daraufhin iterativ die Ausgabetokens. Mit dieser Entkopplung konnte ein tieferes Optimierungspotenzial ausgeschöpft werden, indem jede Phase perfekt auf ihre spezifischen Anforderungen abgestimmt wird und gleichzeitig Verzögerungen durch konkurrierende Verarbeitung vermieden werden.Der Umgang mit den komplexen Multi-head Latent Attention Mechanismen von DeepSeek stellt besondere Anforderungen an die Parallelisierung.

SGLang nutzt hier Data-Parallel-Attention (DP Attention), die den Speicherbedarf deutlich reduziert, indem sie Duplizierung von KV-Caches über Devices hinweg ausschließt. Dieser Ansatz wurde in SGLang Version 0.4 eingeführt und ist mittlerweile auf hybride Kombinationen aus Daten- und Tensor-Parallelismus erweitert worden. Dies bietet gerade bei kleineren Batch-Größen eine flexible und effiziente Verarbeitungskapazität.Im Bereich der dichten Feed-Forward-Netzwerke (Dense FFNs), die bei DeepSeek trotz nur drei Layern für einen hohen Speicherbedarf sorgen, setzt SGLang konsequent auf Dataparallelismus gegenüber reinem Tensorparallelismus.

Hohe Tensorparallelitätsgrade fragmentieren sonst die Eingabe in kleine Blöcke, die nicht optimal an die GPU-Speicherausrichtung angepasst sind, was die Effizienz mindert. Der Dataparallelismus vermeidet diese Fragmentierung, erlaubt eine bessere Auslastung der Hardware und reduziert sowohl Speicherverbrauch als auch Kommunikationskosten. Diese Optimierung trägt maßgeblich dazu bei, die Skalierbarkeit von DeepSeek auf größeren Clustern zu ermöglichen.Die sparse Feed-Forward-Netzwerke der Mixture-of-Experts Architektur stellen oft den Flaschenhals bei Speicher und Rechenlast dar. Die Verteilung der Expertengewichte (Expert Parallelism) über verschiedene Geräte hinweg ist essentiell, um Engpässe auf einzelnen GPUs zu vermeiden.

SGLang implementiert Expert Parallelism (EP) mittels der DeepEP-Bibliothek aus dem DeepSeek-Ökosystem. DeepEP bietet dabei spezielle Dispatch-Modi für unterschiedliche Phasen der Verarbeitung: Die normale Dispatch-Methode ist ideal für lange Eingabesequenzen, während der Low-Latency-Dispatch gerade in der Decode-Phase durch geringe Latenz und CUDA-Graph-Kompatibilität überzeugt. Eine automatisierte Steuerung wählt bedarfsorientiert den passenden Modus aus. Allerdings können beide Modi nur im Rahmen der oben beschriebenen PD-Disaggregation parallel genutzt werden, da sie unterschiedliche Anforderungen an Speicher und Kernel haben.Zur weiteren Leistungssteigerung wurde DeepGEMM integriert, eine hochoptimierte Bibliothek für Grouped GEMMs, die matrixorientierte Berechnungen für MoE-Modelle besonders effizient durchführt.

DeepGEMM unterstützt dabei zwei Layouts für Eingabedaten: ein kontiguierliches Layout für flexible Eingabeformen im Prefill und ein maskiertes Layout, das optimale CUDA-Graph-Nutzung im Decode ermöglicht. Die Kombination aus DeepEP-Dispatch und DeepGEMM-Gemm-Kerneln schafft einen leistungsstarken Stack für MoE-Inferenz, der maßgeblich zur hohen Durchsatzrate beiträgt.Für die Kommunikation und Synchronisation zwischen den Nodes bietet SGLang eine Zwei-Batch-Überlappung (Two-batch Overlap, TBO). Diese Technik erleichtert das parallele Abwickeln von Berechnung und Datenkommunikation, besonders in Umgebungen mit begrenzter Netzwerkbandbreite. TBO minimiert auch den maximalen Speicherbedarf, indem es die effektive Batch-Größe halbiert.

Um den erhöhten Implementierungskomplexitäten zu begegnen, setzt SGLang auf ein Abstraktionsmodell mit Operationen und Ausführungspausen (Yield Points), mit dem die Komplexität reduzierbar und zugleich eine saubere Steuerung der parallelen Abläufe ermöglicht wird. Dies sorgt dafür, dass der GPU-Rechenstrom auch während CPU-blockierender Operationen effektiv ausgelastet bleibt.Ein weiteres zentrales Element zur Performanceoptimierung ist der Expert Parallelism Load Balancer (EPLB). MoE-Modelle leiden häufig unter einer starken Belastungsungleichheit, da bestimmte Experten deutlich häufiger aktiviert werden als andere, was dazu führt, dass einzelne GPUs zum Flaschenhals werden und Ressourcen ungleichmäßig verbraucht werden. EPLB analysiert die Verteilung der Expertenlast und passt die Zuordnung der Experten auf die Hardware dynamisch an.

Durch die Einführung redundanter Experten und strategische Duplikation sorgt EPLB für eine deutlich verbesserte Auslastungsbalance. Dies skaliert besonders gut mit wachsender Clustergröße und erhöhten Expertenzahlen, was sich in signifikanten Performance-Steigerungen in großen Szenarien niederschlägt.Die Wirksamkeit der genannten Optimierungen wurde in umfangreichen Tests demonstriert, wobei SGLang auf einem 96-GPU-Cluster eine End-to-End Leistung erreicht, die nahezu mit den offiziellen DeepSeek-Berichten vergleichbar ist. Während die einfache Tensorparallelität (TP16 x 6) als Basis diente, konnten PD-Disaggregation und EPLB mehr als 3-fache Durchsatzsteigerungen erzielen. Mit einer simulierten Multi-Token-Prediction (MTP), einem Verfahren zur Selbsterweiterung der Batch-Größe, bleibt SGLang mit minimalem Leistungsverlust nahe am theoretischen Maximum und schafft eine hohe Durchsatzstabilität, selbst unter realitätsnahen Belastungen.

Das interne Profiling zeigt, dass Kommunikationszeiten und Kernel-Auslastung bei SGLang sehr eng an die DeepSeek-Referenzdaten anknüpfen. Leicht erhöhte Ladenzeiten bei bestimmten EOS-Combine-Operationen lassen sich durch gezielte weitere Fusionen von Kernel-Aufrufen beheben. Dispatch-Operationen mit DeepEP sind aktuell noch ein kleiner Flaschenhals, bieten aber ebenfalls Chancen für Geschwindigkeitsverbesserungen. Dank der modularen Struktur von SGLang können solche Optimierungen leicht ergänzt werden.Aus technologischer Sicht verbessern weitere Tools wie die DisposableTensor-Klasse die Speichereffizienz deutlich, indem sie explizites und unmittelbar wirksames Freigeben von GPU-Speicher erlauben und so klassische Probleme von Speicherrückhalten in PyTorch umgehen.

Zudem bietet SGLang leistungsfähige Instrumente zur Analyse und Simulation von Expertennutzung in MoE-Modellen, wodurch Ingenieure im Vorfeld die Auslastungssituation großer Systeme realistisch abschätzen können, ohne umfangreiche Hardware zu beanspruchen.Dennoch gibt es Limitationen, an denen SGLang aktuell arbeitet und die in späteren Versionen adressiert werden sollen. Dazu zählen Verbesserungen bei der Latenzzeit, insbesondere Time-to-First-Token Werte, sowie eine engere Integration von Multi-Token-Prediction mit Data-Parallel Attention. Die Unterstützung flexibler Tensorparallelisierungskonfigurationen über ausschließliche DP- oder TP-Settings hinaus soll die Ressourcennutzung weiter optimieren. Außerdem wird an der Unterstützung kommender GPU-Architekturen wie Blackwell gearbeitet, um zukünftige Hardwarevorteile vollständig nutzen zu können.

Zusammenfassend lässt sich festhalten, dass SGLang mit seiner vollständigen Open-Source-Inferenzpipeline für DeepSeek-V3 eine Benchmark in puncto Skalierbarkeit, Leistung und Kosten gesetzt hat. Neben der technischen Exzellenz zeichnet sich SGLang durch seine Offenheit und Flexibilität aus, die Entwickler und Forscher einlädt, die Plattform anzupassen, zu erweitern und aktiv weiterzuentwickeln. Besonders durch die PD-Disaggregation in Kombination mit groß angelegtem Expert Parallelism und intelligentem Load Balancing hat SGLang das Potential, die Zukunft effizienter LLM-Inferenz maßgeblich mitzugestalten. Die hohe Effizienz bei gleichzeitig drastischer Kostensenkung macht SGLang zu einer attraktiven Wahl für Unternehmen und Institutionen, die große LLM-Modelle wie DeepSeek skalierbar, ressourcenschonend und performant betreiben wollen. Die laufende Community-Arbeit garantiert zudem, dass technische Innovationen zeitnah integriert und an die Anforderungen neuer Anwendungsfälle angepasst werden können.

Wer auf offene, bewährte und leistungsfähige Inferenzsysteme setzt, sollte SGLang deshalb in der engeren Auswahl haben und von den Fortschritten im DeepSeek-Inferenz-Ökosystem profitieren.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Show HN: OpenRouter Model Price Comparison
Freitag, 06. Juni 2025. OpenRouter Modellpreisvergleich: Transparenz und Kostenoptimierung bei KI-Modellen

Ein umfassender Überblick über die Preisgestaltung verschiedener KI-Modelle auf OpenRouter, der Unternehmen und Entwicklern hilft, fundierte Entscheidungen bei der Auswahl der passenden KI-Technologie zu treffen.

Nim to CUDA GPU Prover: 5.3x Faster Than Icicle
Freitag, 06. Juni 2025. Nim zu CUDA GPU Prover: Revolutionäre 5,3-fache Beschleunigung gegenüber Icicle

Entdecken Sie, wie die Kombination von Nim und CUDA über runtime-kompilierte GPU-Prover die Leistung kryptografischer Berechnungen maßgeblich steigert und warum diese Innovation gegenüber etablierten Lösungen wie Icicle eine neue Ära in der GPU-basierten Verifikation einläutet.

How prime factorizations govern the Collatz conjecture
Freitag, 06. Juni 2025. Wie Primfaktorzerlegungen die Collatz-Vermutung bestimmen: Ein tiefer Einblick

Die Collatz-Vermutung fasziniert Mathematiker weltweit seit Jahrzehnten. Ihre scheinbar einfache Regel versteckt komplexe Muster, die durch die Untersuchung von Primfaktorzerlegungen aufgedeckt werden können.

X-ray reveals ancient Greek author of charred first century BC Vesuvius scroll
Freitag, 06. Juni 2025. Röntgen enthüllt antiken griechischen Autor des verkohlten Vesuv-Rollen aus dem ersten Jahrhundert v. Chr.

Moderne Röntgentechnologie ermöglicht es, den Text eines fast zweitausend Jahre alten, verkohlten Schriftstücks aus einer römischen Villa zu entschlüsseln. Dabei wurde der Einfluss eines bedeutenden griechischen Philosophen aus der Epoche vor Christus sichtbar.

Vatican to cut phone signal during conclave to elect new pope
Freitag, 06. Juni 2025. Vatikankonklave 2025: Mobilfunksignal während der Papstwahl abgeschaltet

Der Vatikan schaltet während des Konklaves zur Wahl des neuen Papstes am 7. Mai 2025 das Mobilfunksignal im Staatsgebiet ab, um maximale Diskretion zu gewährleisten.

The Data Surrender Trap: How Enterprises Are Losing Control in the AI Gold Rush
Freitag, 06. Juni 2025. Die Datenübergabefalle: Wie Unternehmen im KI-Goldrausch die Kontrolle verlieren und wie man sie zurückgewinnt

Unternehmen stehen im Zeitalter der Künstlichen Intelligenz vor einzigartigen Herausforderungen im Umgang mit sensiblen Daten. Die Gefahr, durch unkontrollierte Datenübergaben Compliance- und Sicherheitsrisiken zu erzeugen, wächst stetig.

JavaScript, Scripting and Web Development Pragmatic Book Bundle
Freitag, 06. Juni 2025. Effizientes Lernen mit dem JavaScript, Scripting und Web Development Pragmatic Book Bundle

Entdecken Sie die Vorteile des JavaScript, Scripting und Web Development Pragmatic Book Bundles, das umfassend Wissen zu modernen Webtechnologien vermittelt. Erfahren Sie, wie Sie Ihre Programmierfähigkeiten verbessern und erfolgreich in die Webentwicklung einsteigen können.