Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit	Krypto-Events Krypto-Startups und Risikokapital Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit	Krypto-Events Krypto-Startups und Risikokapital Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst	Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit Krypto-Events Krypto-Startups und Risikokapital	Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen	Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst	Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit Krypto-Events Krypto-Startups und Risikokapital	Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen	Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Freitag, 25. Juli 2025.

Tokasaurus: Neuer LLM Inferenz-Server mit Dreifacher Durchsatzleistung gegenüber SGLang und vLLM

Mining und Staking Institutionelle Akzeptanz

Das Geld, dasgeld.co

LLM inference server with 3x the throughput of sglang and vLLM

Tokasaurus bietet als innovativer LLM Inferenz-Server eine revolutionäre Lösung für hochdurchsatzorientierte Workloads. Mit einer optimierten Architektur und intelligenten Parallelisierungstechniken übertrifft er bestehende Engines wie SGLang und vLLM bei der Verarbeitungsgeschwindigkeit deutlich und setzt neue Maßstäbe in der effizienten Bereitstellung von großen Sprachmodellen.

Die Welt der großen Sprachmodelle (Large Language Models, LLMs) erlebt derzeit einen rasanten Wandel. Die steigenden Anforderungen an Geschwindigkeit und Skalierbarkeit bei der Inferenz von LLMs fordern neue, leistungsfähige Systeme, die sowohl kleine als auch große Modelle effizient bedienen können. Ein bedeutender Fortschritt in diesem Bereich ist Tokasaurus, ein Inferenz-Server, der speziell für hochdurchsatzintensive Workloads entwickelt wurde und eine bis zu dreifach höhere Performance als etablierte Engines wie SGLang und vLLM erreicht. Tokasaurus ist das Ergebnis intensiver Forschung im Scaling Intelligence Lab der Stanford University. Ziel war es, die bestehende Softwarelandschaft durch ein System zu ergänzen, das durch besondere Optimierungen in CPU-Verwaltung, dynamische Erkennung von gemeinsam genutzten Präfixen und vielseitige Parallelisierungstechniken sowohl kleine als auch große Modelle auf modernsten GPUs optimal auslastet.

Ein entscheidender Faktor bei kleinen LLMs ist die Minimierung des CPU-Overheads. Traditionelle Engines haben oft mit Engpässen zu kämpfen, weil die CPU bei Aufgaben wie Tokenisierung, KV-Cache-Verwaltung und Postprocessing mit ihrem Pensum an Operationen nicht Schritt hält, was zu GPU-Stalls führt und die Durchsatzrate einschränkt. Tokasaurus begegnet diesem Problem mit einem adaptiven, asynchronen Manager, der die Eingangs-Queue des Modells überwacht und bei drohender Unterversorgung optional laufende Routineaufgaben prioritätsbasiert aussetzt. So läuft die GPU immer optimal ausgelastet, während die CPU-Leistungsreserven gezielt geschont werden. Ein weiteres Alleinstellungsmerkmal ist die dynamische Erkennung von gemeinsam genutzten Präfixen in den Eingabesequenzen.

In vielen Anwendungsszenarien, etwa beim Bearbeiten langer Dokumente oder beim vielfachen Sampling identischer Prompt-Bestandteile, treten immer wieder dieselben Anfangsparts der Sequenzen auf. Indem Tokasaurus diese Präfixe mit einem effizienten, gierigen Tiefensuch-Algorithmus vor jedem Forward-Pass identifiziert, kann die Berechnung der Aufmerksamkeitsschichten für diese gemeinsamen Teile deutlich optimiert werden. Dieses Verfahren, bekannt unter dem Konzept „Hydragen“, reduziert den Rechenaufwand insbesondere bei kleineren Modellen und verbessert dadurch die gesamte Verarbeitungsgeschwindigkeit signifikant. Bei großen LLMs ist die Herausforderung eine andere: Die Modelle sind oftmals so umfangreich, dass eine Ausführung auf einer einzelnen GPU entweder wegen Speicherbeschränkungen oder Kommunikationsengpässen nicht effizient möglich ist. Tokasaurus setzt hier auf eine Kombination aus Pipeline-Parallelismus und asynchronem Tensor-Parallelismus, um mehrere GPUs bestmöglich auszunutzen.

Pipeline-Parallelismus eignet sich vor allem für Umgebungen ohne schnelle NVLink-Verbindungen zwischen GPUs, wie etwa die NVIDIA L40S. Hier werden Eingabebatches in Mikro-Batches zerlegt, die nacheinander in den verschiedenen Pipeline-Stufen abgearbeitet werden. Tokasaurus optimiert diesen Prozess stark, sodass es in Benchmarks mit dem Llama-3.1-70B Modell auf acht L40S GPUs eine dreifach höhere Durchsatzleistung im Vergleich zu vLLM und SGLang erzielt. Für Hochleistungsumgebungen mit NVLink-fähigen GPUs wie den NVIDIA B200, H100 oder A100 kommt der Async Tensor Parallelismus zur Anwendung.

Dabei überlappt Tokasaurus die GPU-zu-GPU Kommunikation mit der eigentlichen Berechnung, was die Wartezeiten signifikant reduziert und so die gesamte Verarbeitung beschleunigt. Interessanterweise führt dieses Verfahren jedoch zu einem erhöhten CPU-Overhead und zeigt seine Vorteile erst bei sehr großen Batchgrößen, beispielsweise bei über 6000 Tokens. Um hier flexibel zu bleiben, hält Tokasaurus sowohl torch-kompilierte Versionen der Modelle mit als auch ohne aktivierten Async-TP bereit, sodass bei Bedarf automatisch gewechselt wird. Neben diesen technischen Innovationen zeichnet sich Tokasaurus auch durch seine Benutzerfreundlichkeit aus. Das System ist in reinem Python implementiert, was die Weiterentwicklung und individuelle Anpassung deutlich erleichtert.

Darüber hinaus steht der Code auf GitHub offen zur Verfügung und das Paket kann einfach über PyPI installiert werden. Aktuell unterstützt Tokasaurus Modelle aus der Llama-3- und Qwen-2-Familie und ermöglicht eine beliebige Kombination aus Daten-, Tensor- und Pipeline-Parallelismus innerhalb eines einzelnen Knotens. Die hohe Praxisrelevanz von Tokasaurus belegt sich auch in realen Benchmark-Szenarien: Für gängige Datensätze wie ShareGPT und GSM8K übertrifft es die Performance von vLLM und SGLang deutlich. Im speziellen Large Language Monkeys Benchmark, bei dem viele Antworten auf komplexe Mathematikprobleme generiert werden, erreicht Tokasaurus sogar mehr als doppelt so hohen Durchsatz wie die Konkurrenz. Mit Blick auf die Zukunft verspricht Tokasaurus für die KI-Community ein kraftvolles Werkzeug zur Bewältigung wachsender Datenmengen und komplexerer Fragestellungen.

Die Kombination aus adaptiven CPU-Management, dynamischer Präfix-Nutzung und intelligenter Parallelisierung ist ein Schritt hin zu noch effizienteren LLM-Inferenz-Services, die sowohl in Forschung als auch Industrie vielfältige Einsatzmöglichkeiten eröffnen. Darüber hinaus verdeutlicht das Projekt den Trend, dass reine LLM-Einbindung nicht mehr genügt – parallel zur Modellinnovation gewinnt die Infrastruktur-Optimierung zunehmend an Bedeutung, um die Leistung sinnvoll nutzbar zu machen. Tokasaurus steht für diese neue Generation von Engines, die nicht nur theoretische Kapazitäten ausloten, sondern praktische Herausforderungen im Alltag meistern und somit die Brücke zwischen theoretischem Potenzial und realer Anwendung schlagen. Für Entwickler, Forscher und Unternehmen, die auf der Suche nach einem leistungsstarken, flexiblen und zukunftssicheren Server für LLM-Inferenz sind, stellt Tokasaurus eine äußerst attraktive Alternative dar. Die durchdachte Architektur ermöglicht es, verschiedenste Hardwarekonfigurationen bestmöglich zu nutzen und sorgt so für signifikante Kosteneinsparungen und beschleunigte Entwicklungszyklen.

Abschließend lässt sich sagen, dass Tokasaurus nicht nur durch seine Geschwindigkeit besticht, sondern auch durch seine vielseitigen Optimierungen, die sich sowohl bei kleinen als auch großen Modellen auszahlen. In Zeiten, in denen die Verarbeitung von großen Textmengen und komplexen Aufgaben immer wichtiger wird, markiert diese Engine einen Meilenstein in der LLM-Inferenz und trägt wesentlich zur weiteren Verbreitung und Effizienzsteigerung moderner Sprachmodelle bei.

Als Nächstes

ETHRANSACTION Crypto Mining: Earn Passive Income Without Trading Risks

Freitag, 25. Juli 2025. ETHRANSACTION Crypto Mining: Passives Einkommen ohne Handelsrisiken sicher erzielen

Eine detaillierte Analyse von ETHRANSACTION, einer AI-gestützten Krypto-Mining-Plattform, die es Nutzern ermöglicht, stabil und risikofrei passives Einkommen zu generieren. Erfahren Sie, wie automatisiertes Mining funktioniert, welche Vorteile es bietet und warum ETHRANSACTION eine sinnvolle Alternative zum volatilen Krypto-Handel darstellt.

$300 Ukrainian drones vs. $100M Russian bombers

Freitag, 25. Juli 2025. Wie $300 Drohnen den Wert von $100 Millionen schweren russischen Bombern beeinflussen – Die Revolution der asymmetrischen Kriegsführung in der Ukraine

Die innovative Nutzung kostengünstiger ukrainischer Drohnen verändert das Gleichgewicht im Konflikt mit Russland nachhaltig. Diese Entwicklung zeigt neue Wege in der modernen Kriegsführung und hat weitreichende geopolitische Konsequenzen.

Show HN: YOYO – AI Version Control for Vibe Coding

Freitag, 25. Juli 2025. YOYO – Revolutionäres KI-Versionierungstool für Vibe Coding in der Softwareentwicklung

YOYO ist eine innovative Plattform zur Versionskontrolle, die speziell für die Herausforderungen des Vibe Codings mit künstlicher Intelligenz entwickelt wurde. Die Lösung erlaubt Entwicklern, KI-generierte Änderungen einfach zu speichern, rückgängig zu machen und kontinuierlich ihren kreativen Flow zu bewahren, ohne dabei die Vorteile klassischer Versionskontrollsysteme zu verlieren.

Crypto Policy Heavyweights Back BRCA – Could Safe Harbor Spark a New Onchain Build-Out?

Freitag, 25. Juli 2025. Blockchain Regulatory Certainty Act: Wegbereiter für eine neue Onchain-Ära in der Krypto-Entwicklung

Die Blockchain Regulatory Certainty Act (BRCA) gewinnt zunehmend an Unterstützung durch bedeutende Akteure der Kryptopolitik in den USA. Dieses Gesetz könnte einen entscheidenden Wendepunkt für die Regulierung von Blockchain-Entwicklern darstellen und die Weichen für eine verstärkte Onchain-Innovation und Entwicklung stellen.

A Spiral Structure in the Inner Oort Cloud

Freitag, 25. Juli 2025. Eine Spiralstruktur im Inneren der Oortschen Wolke: Neue Erkenntnisse über die fernen Bereiche unseres Sonnensystems

Die Entdeckung einer Spiralstruktur in der inneren Oortschen Wolke wirft neues Licht auf die Dynamik und Zusammensetzung der weit entlegenen Regionen unseres Sonnensystems. Diese Erkenntnisse erweitern unser Verständnis der Entstehung und Entwicklung von Kometen und der äußeren Grenzen des Sonnensystems.

Cysteine depletion triggers adipose tissue thermogenesis and weight loss

Freitag, 25. Juli 2025. Cysteinmangel als Schlüssel zur Steigerung der Fettverbrennung und Gewichtsreduktion

Ein tiefer Einblick in die Wirkung von Cysteinmangel auf die Thermogenese des Fettgewebes und den Gewichtsverlust sowie die zugrunde liegenden biologischen Mechanismen, Forschungsstudien und potenzielle therapeutische Anwendungen für Stoffwechselgesundheit und Adipositasmanagement.

He spotted weight-loss drugs and AI before they became hot. Here’s this investor’s next big idea

Freitag, 25. Juli 2025. Vom Trendsetter zum Visionär: Wie James van Geelen die Zukunft mit humanoiden Robotern gestaltet

Ein tiefgehender Einblick in die Investmentstrategien von James van Geelen, der früh Potenziale in Gewichtsreduktionsmitteln und Künstlicher Intelligenz erkannte und nun auf humanoide Roboter als nächste große Innovation setzt.