Die Welt der künstlichen Intelligenz entwickelt sich rasant, und mit ihr steigen die Anforderungen an die zugrundeliegende Hardware und Software-Infrastruktur. Modular 25.4, die neueste Version der Modular Plattform, stellt einen bedeutenden Fortschritt im Bereich der KI-Bereitstellung dar. Sie kombiniert die Leistung von AMD- und NVIDIA-Grafikprozessoren (GPUs) in einem einzigen Container, wodurch Entwickler und Unternehmen unabhängig von Hardware-Vendoren agieren können. Diese Flexibilität beseitigt die herkömmlichen Barrieren von Vendor Lock-In und eröffnet völlig neue Möglichkeiten hinsichtlich Leistungsoptimierung, Kostenkontrolle und Zukunftssicherheit von KI-Infrastrukturen.
Modular 25.4 ist damit ein Meilenstein auf dem Weg zur Demokratisierung von Hochleistungs-KI. Ein herausragendes Merkmal von Modular 25.4 ist die offizielle Unterstützung von AMD-GPUs, insbesondere der MI300X und MI325X Serien. Diese GPUs sind für ihre starke Performance und attraktive Preis-Leistungs-Verhältnisse bekannt.
Durch die Zusammenarbeit mit AMD ermöglicht die Modular Plattform nun, dass Modelle mit derselben Codebasis und demselben Container sowohl auf AMD- als auch auf NVIDIA-Hardware laufen – ein Novum, das in der KI-Branche bisher kaum realisiert wurde. Entwickler müssen keine speziellen Anpassungen oder Optimierungen für unterschiedliche Hardware mehr vornehmen. Dies beschleunigt die Entwicklung, reduziert Fehlerquellen und senkt komplexitätsbedingte Betriebskosten erheblich. Performance-Vergleiche zeigen, dass Modular 25.4 auf AMD-GPUs in verschiedenen Bereichen mit beeindruckenden Ergebnissen überzeugen kann.
Bei prefill-lastigen BF16-Workloads, die zum Beispiel bei Modellen wie Llama-3.1-8B, Gemma-3-12B und Mistral-Small-24B eingesetzt werden, erreicht Modular bis zu 53 Prozent höhere Durchsatzraten als das bisherige vLLM-System auf AMD MI300X. Für decode-lastige BF16-Workloads werden sogar bis zu 32 Prozent besserer Durchsatz im Vergleich erreicht. Besonders bemerkenswert ist, dass die AMD MI325X GPU bei ShareGPT-Workloads eine Leistungsparität oder sogar einen Vorteil gegenüber dem NVIDIA H200 zeigt. Diese Fortschritte machen AMD-Hardware für viele Unternehmen zu einer attraktiven Alternative, nicht zuletzt wegen der besseren Gesamtkosten.
Der modulare Ansatz von Modular 25.4 hebt sich neben der Hardware-Unterstützung auch durch die verbesserte Kompatibilität mit Consumer-GPUs hervor. Erste Unterstützung für AMD Consumer GPUs der RDNA3- und RDNA4-Architektur ist implementiert, was auch den Desktop- und Gaming-Markt adressiert. Zudem wurde die Unterstützung für NVIDIA GPUs von der RTX 20xx Reihe bis hin zur neuesten RTX 50xx Serie erweitert. Dieser umfassende Hardware-Support schöpft das Potenzial moderner Grafikprozessoren voll aus und vereinfacht den Einstieg für eine breite Entwicklerbasis.
Für viele Unternehmen und Entwickler ist Open Source ein entscheidender Faktor beim Aufbau verlässlicher, anpassbarer KI-Systeme. Mit Modular 25.4 wurde nicht nur die Plattform weiterentwickelt, sondern auch eine riesige Codebasis von über 450.000 Zeilen Produktionscode aus dem Bereich GPU-Kerne und Serving freigegeben. Die Modular Community ist nun herzlich eingeladen, eigene Beiträge einzubringen, seien es neue Operatoren, Hardware-Architektur-Erweiterungen oder Performance-Optimierungen.
Diese offene Zusammenarbeit stärkt die Innovationskraft und sorgt dafür, dass die Plattform stets am Puls der Zeit bleibt. Eine weitere technische Innovation ist die engere Verzahnung von Mojo mit Python. Mojo, eine performante Programmiersprache für GPU-Programmierung, war bereits für ihre Einfachheit und Effizienz bekannt. Mit den neuen Python-Mojo-Bindings in Modular 25.4 wird es nun noch leichter, Mojo-Funktionen direkt aus Python heraus aufzurufen.
Entwickler können damit Python-Code gezielt für Performance-intensive Abschnitte durch Mojo ersetzen – ohne langwierige Build-Prozesse oder komplizierte Abhängigkeiten. Dies erleichtert die Integration in bestehende Python-Workflows und setzt neue Maßstäbe bei der Kombination von Benutzerfreundlichkeit und Geschwindigkeit. Das Update bringt neben der Hardware- und Spracherweiterung auch eine ausgeweitete Modellbibliothek mit. Darunter befinden sich verschiedene Familien generativer KI-Modelle, die auf diverse Anwendungsfälle abzielen. Die GGUF quantisierten Llama-Modelle unterstützen moderne Quantisierungsformate wie q4_0, q4_k und q6_k, mit einer innovativen paged KVCache-Strategie für effizienteres Arbeiten.
Die Qwen3 Modellserie überzeugt durch fortschrittliche reasoning- und multilingualen Fähigkeiten, während OLMo2 für Forschungs- und Standardanwendungsfälle optimiert wurde. Multimodale Gemma3-Modelle verbessern gleichzeitig Performance und Sicherheit, was insbesondere für produktive Umgebungen essentiell ist. Zusammen mit über 500 weiteren verfügbaren Modellen bildet das Modular-Ökosystem eine vielseitige Grundlage für unterschiedlichste KI-Projekte. Das Entwicklererlebnis wurde durch eine komplett neu gestaltete Dokumentationslandschaft wesentlich verbessert. Ein einheitliches Navigationssystem macht die Suche nach Ressourcen spielend einfach.
Die Frischzellenkur beinhaltet ausführliche Anleitungen für den Einsatz von KI-Coding-Assistenten, Schritt-für-Schritt-Tutorials zum Bau neuronaler Netze als Graphmodule, sowie Leitfäden zur Implementierung eigener PyTorch-Operatoren und zur Leistungsanalyse von GPU-Kerneln. Diese Materialien helfen, den Einstieg zu erleichtern, Wissen zu vertiefen und die produktive Nutzung der Modular Plattform nachhaltig zu fördern. Neben der technischen Weiterentwicklung veranstaltet Modular besondere Events, um die Community noch stärker einzubinden. Das Modular Hack Weekend Anfang Juli bietet neben einem GPU-Programmier-Workshop die Gelegenheit, virtuell oder vor Ort gemeinsam an spannenden Projekten zu arbeiten. Die Publikation der Comic-Serie „GPU Whisperers“ verbindet auf kreative Weise Unterhaltung mit den Herausforderungen des GenAI-Zeitalters und lädt zur aktiven Beteiligung ein.
Solche Aktivitäten fördern den Austausch und motivieren Entwickler zum Mitmachen und Mitgestalten. Mit Modular 25.4 eröffnet sich Unternehmen eine neue Dimension der Wahlfreiheit und Zukunftsorientierung. Der Verzicht auf engen Vendor Lock-In bedeutet, dass Infrastrukturen resilienter gegenüber Lieferengpässen und Preisschwankungen werden. Gleichzeitig werden Kostenstrukturen durch bessere Preis-Leistungs-Verhältnisse transparenter und optimierbar.
Die Unterstützung modernster KI-Modelle ermöglicht innovative Use Cases und sorgt für Wettbewerbsfähigkeit. Die Plattform stellt somit ein überzeugendes Gesamtpaket dar – für Start-ups ebenso wie für etablierte Unternehmen. Zusammenfassend ist Modular 25.4 ein technologischer Durchbruch, der die Art und Weise, wie KI-Workloads auf GPUs ausgeführt werden, grundlegend verändert. Die Kombination von AMD- und NVIDIA-Support in einem einzigen Container schafft industrielle Flexibilität und macht KI-Projekte unabhängiger, skalierbarer und kosteneffizienter.
Mit fortschrittlichen Modellen, einem offenen Entwicklungsansatz und verbesserter Entwicklerunterstützung ist Modular 25.4 bestens gerüstet, die nächste Generation von KI-Innovationen maßgeblich mitzugestalten.