Die rasant voranschreitende Entwicklung im Bereich der Künstlichen Intelligenz hat die Anforderungen an Rechenleistung und Speicher in den letzten Jahren massiv erhöht. In diesem Kontext setzen große Anbieter wie Nvidia und AMD auf sogenannte Rack-Scale-Systeme, die mit einer deutlich höheren Anzahl an GPUs ausgestattet sind als bisherige Lösungen. Insbesondere Nvidias NVL72 und AMDs Helios Rack-Designs stechen hierbei hervor. Trotz ihrer starken Leistungsdaten sind diese Systeme jedoch nicht gezielt für den Einsatz in klassischen Unternehmensumgebungen konzipiert, sondern adressieren vor allem hyperskalierende Cloud-Dienstleister und Neo-Cloud-Anbieter. Die Gründe hierfür sind vielfältig und reichen von Kosten über Komplexität bis hin zu spezifischen Anforderungen an Infrastruktur und Kühlung.
Die historischen Grundlagen der GPU-Server liegen über viele Jahre hinweg bei kleineren Konfigurationen mit meist acht GPUs, wie sie bei Nvidias DGX H100 zum Standard wurden. Diese „Hive-of-eight“ Formate bieten für viele Unternehmen eine gute Balance zwischen Leistung, Kosten und Betriebskomplexität. Sie sind in der Lage, viele aktuelle KI-Modelle effektiv zu trainieren und auszuführen, ohne das Rechenzentrum mit hohen Stromkosten oder aufwändigen Kühlsystemen zu belasten. Für viele Firmen sind solche 8-GPU-Server daher nach wie vor optimal nutzbar. Dies zeigt sich auch darin, dass selbst die Einführung neuer, größerer Systeme den Marktanteil dieser bewährten Konfigurationen kaum gefährdet.
Der Sprung hin zu den NVL72 von Nvidia und Helios von AMD bedeutet eine signifikante Vergrößerung der GPU-Einheiten pro Rack auf 72. Das eröffnete Potenziale für extrem große Modelle und Trainingseinheiten, die jenseits der Kapazitäten typischer 8-GPU-Boxen liegen. Diese Systeme adressieren vor allem diejenigen, deren Modelle nicht nur rechen-, sondern auch speicherintensiv sind und enorme Kommunikationsgeschwindigkeiten zwischen den GPUs erfordern. Die internen Netzwerke dieser Rack-Scale-Architekturen sind bis zu 18 Mal schneller als gängige Hochgeschwindigkeits-Ethernet-Verbindungen und minimieren so den Networking-Bottleneck, der bei groß angelegten Trainingsprozessen sonst zum Flaschenhals wird. Trotz dieser Vorteile sind die NVL72 und Helios Systeme in der Realität mit sehr hohen Anschaffungskosten und Betriebspreisen verbunden.
Ein einzelner Nvidia GB200 NVL72 Server schlägt mit etwa 3,5 Millionen US-Dollar zu Buche. Auch wenn AMD versucht, preislich etwas günstiger zu agieren, bleibt die Investition für die meisten Unternehmen unerschwinglich, insbesondere da es noch immer an klaren Neun- bis Mehrwert-Anwendungsfällen fehlt, die eine solche Kapazität wirtschaftlich rechtfertigen würden. Hinzu kommt der immense Energiebedarf – manche Systeme benötigen eine Kühlinfrastruktur, die an industrielle Maßstäbe erinnert. Für Unternehmen bedeutet dies, dass die Integration solcher Systeme neben finanziellen auch erhebliche infrastrukturelle Herausforderungen bergen würde. AMD hat selbst klargestellt, dass das Helios-Design ursprünglich auf die Bedürfnisse zweier Hyperscaler maßgeschneidert wurde.
Damit ist klar, dass keine pauschale Ausrichtung auf den klassischen Enterprise-Markt erfolgte. Stattdessen sieht AMD Helios und vergleichbare Systeme als optimale Lösungen für besonders große Cloud-Provider, sogenannte Tier-Two-Clouds sowie Neo-Cloud-Anbieter. Für Deutschlands Mittelstand, der die Mehrzahl der Unternehmen ausmacht, sowie für kleinere IT-Abteilungen sind diese Systeme aktuell schlicht keine praktikable Option. Ein weiterer interessanter Aspekt ist die Frage der Modellentwicklung und wie sie mit der Hardware Schritt hält. Die großen Foundation-Modelle im KI-Bereich brauchen zunehmend größere Skalierungen, doch aktuelle Modelle und Trainingsverfahren basieren in der Breite noch auf der hardwareseitigen Verfügbarkeit von acht GPUs pro System.
Das führt dazu, dass viele Startups und Entwicklungsabteilungen entweder auf kleinere Modelle setzen oder die Trainingsläufe so gestalten, dass sie auf traditionelle 8-GPU-Konfigurationen optimiert sind. Das hat wiederum Auswirkungen auf die Entwicklung neuer Architekturvarianten und auf die Frage, inwieweit Rack-Scale-Systeme tatsächlich den Großteil der KI-Arbeitslasten in Zukunft übernehmen werden. Das bedeutet nicht, dass NVL72 und Helios keinen Einfluss auf den IT-Markt haben. Im Gegenteil, Nvidia gibt an, dass ihre 72-GPU-Systeme trotz „nur“ 2,5-fach höherer Floating-Point-Performance gegenüber einfacheren H100-GPU-Systemen beim Training viermal schneller arbeiten können – dank optimierter Kommunikationswege und eines effizienteren „Scale-Up“-Ansatzes. Dies öffnet die Tür für extrem große Trainingsszenarien und ermöglicht KI-Forschern, Modelle in einer Größendimension zu trainieren, die mit Standardlösungen bislang undenkbar war.
Bei der Inferenz, also der Nutzung trainierter Modelle, wirken sich diese Potenziale anders aus. Hier benötigt man je nach Modelgröße und Anwendung nicht zwingend viele GPUs zusammen. Für viele Unternehmen und auch in der Cloud ist die Latenz und der Durchsatz oft leichter auf kleineren Einheiten zu managen. Deshalb setzen Hersteller weiterhin auf 8-GPU-Server wie Nvidias MI355X oder B200, die weitaus kleiner, kosteneffizienter und einfacher zu betreiben sind. Die Komplexität und der Energiebedarf der Rack-Scale-Ausrüstung kann nämlich gerade beim Dauereinsatz in Unternehmen leicht zum Hemmschuh werden.
Die Kühlung ist ein viel zu unterschätzender Faktor bei diesen großen Systemen. Während kleinere 8-GPU-Boxen meist mit herkömmlicher Luftkühlung auskommen, benötigen Rack-Scale-Systeme wie Nvidia NVL72 oder AMD Helios häufig Wasser- oder Flüssigkeitskühlung, um die enorme Wärmeentwicklung unter Kontrolle zu halten. Die entsprechende Infrastruktur fehlt vielen Unternehmen, und ihre Nachrüstung verursacht nicht nur zusätzliche Kosten, sondern auch erheblichen Aufwand. Dies limitiert die Verbreitung neuer Systeme außerhalb von speziell dafür ausgelegten Hyperscale-Rechenzentren. Insgesamt ist das Bild klar: Für besonders große und komplexe AI-Modelle bieten NVL72 und Helios bahnbrechende Möglichkeiten, die durch schnellere GPUs, bessere Vernetzung und skalierte Architekturen realisiert werden.
Für die überwiegende Mehrheit der Unternehmen und KMUs bleibt die herkömmliche 8-GPU-Architektur aber die attraktivere und sinnvollere Wahl – zumindest auf absehbare Zeit. Solange die AI-Anwendungen nicht klar den enormen Aufwand und die Kosten solcher Rack-Scale-Systeme rechtfertigen, werden diese primär in den Händen von globalen Hyperscalern bleiben. Experten wie Forrest Norrod von AMD bestätigen, dass es künftig ein abgestuftes Angebot geben wird: ultra-große Systeme für Big-Player, mittlere Konfigurationen für größere Firmen und cloudbasierte Metadienste, sowie kleinere, vielseitige 8-GPU-Server für die breite Masse der Nutzer. Diese Vielfalt wird den Markt dynamisch und differenziert halten. Es besteht kein Zweifel daran, dass die Entwicklung der KI-Systemarchitektur voranschreitet und die Parameterzahlen der Modelle auf Jahre hinaus wachsen werden.
Doch der Weg vom Prototyp im Hyperscale zum Alltag im Unternehmen ist noch weit. Die Investitionen in Systemdesigns wie NVL72 und Helios zeigen eindrucksvoll, wohin die Reise geht, wenn es um das Training extrem großer KI-Modelle geht. Mit Blick auf Deutschland und Europa spielen dabei allerdings auch energiepolitische, infrastrukturelle und wirtschaftliche Rahmenbedingungen eine bedeutende Rolle. Unternehmen müssen realistisch bleiben, wenn es um die Wahl ihrer KI-Infrastruktur geht. Es gilt, passende Lösungen zu finden, die Leistung, Kosten und Nachhaltigkeit im Einklang bringen.
Zusammenfassend lässt sich sagen, dass Nvidia und AMD mit NVL72 und Helios beeindruckende Rack-Scale-Innovationen schaffen, die für hyperskalierende Anbieter und technische Schwergewichte ideal sind. Doch gerade für traditionelle Unternehmen, die auf bewährte, flexible und kosteneffiziente KI-Infrastrukturen setzen, bleiben die kleineren, modularen 8-GPU-Server der geeignete Weg. Nur so lässt sich die Balance zwischen Innovationsfähigkeit und wirtschaftlichen Zwängen langfristig erfolgreich gestalten.