Huawei hat mit der AI CloudMatrix 384 ein revolutionäres KI-Beschleuniger- und Rack-Skalierungsarchitektur-System vorgestellt, das sich als klangvolle Antwort auf Nvidias GB200 NVL72 Positionierung im globalen KI-Markt versteht. Dieses System ist nicht nur ein leistungsstarkes Chip-Produkt, sondern ein ganzheitliches System, das speziell auf die Skalierung über große Rechenzentren hinweg ausgelegt wurde und auf optische Verbindungen setzt, anstelle auf traditionelle Kupferkabel. Diese technische Innovation ist ein markantes Signal für eine neue Ära in der KI-Server-Technologie und spiegelt Chinas strategische Ambitionen wider, im Bereich der künstlichen Intelligenz unabhängig und wettbewerbsfähig zu sein. Die CloudMatrix 384 basiert auf dem Ascend 910C-Chip, der zwar auf dem Chip-Level hinter Nvidias Blackwell-Generation zurückliegt, jedoch durch Skalierung und Systemintegration wettgemacht wird. Huawei kombiniert in einem einzigen System 384 dieser Chips in einem All-to-All-Netzwerk.
Diese ungewöhnliche Architektur erlaubt eine enorme parallele Verarbeitung, die in Zahlen ausgedrückt eine Spitzenleistung von bis zu 300 Petaflops (dense BF16) erreicht — fast das Doppelte der GB200 NVL72. Zusätzlich bietet das System eine mehr als 3,6-fach höhere Gesamtspeicherkapazität sowie 2,1-fach höhere Speicherbandbreite. Diese Werte demonstrieren eindrucksvoll das Potenzial der CloudMatrix 384, das Wachstum und die Leistungsfähigkeit chinesischer KI-Serverinfrastrukturen voranzutreiben. Ein auffälliges Merkmal der CloudMatrix 384 ist die umfassende Verwendung von optischen Verbindungen. Statt Kupferkabel einzusetzen, verwendet Huawei vollständig optische Schnittstellen, um die Kommunikation zwischen den Chips zu ermöglichen und Engpässe bei der Datenübertragung zu minimieren.
Im Kern des Systems finden sich 6.912 linear pluggable Optical (LPO) 400G Transceiver, welche die hohe Datenrate über die gesamte Architektur gewährleisten. Diese Entscheidung resultiert aus Chinas besonderer Stärke im Bereich der optischen Netzwerktechnologie und adressiert gleichzeitig die Probleme, die mit Kupferkabeln bei der Skalierung auf mehrere hundert GPUs auftreten. Optische Verbindungen sind dabei nicht nur energieeffizienter, sondern auch störungsresistenter, was in großen Rechenzentren eine wichtige Rolle spielt. Bei der Stromversorgung zeigt sich allerdings ein gravierender Unterschied: Die CloudMatrix 384 benötigt für ihre enorme Rechenleistung deutlich mehr Energie als das vergleichbare Nvidia-System.
Konkret verbraucht sie etwa das 4,1-fache der Leistung eines GB200 NVL72 und erzielt dabei eine um 2,6-mal geringere Performance pro Watt. Das mag in westlichen Rechenzentren ein entscheidendes Kriterium sein, doch in China spielt die Strom-Effizienz eine untergeordnete Rolle, da die dortige Infrastruktur aktuell eher von einem Überfluss an verfügbarer Energie und weniger von strikten Energieeinsparungen geprägt ist. Darüber hinaus ist die chinesische Stromversorgung durch einen Mix aus Kohle, Solar-, Wind- und Kernkraftwerken inzwischen so umfangreich, dass ein höherer Energieverbrauch eher eine weniger kritische Einschränkung darstellt und zugunsten der maximalen Leistung in Kauf genommen werden kann. Die Fähigkeit von Huawei, solch ein System mit 384 vernetzten Ascend 910C-Chips zu realisieren, hängt eng mit den Fortschritten in der chinesischen Halbleiterindustrie zusammen. Obwohl diese Chips primär durch fremde Fertigungspartner wie TSMC produziert werden, ist dies ein Bereich, in dem sich die chinesische Industrie trotz US-Sanktionen technologische Spielräume erarbeitet hat.
Insbesondere ist bekannt, dass Huawei über Drittunternehmen noch immer Zugang zu hochwertigen 7-nm-Fertigungskapazitäten von TSMC erhält, was die technologische Basis für die CloudMatrix 384 ermöglicht. Parallel dazu bauen chinesische Foundries wie SMIC ihre Kapazitäten weiter aus und verbessern die Ausbeuten, sodass in naher Zukunft eine stärkere lokale Produktion denkbar ist. Ein weiterer Engpass bei der Produktion stellt der Zugang zu High Bandwidth Memory (HBM) dar. China schafft es bisher nicht, HBM in ausreichender Menge und Qualität selbst zu produzieren. Huawei profitiert hier von Lagerbeständen und Lieferketten vom koreanischen Hersteller Samsung.
Mittlerweile lagern Berichten zufolge bis zu 13 Millionen HBM-Stapel, die für etwa 1,6 Millionen Ascend 910C-Pakete reichen würden. Trotz bestehender Exportbeschränkungen finden diese Speicherchips mit teils komplexen Umgehungsmethoden ihren Weg nach China, wobei sie unter anderem in System-in-Package-Lösungen verbaut und anschließend aufgetrennt werden, um den Speicher herauszulösen. Im Gegensatz zu Nvidia, die mit ihrem DGX H100 NVL256 „Ranger“-System 2022 eine ähnliche optische Netzwerktechnik vorgestellt, das jedoch aufgrund hoher Kosten, Stromverbrauch und Stabilitätsprobleme nicht in Serie ging, hat Huawei sich entschieden, diese Technologie konsequent einzusetzen. Die CloudMatrix 384 ist somit ein Paradebeispiel, wie China seine Innovationen auf Systemebene vorantreibt, indem der Fokus nicht nur auf dem Mikrochips liegt, sondern auf der Integration von Chips, Netzwerk, Optik und Software, um ein skalierbares und zuverlässiges KI-Ökosystem aufzubauen. Diese Architektur ist speziell auf die Systemskalierung ausgelegt.
Ein voll ausgebautes CloudMatrix-System erstreckt sich auf 16 Racks, mit 12 Compute-Racks, die jeweils 32 GPUs enthalten, und 4 Racks, die als Skalierungs-Switches fungieren. Die Verbindung der Compute-Chips über alle Racks hinweg per optischem Netzwerk ermöglicht eine All-to-All-Kommunikation, die notwendig ist, um komplexe KI-Modelle mit sehr hohem Kommunikationsaufwand effizient zu berechnen. Dieses Design geht weit über typische Multi-GPU-Systeme hinaus und schafft eine Infrastruktur, mit der sich Rechenleistungen im Petaflop-Bereich realisieren lassen. Die CloudMatrix 384 zeigt eindrucksvoll, dass Huawei und China gestalterisch an der Spitze der KI-Servertechnologie stehen wollen, auch wenn eine reine Betrachtung der einzelnen Komponenten wie der Ascend 910C-Chips nicht mit den besten westlichen GPUs mithalten kann. Die Stärke liegt vielmehr in der Systemintegration und in der Nutzung der eigenen Infrastrukturkompetenzen, darunter Optik, Netzwerktechnik und Software-Engineering.
Dieses Zusammenspiel macht die CloudMatrix 384 zu einem bemerkenswerten Baustein in Chinas KI-Strategie. Langfristig wird die CloudMatrix 384 zeigen müssen, wie sich diese Lösung im internationalen Wettbewerb bewährt. Der größenbedingte Energiebedarf ist eine Herausforderung, die in Regionen mit Einschränkungen in der Energieversorgung limitierend sein kann. Aber Chinas aktuelles Überangebot an Strom und die nationale Bereitschaft, dafür die Kosten zu tragen, erlauben es Huawei, andere Kriterien wie absolute Rechenleistung und Skalierbarkeit in den Vordergrund zu stellen. Aus strategischer Sicht ist die CloudMatrix 384 auch ein Sinnbild für die technologische Unabhängigkeit Chinas, die trotz massiver Sanktionen und Exportkontrollen bei kritischen Technologien nicht aufgegeben wird.
Die teilweise Umgehung von US-Exportbeschränkungen bezüglich Chipfertigung und HBM ist nur ein Beispiel dafür, wie komplex und global verflochten die Lieferketten inzwischen sind. Gleichzeitig geht die rasante Entwicklung der chinesischen Halbleiterindustrie weiter, wodurch die heimische Chipfertigung und Memory-Produktion in kommenden Jahren relevanter werden dürften. Für Unternehmen, Investoren und technologische Beobachter ist die CloudMatrix 384 somit ein Schlüsselindikator für die Wettbewerbsfähigkeit und Innovationsfähigkeit Chinas im Feld der Hochleistungs-KI-Systeme. Das System signalisiert, dass Huawei und das weitere chinesische Ökosystem weniger auf einzelne Spitzenprodukte setzen, sondern zunehmend auf durchdachte Systemlösungen, die maximalen Wirkungsgrad in den eigenen technologischen und infrastrukturellen Rahmenbedingungen erzielen. Abschließend lässt sich festhalten, dass die Huawei AI CloudMatrix 384 einen bedeutenden Meilenstein im weltweiten KI-Infrastruktur-Markt darstellt.
Die Kombination aus umfangreicher Skalierung, optischer Vernetzung und der Nutzung nationaler Stärken macht das System zu einem herausfordernden Wettbewerber für westliche Produkte. Während Energieeffizienz im Westen zunehmend im Fokus steht, nutzt China auf der anderen Seite noch vorhandene Ressourcen, um Leistung und Skalierbarkeit zu maximieren und damit die Tür für neue Anwendungen und Forschungsbereiche im künstlichen Intelligenzfeld weit zu öffnen. In diesem Balanceakt zwischen Energieverbrauch, Leistung und Eigenständigkeit liegt eine spannende Entwicklung, die weiterhin beobachtet werden sollte.