Virtuelle Realität Krypto-Startups und Risikokapital

AMD CDNA 4 Architektur: Neuer Maßstab für Hochleistungs-GPUs im Jahr 2025

Virtuelle Realität Krypto-Startups und Risikokapital
AMD's CDNA 4 Architecture Announcement – By Chester Lam

Die AMD CDNA 4 Architektur setzt neue Maßstäbe in der Welt der Hochleistungs-Grafikprozessoren. Mit einem Fokus auf verbesserte Matrixmultiplikation und gesteigerte Leistung bei maschinellem Lernen revolutioniert AMD das GPU-Design und stärkt seine Position im Wettstreit mit Nvidia im Bereich HPC und KI.

Im Sommer 2025 hat AMD die neueste Generation seiner Compute-GPU-Architektur vorgestellt: CDNA 4. Diese Entwicklung markiert eine evolutionäre Verbesserung gegenüber dem Vorgänger CDNA 3 und richtet sich gezielt auf das stetig wachsende Feld der künstlichen Intelligenz und des maschinellen Lernens. Insbesondere steht die Beschleunigung der Matrixmultiplikation mit niedrigpräzisen Datentypen im Vordergrund, welche für KI-Algorithmen eine fundamentale Rolle spielen. Gleichzeitig möchte AMD seine hervorragende Leistung bei allgemeineren Vektor-Operationen verteidigen, um den hohen Ansprüchen im High-Performance-Computing gerecht zu werden. CDNA 4 setzt das bewährte Systemlevel-Design seines Vorgängers fort, das sich durch einen innovativen Chiplet-Ansatz auszeichnet.

Das Konzept ähnelt der CPU-Technologie von AMD und beruht auf sogenannten Accelerator Compute Dies (XCDs). Diese Compute-Dies enthalten die Compute Units (CUs) der CDNA-Architektur und bilden das Herzstück der GPU ähnlich wie Core Complex Dies bei AMD-CPUs. Insgesamt befinden sich acht XCDs über vier Basis-Dies verteilt, die 256 MB Memory-Side-Cache implementieren. Die Infinity Fabric von AMD sorgt dabei für kohärenten und schnellen Speicherzugriff zwischen den einzelnen Chips und ermöglicht so eine effiziente Skalierung der Architektur über große Compute-GPUs hinweg. Im Vergleich zum Vorgängermodell MI300X mit CDNA 3 verbaut AMD im neuen MI355X basierend auf CDNA 4 zwar leicht weniger Compute Units pro XCD und schaltet einige CUs aus, um die Produktionsausbeute zu verbessern.

Doch dieser Verlust an breitbandiger Rechenkapazität wird durch deutlich höhere Taktraten kompensiert. Im Vergleich zum direkten Konkurrenten Nvidia B200, der erstmals eine Multi-Die-Lösung statt eines monolithischen Designs nutzt, zeigt sich AMDs enge Verwandtschaft zu CPU-Designs, mit einem aggressiveren Chiplet-Ansatz, der auf Skalierbarkeit und hohe Leistung ausgerichtet ist. Einen besonderen Schwerpunkt hat AMD auf die Optimierung der Compute Units gelegt. Während CDNA 3 bereits einen enormen Vorsprung bei der Vektorverarbeitung gegenüber Nvidias H100 aufwies, interpretiert CDNA 4 diese Stärke neu und justiert die Compute Units verstärkt auf Matrixmultiplikation mit niedrigpräzisen Datentypen, die in modernen KI-Anwendungen dominieren. Die Folge ist eine Verdopplung der Matrix-Durchsatzleistung pro CU in vielen Fällen.

Im Bereich FP6 – einer innovativen 6-Bit Gleitkommadatentypklasse für KI-Workloads – erreicht CDNA 4 sogar die Rechenleistung der Nvidia B200 Streaming Multiprozessoren. Nvidia hingegen behält bei anderen 16- und 8-Bit-Datentypen noch weiterhin die Nase vorn, wodurch AMD weiterhin auf höhere GPU-Größen und Taktraten setzt, um bei der Gesamtleistung die Spitzenposition zu behaupten. Neben der optimierten Matrixmultiplikation überzeugt CDNA 4 auch mit seiner beeindruckenden Vektor-Performance. Jede Compute Unit verfügt über 128 FP32-Lanes, die pro Taktzyklus 256 FLOPS bei FMA-Operationen liefern können. Obwohl die CU-Anzahl im MI355X etwas reduziert ist, bleibt die Vektorleistung gegenüber dem Vorgänger MI300X auf sehr hohem Niveau.

Gegenüber Nvidia Blackwell behält AMDs Architektur aufgrund höherer Kernzahlen und deutlich gesteigerter Taktraten einen signifikanten Vorsprung. Damit ist CDNA 4 weiterhin eine hervorragende Wahl für klassische HPC-Anwendungen, die auf schnelle Vektoroperationen angewiesen sind. Ein weiterer technischer Fortschritt liegt in der Vergrößerung des Local Data Share (LDS), einem softwareverwalteten, sehr schnellen Zwischenspeicher innerhalb der GPU. CDNA 3 bot mit 64 KB bereits eine solide Basis, doch CDNA 4 steigert diese Kapazität auf beeindruckende 160 KB und verdoppelt die Lesebandbreite auf 256 Bytes pro Takt. Dieser Zuwachs bietet Softwareentwicklern die Möglichkeit, mehr Daten in unmittelbarer Nähe zu den Verarbeitungseinheiten zu halten, was wiederum die Leistung fördert.

Dies ermöglicht es beispielsweise, mehr parallele Arbeitsgruppen mit größeren LDS-Allokationen auszuführen, ohne Einbußen bei der Auslastung zu erleiden. Darüber hinaus führt die neue Architektur mit erweiterten GLOBAL_LOAD_LDS-Anweisungen eine effizientere Datenübertragung in den LDS ein und ermöglicht erstmals Transfers von bis zu 128 Bit pro Lane, gegenüber 32 Bit in der Vorgängerversion. Zusätzlich bringt CDNA 4 neue Leseoperationen mit Transpose-Funktionalität ins LDS, was speziell bei Matrixmultiplikationen große Vorteile bringt. Da bei solchen Berechnungen oft Zeilen- und Spaltenoperationen kombiniert werden, kann das lokale Transponieren der Daten im LDS Zugangsmuster optimieren und so die Effizienz erheblich steigern. Im Vergleich zu Nvidias Blackwell-Architektur, die mit ihrem Shared Memory bis zu 256 KB pro Streaming Multiprozessor in Kombination mit einem größeren L1-Cache aufwartet, hat AMD pro Compute Unit zwar etwas weniger softwareverwalteten Speicher, gleicht dies aber durch die deutlich höhere Anzahl der Compute Units und somit größere Gesamt-LDS-Kapazität aus.

So ergeben sich rund 40 MB LDS-Kapazität über die gesamte GPU bei AMD gegenüber etwa 33 MB Shared Memory bei Nvidia. Dies stellt einen wichtigen Vorteil für parallelisierte Anwendungen dar, die massiv von schnellem Storage nahe an den Ausführungseinheiten profitieren. Die Systemarchitektur des MI355X basiert auf dem erfolgreichen Fundament des MI300X, wurde allerdings im Detail verfeinert. Das L2-Cache-System wurde überarbeitet und bietet nun die Fähigkeit, "dirty" Daten beim Schreiben zurückzuprogrammieren und weiterhin zu behalten. Dieses Verfahren kann in Zeiten mit niedrigem Speichersubsystem-Load dazu genutzt werden, Schreibbandbreiten besser auszunutzen und Lastspitzen abzufedern.

Es könnte zudem die Konsistenz bei Daten erleichtern, die von mehreren Threads über das System hinweg genutzt werden. Die Speicherunterstützung profitiert von einem Upgrade auf HBM3E. Der MI355X bietet damit nicht nur eine erhöhte Speicherbandbreite von 8 TB/s, sondern auch eine volle Kapazität von 288 GB. Im Vergleich dazu erreicht Nvidias B200 eine Bandbreite von 7,7 TB/s bei einer Kapazität von maximal 180 GB. Diese Verbesserungen bewahren AMDs charakteristische Stärke, bei Speicherintensiven Arbeitslasten auch mit viel größerem DRAM ausdauernder zu sein und somit eine Performance-Basis zu bieten, die auch bei extremen Datenmengen ihre Effizienz hält.

Das Verhältnis von Speicherbandbreite zu Rechenleistung verbessert sich beim MI355X ebenfalls erheblich. Während der MI300X ein typisches Verhältnis von circa 0,03 Bytes DRAM-Bandbreite pro FP32-FLOP aufwies, liegt der MI355X bei etwa 0,05. Für den Vergleich: Nvidia Blackwell bietet rund das Doppelte mit 0,10 Bytes pro FLOP. Während Nvidia vermehrt auf größeren Last-Level-Cache setzt, legt AMD weiterhin deutlichen Wert auf große On-Chip-Caches und massiv skalierte Speicherhierarchien. Abschließend lässt sich sagen, dass AMD mit CDNA 4 einen behutsamen, aber gezielten Schritt vollzieht.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Maternal Iron Deficiency Can Trigger Sex Reversal in Mouse Embryos
Montag, 08. September 2025. Wie Eisenmangel bei Schwangeren das Geschlecht von Maus-Embryonen beeinflussen kann

Die Forschung zeigt, dass Eisenmangel während der Schwangerschaft die Geschlechtsentwicklung von männlichen Maus-Embryonen umkehren kann – ein bahnbrechender Befund, der neue Perspektiven für das Verständnis der Geschlechtsbestimmung eröffnet.

LLMs Don't Think Like Developers – Until Now
Montag, 08. September 2025. Wie Große Sprachmodelle Entwicklernähnliches Denken Erlernen und Die Softwareentwicklung Revolutionieren

Erfahren Sie, wie große Sprachmodelle (LLMs) traditionelle Denkweisen von Entwicklern übernehmen und dadurch die Zukunft der Softwareentwicklung prägen. Dieser Beitrag beleuchtet die Transformation der Künstlichen Intelligenz im Entwicklerumfeld und zeigt, welche Chancen und Herausforderungen sich daraus ergeben.

We need to show AI what didn't work as well as what did
Montag, 08. September 2025. Künstliche Intelligenz: Warum es wichtig ist, auch das Scheitern zu zeigen

Die Bedeutung negativer Ergebnisse für die Entwicklung von KI-Systemen im wissenschaftlichen Bereich und wie das Teilen von Misserfolgen die Zukunft der Forschung verbessert.

Turning Down the Heat: A Critical Analysis of Min-P Sampling in Language Models
Montag, 08. September 2025. Die Kunst der Textgenerierung: Kritische Analyse von Min-P Sampling in Sprachmodellen

Ein tiefgehender Einblick in Min-P Sampling, seine Rolle in modernen Sprachmodellen und wie diese Methode die Qualität der Textgenerierung optimiert und zugleich Herausforderungen mit sich bringt.

AI 'reanimations': Making facsimiles of the dead raises ethical quandaries
Montag, 08. September 2025. Künstliche Intelligenz und die Wiederbelebung der Toten: Ethische Herausforderungen und gesellschaftliche Auswirkungen

Die Nutzung künstlicher Intelligenz zur Nachbildung verstorbener Personen wirft komplexe ethische Fragen auf. Von rechtlichen Aspekten bis hin zu gesellschaftlichen Folgen beleuchtet dieser Beitrag die kontroverse Thematik rund um AI-Reanimationen und deren Einfluss auf Erinnerungskultur, Identität und die Wahrung der Würde der Verstorbenen.

Blog implemented using NextJS App router
Montag, 08. September 2025. Moderne Webentwicklung mit Next.js App Router: Ein umfassender Leitfaden zur Blog-Implementierung

Erfahren Sie, wie Sie einen leistungsfähigen und SEO-optimierten Blog mit dem Next. js App Router erstellen.

Coinbase Seeks SEC Approval to Offer Blockchain-Based Stock Trading
Montag, 08. September 2025. Coinbase strebt SEC-Genehmigung für blockchainbasierten Aktienhandel an – Zukunft des Tradings in den USA?

Coinbase, die führende US-Krypto-Börse, beantragt bei der SEC die Erlaubnis, tokenisierte Aktien anzubieten. Diese Innovation könnte den Aktienhandel revolutionieren und bringt neue Chancen sowie regulatorische Herausforderungen mit sich.