Arm hat sich ursprünglich vor allem durch seine Cortex-CPU-Reihe einen Namen gemacht, doch das Unternehmen hat sein Portfolio deutlich erweitert und bietet heute eine Vielzahl von lizenzierten IP-Blöcken an – darunter Grafikprozessoren (GPUs), Speicherschnittstellen und weitere Beschleuniger. Im Vergleich zu Desktop-Grafikkarten sind Arm Mali GPUs speziell auf geringe Leistungsaufnahme und den Einsatz in eingebetteten sowie mobilen Geräten ausgerichtet, wo Energie- und Flächenbeschränkungen eine große Rolle spielen. Die Bifrost Architektur stellt dabei einen bedeutenden Schritt in Arm’s Entwicklung von GPU-Technologie dar. Sie ist die zweite Generation der einheitlichen Shader-Architektur, die erstmals 2016 eingeführt wurde und die Vorgänger-Architektur Midgard in vielerlei Hinsicht übertrifft. Bifrost wurde speziell entwickelt, um auf engem Raum und mit vergleichsweise geringem Energieverbrauch eine hohe parallele Rechenleistung zu liefern, was gerade für Smartphones, Tablets sowie Low-End-Laptops von entscheidender Bedeutung ist.
Ein Markenbeispiel für Bifrost stellt die Mali-G52 GPU dar, die sich vor allem durch ihre hohe Flexibilität und geringe Größe auszeichnet. Der Mali-G52, beispielsweise im Amlogic S922X Chipsatz verbaut, zeigt eindrucksvoll, wie Arm die Anforderungen an mobile Grafikleistung effizient erfüllt und dabei komplexe Rechenaufgaben meistern kann. Im direkten Vergleich mit andern GPUs aus dem Bereich der mobilen Grafiklösungen, wie Qualcomms Adreno 615, werden Stärken und Besonderheiten der Mali-G52 sichtbar. Anders als viele andere GPU-Hersteller lizenziert Arm seine Mali-GPUs lediglich als IP-Blöcke, ohne die gesamte Chiparchitektur zu kontrollieren. Kunden integrieren diese IP in eigene System-on-Chip Designs, zusammen mit weiteren Komponenten wie Video-Decodern und Speicher-Controllern.
Diese Modularität erlaubt eine individuell anpassbare Zusammenstellung, stellt das Arm-Team aber auch vor die Herausforderung, eine möglichst universell leistungsfähige GPU zu entwickeln, die unter unterschiedlichsten Speichersubsystemen und Umgebungen zuverlässig funktioniert. Die Bifrost Architektur zeichnet sich durch die Umstellung von einem VLIW (Very Long Instruction Word)-basierten Design auf ein skalarspezifisches, dual-issue Modell aus. Während der Vorgänger Midgard mit VLIW4 arbeitet und dadurch Komplexität in der Instruktionsausnutzung erzeugte, setzt Bifrost auf skalare Ausführungspfade, die mit zwei Instruktionen pro Taktzyklus umgehen können. Dieser Ansatz führt zu stabileren Leistungsergebnissen, weil die Kompilierung flexibler und einfacher wird und die Auslastung der Ausführungseinheiten konstanter bleibt. Die GPU ist in Shader-Cores organisiert, die jeweils mehrere Execution Engines enthalten.
Diese Execution Engines bieten die tatsächlichen Ausführungspipelines für Fließkomma- und Integer-Operationen, vergleichbar mit den Execution Units anderer Hersteller wie Intel oder AMD. Die Shader-Cores bilden die zentrale Organisationseinheit der Mali-Architektur, die sowohl Verarbeitungseinheiten als auch Caches und sonstige fixe Funktionseinheiten beinhaltet. Die Möglichkeit, Shader-Core Anzahl, Kern-Konfiguration sowie Cache- und Render-Back-End-Größe flexibel anzupassen, macht Bifrost extrem skalierbar und eignet sich, um sehr unterschiedliche Leistungs- und Energieprofile abzudecken. Das Design der Execution Engines erlaubt es, innerhalb eines Threads von skalarem Code auszugehen, bei dem jeder Thread 32-Bit-Register bearbeitet. Die parallele Ausführung wird durch die Verteilung auf mehrere Threads und Warps erreicht, die in Bifrost aus acht API-Threads bestehen.
Die Anzahl der aktiven Warps pro Execution Engine ist limitiert, wobei die GPU insgesamt bis zu 768 aktive Threads theoretisch gleichzeitig ausführen kann. Allerdings kann die tatsächliche Auslastung durch Registerbelegung und Parallelitätsgrad beeinträchtigt werden. Innerhalb der Execution Engines adressiert Arm eine der größten Herausforderungen moderner GPUs – begrenzte Registerbandbreite. Registerzugriffe werden durch vier Port-Register-Dateien mit Lesern und Schreibern koordiniert, was insbesondere beim gleichzeitigen Schreiben von Ergebnissen zweier Operationen an Grenzen stößt. Um diese Limitierungen auszugleichen, kommen temporäre Register („forwarding paths“) und spezielle Konstantenquellen zum Einsatz, die häufig benötigte Daten mit geringerer Latenz bereitstellen.
Die Execution Pipelines von Bifrost sind ebenso für unterschiedliche Datentypen optimiert. Neben den üblichen 32-Bit Fließkommaoperationen unterstützt Mali-G52 auch niedrigerpräzise 16- und 8-Bit Berechnungen effizient. Dies ist besonders relevant für Anwendungen im Bereich maschinelles Lernen und KI, die häufig mit reduzierter Präzision arbeiten, um Speicher- und Bandbreitenanforderungen zu reduzieren. Im Vergleich konkurrent mit Qualcomms Adreno 615 bietet Bifrost eine bessere Performance bei gemischter oder niedriger Präzision sowie eine nativere und schnellere Umsetzung von FMA (Fused Multiply Add)-Operationen. Ein weiterer wichtiger Bereich ist die Speichersubsystem-Architektur, die bei Bifrost aus dedizierten Textur- und Last-/Speicherwegen besteht, die jeweils mit eigenen Caches ausgestattet sind.
Während die Bandbreite im Vergleich zu Desktop-GPUs gering ist, nutzt Arm effiziente Kachelungsverfahren, um Speicherzugriffe zu minimieren und so die durch Speicherbandbreite verursachten Engpässe zu umgehen. Tiled Rendering ist dabei ein zentraler Mechanismus, bei dem der Bildschirminhalt in kleine Kacheln unterteilt und nacheinander verarbeitet wird. Dies verhindert übermäßige DRAM-Zugriffe durch Pufferung auf Chipniveau und reduziert damit den Energieverbrauch erheblich. Das Speicherdesign unterscheidet sich in einem weiteren Punkt signifikant von vielen Konkurrenten: Mali-G52 implementiert keine dedizierte On-Chip Shared Memory Struktur für Compute Shader. Geteiltes Arbeitsgruppenspeicher (local/shared memory) wird über denselben Pfad wie regulärer System-RAM abgewickelt, was die Effizienz bei lokalen Datenzugriffen beeinträchtigen kann.
Dennoch ist dieser Aufbau einer klassischen ARM-Designphilosophie geschuldet, mit dem Ziel, Hardware einfach und flexibel zu halten sowie die Lizenzierbarkeit zu verbessern. Die L2-Caches der Mali-G52 sind nach Skalierbarkeit designed und können je Shader-Core zwischen 64 und 128 KB umfassen. Dies steht im Gegensatz zu kleineren On-Chip-Caches von Midgard und führt zu einem besseren Cache-Trefferrate und damit niedrigeren Speicherzugriffen aufs Hauptsystem. Abhängig von der Systemimplementierung – wie beispielsweise in Amlogics S922X mit 128 KB L2 pro Shader-Core – wird die Leistungsfähigkeit sowie Energieeffizienz stark beeinflusst. Die Anbindung an das Gesamtsystem stellt Arm in Form des ACE-Memory-Bus (Arm Coherent Extension) zur Verfügung, womit die GPU auf das gemeinsame Speicher-Subsystem zugreift.
Allerdings liegt es in der Hand des Chip-Designers, wie der Speichercontroller und die weiteren On-Chip-Komponenten gestaltet werden. Dies kann zu deutlichen Unterschieden in der Speicherlatenz und Bandbreite führen, was wiederum die Performance der Mali-G52 maßgeblich beeinflusst. In Bezug auf Parallelitätsmanagement unterstützt Bifrost ein Software-Scoreboard und ein klauselbasiertes ISA (Instruction Set Architecture) mit atomarer Ausführung von Clauses, also Blöcken von Instruktionen. Das vereinfacht den Scheduler, reduziert die Hardware-Komplexität und steigert gleichzeitig die Effizienz bei der Register- und Pipeline-Auslastung. Dies ist insbesondere für ein effizientes Kontext-Switching zwischen Warps wichtig, um Latenzen zu überbrücken.
Bei der Berechnung spezieller Funktionen wie inversen Quadratwurzeln oder trigonometrischen Operationen zeigt Bifrost eine bessere Effizienz gegenüber zahlreichen Konkurrenzarchitekturen, da diese direkt auf dem FADD-Pipeline-Pfad mit optimierten Instruktionen ausgeführt werden. Qualcomms Adreno 615 setzt dagegen auf deutlich langsamere softwaregestützte Umsetzung solcher Spezialfunktionen. Die Mali-G52 GPU zeigt ebenso eine intelligente Power- und Taktmanagement-Architektur. Verschiedene Power-Domains erlauben es, einzelne Shader-Cores oder Teile der Grafikpipeline unabhängig voneinander zu deaktivieren, wenn sie nicht benötigt werden. Zusammen mit der dynamischen Anpassung von Taktraten führt dies zu hohen Energieeinsparungen in Leerlauf- oder Niedriglast-Situationen, was für mobile Geräte ein entscheidendes Merkmal ist.
Das Gesamtbild zeigt, dass Arm mit Bifrost und der Mali-G52 speziell auf eine breite Anwendungsvielfalt abzielt – vom klassischen Grafikrendering bis hin zur allgemeinen Berechnung („parallel compute“). Diese Bandbreite erfordert eine hohe Flexibilität und Anpassungsfähigkeit der GPU-Architektur, ohne dabei den Fokus auf geringe Leistungsaufnahme zu verlieren. Dies unterscheidet Bifrost deutlich von anderen Lösungen, die entweder nur in PC-Laptops oder Gaming-Geräten dominieren. Vergleicht man die Mali-G52 mit ihrem direkten Konkurrenten Qualcomm Adreno 615, so fällt auf, dass beide GPUs ähnliche Fließkomma-Durchsatzpotentiale aufweisen, dies jedoch durch unterschiedliche Herangehensweisen erreichen. Der Adreno 615 ist mit 64- bis 128-fach breiteren Ausführungseinheiten konzipiert, läuft dabei aber mit niedrigeren Taktfrequenzen und ist stark auf Grafik-Workloads optimiert.
Mali-G52 dagegen setzt auf kleinere, aber vielfach parallel betriebene Execution Engines, die mit höherem Takt betrieben werden und allgemein bessere Nischenleistungen für Compute-Aufgaben bieten. Darüber hinaus liegt der Mali-G52 mit seinen FP16-Durchsatzfähigkeiten gleichauf oder sogar vorn, was angesichts der wachsenden Bedeutung von KI- und ML-Aufgaben in mobilen Endgeräten einen wichtigen technologischen Vorteil darstellt. Qualcomm dagegen zeigt Schwächen etwa bei der schnellen FMA-Berechnung und bei der zuverlässigen Umsetzung von 8-Bit Integer-Operationen, während Bifrost in diesen Bereichen durchgängig Leistung bietet. Bifrost integriert zudem verbesserte interne Cache-Strukturen und optimiert die Speicherbandbreite, um die aufgrund von mobil begrenzten DRAM-Interfaces entstehenden Engpässe zu minimieren. Die Umsetzung von geteiltem Virtual Memory und Interoperabilität mit CPU-Caches hängt zwar stark vom zugrundeliegenden Chip-Design ab, bietet bei passenden Systemen aber moderne Features wie Feinsteuerung des Datenaustauschs zwischen GPU und CPU.
Unter dem Strich offenbart sich mit der Mali-G52 dank Bifrost eine GPU, die technologisch viele clevere Ideen aus Therascale-Designs adaptiert und gleichzeitig in aktuelle mobile Anforderungen übersetzt. Das Ergebnis ist ein höchst flexibles, energieeffizientes und vielseitiges GPU-Design, das mit seiner Modularität ganz unterschiedliche Use-Cases abdeckt. Die Architektur bildet eine solide Grundlage für Arm, auf dem stark nachfragenden mobilen Markt weiterhin konkurrenzfähig zu bleiben. Die Zukunft der Mali-GPUs baut auf der Bifrost-Philosophie auf, ausgelegt auf energiebewusste Systemintegration und flexible Lizenzierungsmodelle. Mit der Weiterentwicklung moderner Architekturen in Richtung höherer Programmierbarkeit und besserer Compute-Performance bleibt Arm in einem dynamischen Marktumfeld ein wichtiger Spieler.
Leistungsmerkmale wie die dual-issue Execution Engines, die skalierbare Shader-Core-Architektur und die Low-Level-Steuerung von Speicherzugriffen zeigen, dass die Mali-G52 und Bifrost auch nach mehreren Jahren Entwicklungszeit ihre Relevanz in mobilen und eingebetteten Systemen behalten. Damit stellen die Bifrost Architektur und die Mali-G52 GPUs einen Meilenstein in der Evolution sparsamer Grafikprozessoren dar und sind ein Beleg für Arms Fähigkeit, auch in der komplexen Welt der GPU-Entwicklung innovative und marktfähige Lösungen zu liefern.