Die zunehmende Komplexität von künstlicher Intelligenz, wissenschaftlichem Rechnen und High-Performance-Computing hat die Nachfrage nach spezialisierten Hardwarebeschleunigern exponentiell wachsen lassen. Diese Beschleuniger vereinfachen und beschleunigen Rechenprozesse erheblich, indem sie stark auf parallele und effiziente Datenverarbeitung ausgelegt sind. Dabei ist die systolische Array-Architektur besonders hervorzuheben, die durch ihren spezifischen Datenfluss und die enge Verkettung von Verarbeitungselementen eine herausragende Leistung und Energieeffizienz erzielen kann. Um solche Architekturen besser zu verstehen, zu optimieren und zu validieren, sind präzise Simulationstools unerlässlich. Hier setzt SCALE-Sim v3 an, ein modularer, taktgenauer Simulator, der für systolische Beschleuniger konzipiert ist und darüber hinaus den gesamten Systemkontext berücksichtigen kann.
Die Entwicklung von SCALE-Sim v3 geht über die Vorgängerversionen hinaus und adressiert zentrale Herausforderungen, die aus den neuesten Anforderungen moderner Beschleuniger resultieren. Dabei kombiniert die Software eine Vielzahl von Funktionen, um eine vollständige und realistische Simulation zu ermöglichen. Besonders hervorzuheben ist die Einführung von Mehrkern-Simulationen mit spatio-temporaler Partitionierung, was die Darstellung komplexer, parallel arbeitender Systemkomponenten erlaubt. Zudem wird eine hierarchische Speicherstruktur integriert, die realitätsnahe Speicherzugriffe und -latenzen abbildet und somit wesentlich zur Genauigkeit beiträgt. Ein weiterer Meilenstein ist die Unterstützung für Sparse-Matrix-Multiplikationen.
In modernen Deep-Learning-Modellen und wissenschaftlichen Anwendungen werden zunehmend dünnbesetzte Matrizen verwendet, um Rechenleistung und Speicherressourcen effizienter zu nutzen. SCALE-Sim v3 ermöglicht nun eine differenzierte Simulation von sparsitybasierten Operationen auf Ebene von Schichten und Zeilen. Damit lassen sich Optimierungen und Performance-Potenziale genau erfassen. Die Integration mit Ramulator, einem detaillierten DRAM-Simulator, erhöht die Präzision der Speicheranalyse enorm. Aufgrund der immer größer werdenden Bedeutung von Speicherlatenzen und -bandbreiten hat diese Verbindung eine entscheidende Bedeutung, um reale Engpässe und deren Auswirkungen auf die Gesamtsystemperformance sichtbar zu machen.
SCALE-Sim v3 bietet auch eine präzise Modellierung des Datenlayouts, die entscheidend ist, um Speicherstaus und unnötige Wartezeiten zu vermeiden. Dadurch wird der gesamte Datenfluss im System purer abgebildet und ermöglicht so maßgeschneiderte Optimierungsstrategien. Die Implementierung von Energie- und Leistungsabschätzungen erfolgt über die Integration des Werkzeugs Accelergy. Dies erlaubt tiefgehende Einblicke in eine der zentralen Dimensionen moderner Beschleuniger – ihre Energieeffizienz. Damit liefert SCALE-Sim v3 nicht nur zeitliche und bandbreitenbezogene Kennzahlen, sondern auch wertvolle Daten zur Gesamtenergieaufnahme, die bei Designentscheidungen eine fundamentale Rolle spielen.
Eine praktische Erkenntnis aus Simulationen mit SCALE-Sim v3 ist die komplexe Abwägung zwischen Größe des systolischen Arrays, Latenz und Energieeffizienz. So zeigte sich beispielsweise, dass ein 128x128 Array zwar eine wesentlich geringere Latenz für das ViT-base Modell bietet, aber eine 32x32 Variante deutlich energieeffizienter arbeitet, dank besserer Ausnutzung der Ressourcen und geringerem Leckstromverbrauch. Betrachtet man den Energy-Delay-Product (EdP), so ist sogar ein 64x64 Array optimal. Diese detaillierten Einblicke erlauben Hardwaredesignern, fundierte Kompromisse je nach Anwendungsszenario einzugehen. Außerdem zeigt der Simulator den Einfluss der Datenflussstrategie auf die Performance.
Weight-Stationary Datenflüsse reduzieren die Rechenzyklen in einigen Modellen merklich. Andererseits kann die Integration detaillierter DRAM-Analysen zeigen, dass die vermeintlich schnellere Strategie durch Speicherstaus ausgebremst wird, sodass Output-Stationary Konfigurationen letztendlich schnellere Gesamtausführungen erzielen. Diese Erkenntnis unterstreicht die Notwendigkeit eines durchgängigen Systemverständnisses, welches SCALE-Sim v3 ermöglicht. Neben seinem technischen Mehrwert überzeugt SCALE-Sim v3 auch durch seinen modularen Aufbau, der es Forschern und Entwicklern erlaubt, flexibel spezifische Komponenten anzupassen oder zu erweitern. Dies erleichtert die individuelle Anpassung an verschiedene Hardwarearchitekturen und Anwendungsfälle.