In der heutigen Zeit erleben wir einen beispiellosen Anstieg komplexer Rechenanforderungen in Bereichen wie künstlicher Intelligenz (KI) und wissenschaftlichem Rechnen. Diese Disziplinen erfordern außergewöhnlich leistungsfähige Computersysteme, die häufig aus tausenden von Prozessoren und Grafikprozessoren bestehen, die über Netzwerke miteinander verbunden sind. Die Herausforderung bei diesen verteilten Systemen liegt neben der reinen Rechenleistung vor allem in der effizienten Kommunikation zwischen den einzelnen Knoten, um Daten und Ergebnisse schnell und zuverlässig auszutauschen. Hier setzt NVIDIA SHARP an – eine innovative Technologie für In-Network Computing, die die Leistung kollektiver Kommunikationsoperationen revolutioniert und so die Effizienz von HPC- und KI-Workloads nachhaltig verbessert. Die Notwendigkeit einer neuartigen Herangehensweise an die Netzwerkkommunikation Herkömmliche verteilte Rechnerarchitekturen sind darauf angewiesen, dass einzelne Knoten – seien es CPUs oder GPUs – Informationen austauschen, um synchronisierte und kohärente Ergebnisse zu erzielen.
Bei beispielsweise Deep-Learning-Modellen im Training müssen in jedem Iterationsschritt große Datenmengen wie Gradienten über alle beteiligten Knoten mittels sogenannter kollektiver Kommunikation ausgetauscht werden. Diese Prozesse, darunter All-Reduce, Broadcast oder Gather, sind entscheidend für die Konsistenz und Leistungsfähigkeit des Systems, können jedoch durch Netzwerk- und Synchronisationsengpässe stark verlangsamt werden. Latenz und Bandbreitenbeschränkungen, Netzwerküberlastungen sowie nicht optimierte Kommunikationsalgorithmen können zu einer dominierenden Flaschenhalswirkung führen, die nicht nur die Skalierbarkeit einschränkt, sondern auch die Gesamtrechenzeit massiv verlängert. Je größer das verteilte System wird, desto dramatischer werden diese Probleme. Die klassischen Kommunikationstechniken auf Anwendungsebene oder sogar in der Netzwerkkarte erzielen hier nur begrenzte Verbesserungen, da Rechenstatus, Synchronisation und Aggregation der Daten vollständig in der Software laufen, was zusätzlichen Overhead und Datenkopien mit sich bringt.
SHARP setzt an genau dieser Schwachstelle an, indem es einen Teil der kollektiven Kommunikation auf die Netzwerkinfrastruktur selbst auslagert. Die Idee dahinter ist in die Switches und Netzwerk-ASICs, die den Datenverkehr zwischen den Knoten steuern, spezialisierte Hardwarefunktionen zu integrieren, die auf Datenaggregation und -verarbeitung spezialisiert sind. So lässt sich der Datenverkehr intelligent und effizient bündeln, ohne dass die beteiligten Serverprozessoren mit zusätzlichen Aufgaben belastet werden. Die Technologie hinter NVIDIA SHARP NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) erlaubt es, häufig ausgeführte Operationen wie Summierungen oder Mittelwertbildungen von Datenpaketen direkt im Netzwerk auszuwerten. Das bedeutet, dass statt alle einzelnen Daten von jedem Knoten zuerst an die Prozessoren zu senden und dort zu aggregieren, diese Arbeit bereits auf der Switch-Stufe erledigt wird.
Ein Beispiel hierfür ist die All-Reduce Operation: Gradienten von Modellen, die traditionell an jeden GPU-Knoten und zurück geschickt werden, werden durch SHARP in der Netzwerkinfrastruktur zusammengefasst und so die Menge der zu übertragenden Daten erheblich reduziert. Das Ergebnis ist eine drastische Verringerung des Datenvolumens, das über das Netzwerk wandert, sowie eine deutlich reduzierte Latenz bei der Synchronisation. SHARP minimiert außerdem sogenannte Jitter-Effekte, also zeitliche Schwankungen bei der Netzwerk-Performance, die gerade in synchronisierten Systemen problematisch sind. Durch die Verlagerung der Aggregation an die Switches lässt sich auch die Last auf den Servern senken und Ressourcen für die eigentliche Rechenarbeit freisetzen. Generationen von NVIDIA SHARP und ihre Entwicklung NVIDIA SHARP wurde in mehreren Generationen weiterentwickelt und an die steigenden Anforderungen von High-Performance-Computing (HPC) und KI angepasst.
Die erste Generation wurde speziell für wissenschaftliche Berechnungen optimiert und konzentrierte sich auf kleine Nachrichtenpakete. Sie wurde mit der EDR 100 Gb/s InfiniBand-Switchgeneration eingeführt und zeigte bereits beeindruckende Leistungssteigerungen, unter anderem durch die Unterstützung führender Message Passing Interface (MPI)-Bibliotheken. Ein Beispiel für die bemerkenswerte Leistungsfähigkeit von SHARPv1 ist die Steigerung der Effizienz beim MPI AllReduce und MPI Barrier, wie sie beispielsweise am TACC Frontera Supercomputer demonstriert wurde. Die Performanz wurde bis zu fünf- bis neunmal verbessert, was die enorme Bedeutung einer effizienten Netzwerktechnologie unterstreicht. Mit dem Fortschritt zu SHARPv2, das mit der HDR 200 Gb/s InfiniBand-Generation eingeführt wurde, richtete sich der Fokus zunehmend auf KI-Workloads und große Nachrichtenmengen.
SHARPv2 unterstützte fortgeschrittene Datentypen und komplexe Aggregationsfunktionen, allerdings noch für einzelne Workloads parallel. Die Technologie bewies ihren Wert bei Trainingsaufgaben wie BERT, wo eine Verbesserung der Trainingsgeschwindigkeit um bis zu 17 Prozent nachvollziehbar war. Damit wurde deutlich, dass SHARP nicht nur in der klassischen HPC-Welt, sondern auch im KI-Bereich einen großen Unterschied macht. Die jüngste und am weitesten fortgeschrittene Version ist SHARPv3, eingebettet in die Quantum-2 NDR 400 Gb/s InfiniBand-Plattform. Diese Generation erweitert die Fähigkeiten durch Unterstützung von Multi-Tenant In-Network Computing, was bedeutet, dass mehrere KI-Workloads gleichzeitig in demselben Netzwerk bearbeitet werden können.
Diese Verbesserung ist besonders wichtig für Cloud-Provider und Hyperscale-Datacenter, die verschiedene Kunden und Anwendungen parallel bedienen. Leistungsdaten bestätigen fast eine Verzehnfachung der AllReduce-Latenz gegenüber älteren Technologien. Mit SHARPv4 steht die nächste Evolution bereits vor der Tür und verspricht, durch erweiterte Algorithmen und noch effizientere Kommunikationsmuster die Bandbreite von unterstützten kollektiven Operationen weiter auszubauen. Das wird insbesondere für die neuen Anforderungen moderner KI-Modelle und zunehmend heterogener Rechnerverbünde von großer Bedeutung sein. Integration in Software und umfassende Systemoptimierung Die Wirkung von SHARP entfaltet sich besonders in der engen Verzahnung mit gängigen Software-Stacks.
Die NVIDIA Collective Communication Library (NCCL) ist ein zentrales Element in der Beschleunigung verteilter KI-Trainings. Sie wurde so erweitert, dass sie SHARP nahtlos nutzt, indem sie die Kommunikation direkt auf der Netzwerkschicht abwickelt und redundante Datenkopien vermeidet. So bleibt mehr Arbeitsspeicher und Rechenzeit für die eigentliche Modellberechnung frei. Diese Kombination aus effizienter Hardware-Unterstützung und optimierter Software trägt maßgeblich dazu bei, die Trainingszeiten bei großen KI-Modellen signifikant zu verkürzen und die Skalierbarkeit auf Zehntausende von GPUs zu ermöglichen. Hochleistungsrechenzentren und führende AI-Supercomputer verwenden SHARP bereits als „geheime Zutat“, um einen Wettbewerbsvorteil bei Leistung und Energieeffizienz zu erzielen.
Praktische Auswirkungen und Zukunftsperspektiven Die Bedeutung von SHARP wird in der Praxis vor allem durch die konkreten Leistungssteigerungen bei komplexen Workloads sichtbar. Anwender berichten von Verbesserungen der Performance zwischen zehn und zwanzig Prozent bei internen KI-Anwendungen eines großen Service-Providers. Das bedeutet schnellere Entwicklungszyklen, geringere Betriebskosten und letztendlich bessere Produkte und Dienstleistungen. Auch die Skalierbarkeit ändert sich durch SHARP grundlegend. Während traditionelles Netzwerkdesign häufig mit zunehmender Knotenanzahl an Leistung verliert oder zumindest regressiv skaliert, ermöglichen die Innovationsschritte von SHARP eine fast lineare Skalierung von Anwendungen.
Gerade in einer Zeit, in der KI-Modelle immer größer werden und immer mehr Daten benötigen, ist diese Eigenschaft unverzichtbar. Die kommende Generation der SHARP-Technologie wird zusätzlich die Vielfalt der unterstützten kollektiven Kommunikationsoperationen erhöhen und somit neue Anwendungsfelder erschließen. In Kombination mit der kontinuierlichen Weiterentwicklung von InfiniBand-Netzwerken, Hardwarebeschleunigern und Software-Frameworks kann SHARP einen wichtigen Beitrag zu nachhaltiger, leistungsstarker und flexibler Infrastruktur leisten. Abschließend lässt sich sagen, dass NVIDIA SHARP eine Schlüsseltechnologie im Bereich der verteilten Hochleistungs- und KI-Rechenzentren ist. Sie zeigt, wie intelligente Hardware-gestützte Netzwerkprozesse die Leistung von Supercomputing und künstlicher Intelligenz erheblich verbessern können.
Die Zukunft verteilter Systeme wird maßgeblich durch solche Innovationen geprägt sein, die Brücken zwischen rechnerischer Leistung und Netzwerkintelligenz schlagen, und so den Weg für noch schnellere und effizientere Anwendungen ebnen.