Die rasante Entwicklung von Künstlicher Intelligenz (KI) hat in den letzten Jahren zu einem dramatischen Anstieg der Anforderungen an Rechenleistung geführt. Große Modelle wie Sprachmodelle und Deep-Learning-Algorithmen verlangen den Einsatz zehntausender GPUs in Rechenzentren, die enorme Mengen an Energie benötigen und erheblich Wärme abgeben. Gerade die Kühlung dieser leistungsfähigen Systeme ist zu einer kritischen Herausforderung geworden, insbesondere weil herkömmliche Luftkühlungsmethoden an ihre Grenzen stoßen. Gleichzeitig sind vollständige Immersionskühlungslösungen, bei denen Hardware in nicht leitenden Flüssigkeiten getaucht wird, noch nicht flächendeckend im Einsatz, unter anderem wegen Kosten und Komplexität. Das hat die Branche dazu veranlasst, neuartige, effiziente Kühltechniken zu entwickeln, die die Potenziale der vorhandenen Infrastruktur optimal nutzen, ohne komplett auf Immersion umzusteigen.
Die aktuellen Entwicklungen zeigen, wie direktes Flüssigkühlen (Direct Liquid Cooling, DLC) ohne Immersion die Effizienz von KI-Systemen revolutioniert und gleichzeitig die Betriebs- und Umweltkosten erheblich senkt. Die Nachfrage nach großer Rechenleistung ist eng mit dem Einsatz von Nvidia „Blackwell“ B200 GPUs verbunden. Ein großer Rechencluster mit über 1.600 dieser GPUs kann rund 13 Megawatt elektrische Leistung verbrauchen – allein für den Betrieb dieser Karten. Dies entspricht etwa den Anforderungen eines kleinen Rechenzentrums oder eines mittleren Industriekomplexes.
Das Problem ist aber nicht nur die Versorgung mit dieser enormen Energiemenge, sondern auch die effiziente Ableitung der entstehenden Wärme. Der Trend zeigt, dass der größte Engpass mittlerweile eher in der Verfügbarkeit und Verteilung von Strom liegt als in der Verfügbarkeit der Hardware selbst. Energieversorger fordern immer mehr Nachweise zum effizienten Stromverbrauch und zur geplanten Kühlung. Nur wer nachweisen kann, dass die eingesetzten Ressourcen sorgsam genutzt werden, erhält auch die entsprechende Zuteilung. Der Bedarf an hoher Packungsdichte von GPUs in Kombination mit Kohärenz für KI-Modelle, die latenzkritische Kommunikation zwischen GPUs benötigen, erhöht den Druck auf die Kühltechnik erheblich.
Dabei sind Luftkühllösungen aufgrund ihrer physikalischen und energetischen Grenzen zunehmend ungeeignet. Enge räumliche Anordnung bedeutet hohe thermische Belastung bei gleichzeitig wenig Platz für Luftzirkulation. Dies führt nicht nur zu höheren Betriebskosten durch steigenden Energieverbrauch, sondern auch zu erhöhter Geräuschkulisse und potenzieller Reduzierung der Systemstabilität. In diesem Kontext hat Supermicro eine Vorreiterrolle bei der Entwicklung von innovativen direkten Flüssigkühllösungen übernommen. Seit Herbst 2023 setzt das Unternehmen Direct Liquid Cooling erfolgreich ein und liefert damit wichtige Impulse für die gesamte Branche.
Die erste Generation dieser Technik verwendet flüssigkeitsgekühlte Kaltplatten auf CPUs und GPUs, um die Wärme dorthin abzuleiten, wo sie am effektivsten abgeführt werden kann. Dabei wird nicht nur die Großkomponenten, sondern auch weitere energieintensive Bauteile wie Arbeitsspeicher (DIMMs), PCI-Express-Switches und Spannungsregler in das Kühlsystem integriert. Diese umfassende Herangehensweise sorgt für eine deutlich höhere Kühlleistung und Energieeffizienz. Supermicros DLC-1 Technologie zeigte bereits große Fortschritte gegenüber reiner Luftkühlung. Ein bedeutendes Beispiel ist der Teil des „Colossus“ Systems bei xAI in Memphis, das auf 50.
000 Nvidia H100 GPUs basiert und von Supermicro mit DLC ausgestattet wurde. Im Vergleich zu air-cooled Varianten konnte hier mehr als 70 Prozent der Wärme effizient mittels Flüssigkeitskühlung abgeführt werden. Die Kühlelemente arbeiten mit circa 30 Grad Celsius warmem Wasser, das die Wärme in sogenannten Coolant Distribution Units (CDUs) sammelt. Diese CDUs sind wiederum für jeweils 100 Kilowatt ausgelegt und bilden das Rückgrat des Kühlsystems. Mit der jüngsten Weiterentwicklung, der DLC-2 Technologie, setzt Supermicro den nächsten Meilenstein.
Bei dieser Innovation werden effizientere CDUs eingesetzt, welche bis zu 250 Kilowatt Kühlleistung pro Einheit ermöglichen. Zusätzlich kann die Kühlflüssigkeit auf eine höhere Temperatur von 45 Grad Celsius betrieben werden. Dieser höhere Betriebspunkt erlaubt die Nutzung von natürlichen Kühltürmen anstatt energieintensiver Chiller, was den Stromverbrauch für die Kühlung erheblich reduziert. Insgesamt wird der gesamte Kühlkreislauf energietechnisch optimiert, was sich in einer Reduktion der Kosten und einer Verringerung des ökologischen Fußabdrucks niederschlägt. Die neue DLC-2 Umgebung kommt bereits mit den neuesten 4U-Systemen zum Einsatz, darunter das SYS-422GS-NBRT-LCC Modell mit acht Blackwell B200 GPUs, zwei Intel Xeon CPUs und umfangreichen Netzwerk- und Storage-Komponenten.
Hier wird fast die komplette Systemkomponente, inklusive kritischer Netzwerk-Karten, aktiv mit Flüssigkeit gekühlt. In Zukunft wird dies sogar noch weiter perfektioniert: Vorgesehene Systeme wie der HGX B300 nutzen Flüssigkeitskühlung für fast 98 Prozent der Wärmeabgabe, sodass nur noch sehr wenige, kleine Ventilatoren benötigt werden und somit die Geräuschentwicklung drastisch sinkt. Ein weiterer wesentlicher Vorteil des DLC-2 Systems ist die drastische Verbesserung der Power Usage Effectiveness (PUE), einem zentralen Effizienzmaß für Rechenzentren. Während traditionelle Datenracks mit Luftkühlung PUE-Werte zwischen 1,6 und 2,0 erreichen, war DLC-1 bereits mit rund 1,2 sehr effizient. DLC-2 verfolgt das ambitionierte Ziel, die PUE auf fast 1,02 zu drücken – was bedeutet, dass nahezu die gesamte eingespeiste Energie direkt für die Rechenleistung und nicht für Nebeneffekte wie Kühlung genutzt wird.
Diese Verbesserung ist angesichts der steigenden Strompreise und ökologischen Anforderungen von unschätzbarem Wert. Neben der Effizienz sorgt die reduzierte Geräuschentwicklung für einen weiteren großen Nutzen. DLC-2 steht für deutlich ruhigere Datenräume, in denen der Geräuschpegel etwa 50 Dezibel beträgt – vergleichbar mit normaler Unterhaltung – während ältere Systeme deutlich lauter sind. Diese Verbesserung fördert nicht nur die Arbeitsbedingungen des Personals, sondern ermöglicht auch unterschiedliche Einsatzszenarien, in denen Lärm ein kritischer Faktor ist. Warum wird flüssigkeitsbasierte Kühlung ohne Immersion so attraktiv? Die klassische Immersionskühlung, bei der Hardware komplett in spezielle Flüssigkeiten getaucht wird, bietet zwar enorme Kühlpotenziale, bringt aber auch beträchtliche Herausforderungen hinsichtlich Installation, Wartung, Skalierung und Kosteneffizienz mit sich.
Viele Rechenzentren zögern daher, diese Technik als Standard zu übernehmen. Das direkte Flüssigkühlen mit Kaltplatten hingegen lässt sich besser in bestehende Rechenzentren integrieren und bietet eine optimale Balance zwischen Effizienz, Komplexität und Kosten. Die zunehmende Knappheit von elektrischer Leistung unterstreicht die Bedeutung von effizienten Kühltechnologien. Energieversorger weltweit achten zunehmend darauf, wie effizient Anlagen mit zugewiesener Energie umgehen. Ohne ausreichendes Power-Management und effiziente Wärmeabfuhr sind große KI-Installationen schwer realisierbar.
Dies macht Innovationen in der Kühllandschaft zu einem strategischen Faktor für die globale Weiterentwicklung von KI. Darüber hinaus hat die Integration von Flüssigkühlung positive Effekte auf die Hardware-Lebensdauer. Durch effiziente Wärmeableitung werden thermische Belastungen auf Bauteile reduziert, was Ausfälle minimiert und Stabilität erhöht. Vor allem bei GPU-intensiven Systemen, die am Limit betrieben werden, ist dies ein entscheidender Wettbewerbsvorteil. Zukunftsgerichte Ansätze konzentrieren sich auf die Kombination verschiedener Technologien.
Neben direkter Flüssigkühlung wird auch an optimierten air-flow Designs gearbeitet, automatisierten Kühlsystemen mit intelligenter Steuerung und hybriden Lösungen, die je nach Workload optimal reagieren können. Gleichzeitig forschen Hersteller daran, neue Materialien und Kühlmedien einzusetzen, die noch effizienter und nachhaltiger sind. Zusammenfassend lässt sich sagen, dass die Grenze bei der Kühlung von KI-Systemen ohne Immersion längst erreicht ist, ohne dass damit das Ende der Innovationen einhergeht. Durch gezielte Weiterentwicklung von direkter Flüssigkühlung werden bisherige Herausforderungen nicht nur adressiert, sondern auch Chancen geschaffen – insbesondere in Bezug auf Leistungsdichte, Energieeffizienz, Verfügbarkeit und Betriebskosten. Die Kombination aus Hardware-Innovationen, intelligentem Wärmemanagement und nachhaltiger Energieversorgung wird in den kommenden Jahren die KI-Rechenzentren der Zukunft prägen.
Für Unternehmen, die im Bereich Hochleistungs-KI-Rechenzentren investieren oder betreiben, wird es entscheidend sein, diese neuen Kühltechnologien nicht nur zu verstehen, sondern aktiv in ihre Infrastruktur zu integrieren. Ein Umdenken bei Planung und Betrieb von Rechenzentren ist unvermeidlich, um auch weiterhin mit den wachsenden Anforderungen weltweit Schritt halten zu können. Die derzeitigen Entwicklungen zeigen, dass es möglich ist, auch ohne teure Immersionslösungen an der Spitze der Kühltechnologie zu stehen und einen entscheidenden Beitrag zu nachhaltiger, leistungsfähiger KI-Infrastruktur zu leisten.