KI ist mittlerweile Mainstream und treibt eine beispiellose Nachfrage nach KI-Fabriken – einer speziell für KI-Training und -Inferenz entwickelte Infrastruktur – sowie der Produktion von Erkenntnissen an.
Viele dieser KI-Fabriken werden sich im Gigawatt-Bereich bewegen. Die Einrichtung einer einzigen KI-Fabrik im Gigawatt-Maßstab ist ein enormer technischer und logistischer Aufwand, an dem Zehntausende Arbeiter beteiligt sind (von Lieferanten, Architekten, externen Auftragnehmern bis hin zu Ingenieuren), um fast 5 Milliarden Komponenten und mehr als 350.000 Kilometer Glasfaserkabel zu fertigen, zu versenden und zu installieren.
Um beim Entwerfen und Optimieren dieser KI-Fabriken zu helfen, hat NVIDIA heute bei der GTC den NVIDIA Omniverse Blueprint für KI-Fabrikdesign und -betrieb vorgestellt.
Bei seiner GTC-Keynote erklärte Jensen Huang, Gründer und CEO von NVIDIA, wie das NVIDIA-Engineering-Team für Rechenzentren eine Anwendung auf Basis von Omniverse Blueprint entwickelt hat, um eine 1-Gigawatt-KI-Fabrik zu planen, zu optimieren und zu simulieren. Durch die Einbindung führender Simulationstools wie der Cadence Reality Digital Twin Platform und ETAP können die Engineering-Teams Energieverbrauch, Kühlung und Netzwerktechnik lange vor Baubeginn testen und optimieren.
Entwicklung von KI-Fabriken: Ein Simulation-First-Ansatz
Der NVIDIA Omniverse Blueprint für KI-Fabrikdesign und -betrieb verwendet OpenUSD-Bibliotheken, die es Entwicklern ermöglichen, 3D-Daten aus unterschiedlichen Quellen wie dem Gebäude selbst, durch NVIDIA-Technik beschleunigten Computing-Systemen sowie Energieversorgungs- oder Kühlgeräten von Anbietern wie Schneider Electric und Vertiv zu aggregieren.
Durch die Vereinheitlichung des Designs und der Simulation von Milliarden von Komponenten unterstützt der Blueprint Ingenieure bei der Bewältigung komplexer Herausforderungen wie:
- Komponentenintegration und Platzoptimierung – Vereinheitlichung des Designs und der Simulation von NVIDIA DGX SuperPODs, GB300 NVL72-Systemen und ihren 5 Milliarden Komponenten.
- Leistung und Effizienz des Kühlsystems – Verwendung der Cadence Reality Digital Twin Platform, beschleunigt durch NVIDIA CUDA und Omniverse-Bibliotheken für die Simulation und Evaluierung hybrider Luft- und Flüssigkeitskühlungslösungen von Vertiv und Schneider Electric.
- Energieverteilung und -verfügbarkeit – Entwicklung skalierbarer, redundanter elektrischer Systeme mit ETAP zur Simulation der Effizienz und Zuverlässigkeit von Energieblöcken.
- Netzwerktopologie und -logik – Feinabstimmung von Infrastruktur mit hoher Bandbreite durch Netzwerktechnik von NVIDIA Spectrum-X und die Plattform NVIDIA Air.
Auflösung von Engineering-Silos mit Omniverse
Eine der größten Herausforderungen beim Aufbau von KI-Fabriken besteht darin, dass verschiedene Teams (zum Beispiel aus den Bereichen Energie, Kühlung und Netzwerktechnik) isoliert voneinander arbeiten, was zu Ineffizienz und potenziellen Ausfällen führen kann.
Der Blueprint bietet Ingenieuren jetzt folgende Möglichkeiten:
- Zusammenarbeit im ganzen Kontext – Verschiedene Disziplinen können parallel iterieren und Live-Simulationen teilen, die zeigen, wie sich Änderungen in einem Bereich auf andere Bereiche auswirken.
- Optimierung des Energieverbrauchs – Echtzeit-Simulationsupdates ermöglichen es Teams, die effizientesten Designs für KI-Workloads zu finden.
- Beseitigung von Schwachstellen – Durch die Validierung von redundanten Konfigurationen vor der Bereitstellung können Unternehmen das Risiko kostspieliger Ausfallzeiten reduzieren.
- Modellierung realer Bedingungen – Unternehmen können vorhersagen und testen, wie sich verschiedene KI-Workloads auf die Kühlung, Stabilität der Energieversorgung und mögliche Netzwerküberlastungen auswirken.
Durch die Integration von Echtzeitsimulationen über verschiedene Disziplinen hinweg erlaubt es der Blueprint Engineering-Teams, unterschiedliche Konfigurationen zu erkunden. So können sie die Betriebskosten modellieren und den Energieverbrauch optimieren.
Echtzeitsimulationen für eine schnellere Entscheidungsfindung
In der Demo von Huang passen Ingenieure Konfigurationen von KI-Fabriken in Echtzeit an und können das Resultat unmittelbar sehen.
Eine kleine Optimierung des Kühlungslayouts beispielsweise hat die Effizienz erheblich verbessert – ein Detail, das von menschlichen Mitarbeitern womöglich übersehen worden wäre. Und anstatt stundenlang auf Simulationsergebnisse warten zu müssen, konnten die Teams Strategien in nur wenigen Sekunden testen und verfeinern.
Sobald ein optimales Design finalisiert war, optimierte Omniverse die Kommunikation mit Lieferanten und Bauteams, um sicherzustellen, dass der eigentliche Bau bis ins letzte Detail dem Modell entspricht.
Zukunftssichere KI-Fabriken
KI-Workloads sind nicht statisch. Die nächste Welle von KI-Anwendungen wird die Anforderungen an Energie, Kühlung und Netzwerktechnik weiter steigern. Der Omniverse Blueprint für KI-Fabrikdesign und -betrieb bereitet KI-Fabriken vor und bietet folgende Möglichkeiten:
- Workload-sensible Simulation – Vorhersage der Auswirkungen von Änderungen bei KI-Workloads auf Energieverbrauch und Kühlung im Maßstab von Rechenzentren.
- Tests von Ausfallszenarien – Modellierung von Netzausfällen, Kühllecks und Energiespitzen zur Sicherstellung der Resilienz.
- Skalierbare Upgrades – Planung für Erweiterungen von KI-Fabriken und Abschätzung des Infrastrukturbedarfs auf Jahre hinaus.
Bei der Planung von Nach- und Aufrüstungen können Benutzer Kosten und Ausfallzeiten ganz einfach testen und simulieren, um so eine zukunftssichere KI-Fabrik zu erschaffen.
Für Betreiber von KI-Fabriken geht es nicht nur um Effizienz, sondern auch darum, Infrastrukturausfälle zu verhindern, die Millionen von Euro am Tag kosten können.
In einer KI-Fabrik mit 1 Gigawatt kann jeder Ausfalltag mehr als 100 Mio. Euro kosten. Durch die frühzeitige Lösung von Infrastrukturproblemen reduziert der Blueprint sowohl Risiken als auch die Zeit bis zur Bereitstellung.
Der Weg zu agentenbasierter KI für den KI-Fabrikbetrieb
NVIDIA arbeitet an der Weiterentwicklung des Blueprints, um ihn auf KI-gestützte Betriebsabläufe auszuweiten, und kooperiert dabei mit Schlüsselunternehmen wie Vertech und Phaidra.
Vertech arbeitet mit dem NVIDIA-Engineering-Team für Rechenzentren am fortschrittlichen KI-Fabriksteuerungssystem von NVIDIA zusammen, das IT- und Betriebstechnologiedaten integriert, um die Resilienz und die betriebliche Transparenz zu verbessern.
Phaidra arbeitet mit NVIDIA zusammen, um KI-Agenten mit bestärkendem Lernen in Omniverse zu integrieren. Diese Agenten optimieren die Temperaturbeständigkeit und Energieeffizienz durch eine Echtzeit-Simulation von Szenarien und erschaffen digitale Zwillinge, die sich kontinuierlich an sich ändernde Hardware- und Umweltbedingungen anpassen.
Der Boom von KI-Rechenzentren
KI gestaltet die globale Rechenzentrumslandschaft neu. Angesichts der prognostizierten 1 Billion Dollar, die für die Aufrüstung von KI-fähigen Rechenzentren benötigt werden, ist Technologie für digitale Zwillinge nicht länger optional, sondern unverzichtbar.
Der NVIDIA Omniverse Blueprint für KI-Fabrikdesign und -betrieb hilft NVIDIA und seinem Technologieumfeld aus Partnern dabei, bei dieser Transformation eine führende Rolle einzunehmen. So können Betreiber von KI-Fabriken den sich ständig weiterentwickelnden KI-Workloads stets einen Schritt voraus bleiben, Ausfallzeiten minimieren und die Effizienz maximieren.
Siehe Hinweis zu Informationen über Softwareprodukte.