Peak Training: Blackwell bietet die nächste Stufe der MLPerf-Trainingsleistung

Mit jedem abgeschlossenem MLPerf-Test steigert Blackwell die Trainingsleistung für KI-gestützte Anwendungen.
by Dave Salvator

Generative KI-Anwendungen, die Text, Computercode, Proteinketten, Zusammenfassungen, Video und sogar 3D-Grafiken verwenden, benötigen beschleunigtes Computing auf Rechenzentrumsskalierung, um die großen Sprachmodelle (LLMs), die sie unterstützen, effizient zu trainieren.

In den MLPerf Training 4.1 Industrie-Benchmarks lieferte die NVIDIA Blackwell Plattform beeindruckende Ergebnisse bei allen Workloads – und bis zu 2,2-mal mehr Leistung pro GPU bei LLM-Benchmarks, einschließlich Llama 2 70B Feinabstimmung und GPT-3 175B Vortraining.

Darüber hinaus hat NVIDIA mit seinen Einreichungen auf der NVIDIA-Hopper-Plattform weiterhin Rekorde bei allen Benchmarks aufgestellt, darunter eine Einreichung mit 11.616 Hopper-GPUs beim GPT-3 175B-Benchmark.

Rasante Fortschritte mit Blackwell

Die erste Trainingseinreichung von Blackwell beim MLCommons Consortium, das standardisierte, unvoreingenommene und streng von Experten überprüfte Tests für Branchenteilnehmer erstellt, zeigt, wie die Architektur die Trainingsleistung von generativer KI vorantreibt.

Beispielsweise enthält die Architektur neue Kernel, die Tensor-Recheneinheiten effizienter nutzen. Kernel sind optimierte, zweckgebundene mathematische Operationen wie Matrix-Multiplikationen, die das Herzstück vieler Deep-Learning-Algorithmen bilden.

Der höhere Rechendurchsatz pro GPU und der deutlich größere und schnellere Speicher mit hoher Bandbreite von Blackwell ermöglichen es dem Unternehmen, den GPT-3 175B-Benchmark auf weniger GPUs auszuführen und gleichzeitig eine hervorragende Leistung pro GPU zu erzielen.

Durch die Nutzung größerer HBM3e-Speicher mit höherer Bandbreite konnten nur 64 Blackwell-GPUs im GPT-3 LLM-Benchmark ausgeführt werden, ohne die Leistung pro GPU zu beeinträchtigen. Für die gleiche Benchmark-Ausführung mit Hopper wurden 256 GPUs benötigt.

Die Trainingsergebnisse von Blackwell folgen auf eine frühere Einreichung bei MLPerf Inference 4.1, bei der Blackwell im Vergleich zur Hopper-Generation eine bis zu 4-mal höhere LLM-Inferenzleistung lieferte. Durch die Nutzung der FP4-Präzision der Blackwell-Architektur in Verbindung mit dem NVIDIA QUASAR Quantization System zeigte die Einreichung eine starke Leistung und erfüllte gleichzeitig die Genauigkeitsanforderungen des Benchmarks.

Unermüdliche Optimierung

NVIDIA-Plattformen unterliegen einer kontinuierlichen Softwareentwicklung, die die Leistung steigert und Funktionsverbesserungen bei Training und Inferenz für eine Vielzahl von Frameworks, Modellen und Anwendungen ermöglicht.

In dieser Runde der MLPerf-Trainingseinreichungen lieferte Hopper eine 1,3-fache Verbesserung der GPT-3 175B-Trainingsleistung pro GPU seit der Einführung des Benchmarks.

NVIDIA legte außerdem umfangreiche Ergebnisse beim GPT-3 175B-Benchmark vor, bei dem 11.616 Hopper-GPUs mit NVIDIA NVLink und NVSwitch GPU-zu-GPU-Kommunikation mit hoher Bandbreite und NVIDIA Quantum-2 InfiniBand-Netzwerke verwendet wurden.

Die NVIDIA Hopper GPUs haben den Umfang und die Leistung beim GPT-3 175B-Benchmark seit dem letzten Jahr mehr als verdreifacht. Darüber hinaus steigerte NVIDIA beim Llama 2 70B LoRA Feinabstimmungs-Benchmark die Leistung bei gleicher Anzahl von Hopper-GPUs um 26 %, was auf kontinuierliche Software-Verbesserungen zurückzuführen ist.

Die kontinuierlichen Arbeiten von NVIDIA an der Optimierung seiner Beschleunigten-Computing-Plattformen ermöglichen eine kontinuierliche Verbesserung der MLPerf-Testergebnisse. So wird die Leistung von containerisierter Software gesteigert, Partnern und Kunden auf bestehenden Plattformen mehr Leistung beim Computing angeboten und eine höhere Rendite bei ihren Plattforminvestitionen erzielt.

Gemeinsam stark

NVIDIA-Partner, darunter Systemanbieter und Cloud-Dienstanbieter wie ASUSTek, Azure, Cisco, Dell, Fujitsu, Giga Computing, Lambda Labs, Lenovo, Oracle Cloud, Quanta Cloud Technology und Supermicro, erzielten bei der MLPerf in dieser jüngsten Runde ebenfalls beeindruckende Ergebnisse.

Als Gründungsmitglied von MLCommons sieht NVIDIA die Rolle von Industriestandard-Benchmarks und Benchmarking-Best-Practices im KI-Computing als entscheidend an. Mit Zugriff auf von Experten überprüfte und optimierte Vergleiche von KI- und HPC-Plattformen können Unternehmen mit den neuesten KI-Computing-Innovationen Schritt halten und auf entscheidende Daten zugreifen, die bei wichtigen Entscheidungen über Plattforminvestitionen helfen können.

Erfahren Sie mehr über die neuesten MLPerf-Ergebnisse im technischen Blog von NVIDIA.