NVIDIA geht in die Produktion mit Dynamo, dem weit verbreiteten Inferenz-Betriebssystem für KI-Fabriken

Nachrichtenzusammenfassung:

NVIDIA Dynamo 1.0 bietet eine produktionsreife Open-Source-Grundlage für Inferenz in großem Maßstab.
Die Optimierungen von Dynamo und NVIDIA TensorRT-LLM fügen sich nativ in Open-Source-Frameworks wie LangChain, llm-d, LMCache, SGLang und vLLM ein, um die Inferenzleistung zu steigern.
Dynamo steigert die Inferenzleistung von NVIDIA Blackwell-GPUs um das bis zu 7-Fache, wodurch die Token-Kosten gesenkt und die Umsatzmöglichkeiten für Millionen von GPUs mit kostenloser Open-Source-Software erhöht werden.
Die NVIDIA Inferenzplattform, die von Cloud-Service-Anbietern, Amazon Web Services (AWS), Microsoft Azure, Google Cloud und Oracle Cloud Infrastructure (OCI) sowie von den NVIDIA-Cloud-Partnern Alibaba Cloud, CoreWeave, Together AI und Nebius integriert wird – und von den KI-nativen Unternehmen Cursor und Perplexity, den Inferenz-Endpunkt-Anbietern Baseten, Deep Infra und Fireworks sowie den globalen Unternehmen Amazon, ByteDance, Meituan, PayPal und Pinterest eingesetzt wird.

SAN JOSE, Kalifornien – GTC – 16. März 2026 – NVIDIA hat heute NVIDIA Dynamo 1.0 angekündigt, eine Open-Source-Software für generative und agentische Inferenz in großem Maßstab, die weltweit breite Anwendung findet. Zusammen mit der NVIDIA Blackwell-Plattform ermöglicht Dynamo 1.0 Cloud-Anbietern, KI-Innovatoren und globalen Unternehmen, leistungsstarke KI-Inferenz mit unübertroffener Skalierbarkeit, Effizienz und Geschwindigkeit bereitzustellen.

Mit der Einführung agentischer KI-Systeme in der Praxis in verschiedenen Branchen ist die Skalierung der Inferenz innerhalb eines Rechenzentrums zu einer komplexen Herausforderung hinsichtlich der Ressourcenkoordination geworden, da Anfragen unterschiedlicher Größe und Modalität sowie Leistungsziele in unvorhersehbaren Spitzen aufkommen.

So wie das Betriebssystem eines Computers Hardware und Anwendungen koordiniert, fungiert Dynamo 1.0 als das verteilte „Betriebssystem“ von KI-Fabriken und orchestriert GPU- und Speicherressourcen nahtlos im gesamten Cluster, um komplexe KI-Workloads zu unterstützen. In jüngsten Branchen-Benchmarks hat Dynamo die Inferenzleistung von NVIDIA Blackwell-GPUs um das bis zu 7-Fache gesteigert, wodurch die Token-Kosten gesenkt und die Umsatzchancen für Millionen von GPUs mit kostenloser Open-Source-Software erhöht wurden.

„Inferenz ist der Motor der Intelligenz, der jede Abfrage, jeden Agenten und jede Anwendung antreibt“, erklärt Jensen Huang, Gründer und CEO von NVIDIA. „Mit NVIDIA Dynamo haben wir das allererste ‚Betriebssystem‘ für KI-Fabriken entwickelt. Die schnelle Akzeptanz in unserem Ökosystem zeigt, dass die nächste Welle der agentischen KI bereits da ist und NVIDIA sie auf globaler Ebene vorantreibt.“

Dynamo 1.0 verteilt die Inferenzarbeit auf GPUs, indem es eine intelligente „Verkehrssteuerung“ und die Möglichkeit bietet, Daten zwischen GPUs und kostengünstigeren Datenspeichern zu verschieben, wodurch unnötige Rechenaufwände reduziert und Speicherbeschränkungen verringert werden. Bei agentischer KI und langen Prompts kann es Anfragen an GPUs weiterleiten, die bereits über das relevanteste „Kurzzeitgedächtnis“ aus früheren Schritten verfügen, und diesen Speicher dann auslagern, wenn er nicht benötigt wird.

NVIDIA-Inferenzplattform gewinnt an Dynamik

NVIDIA beschleunigt das Open-Source-Ökosystem durch die Integration von Dynamo und NVIDIA TensorRT™-LLM-Bibliotheksoptimierungen in gängige Frameworks von Anbietern wie LangChain, llm-d, LMCache, SGLang, vLLM und anderen. Wichtige Dynamo-Bausteine wie KVBM für eine intelligentere Speicherverwaltung, NVIDIA NIXL für schnelle GPU-zu-GPU-Datenbewegungen und NVIDIA Grove für eine vereinfachte Skalierung sind ebenfalls als eigenständige Module verfügbar. NVIDIA stellt dem FlashInfer-Projekt zudem TensorRT-LLM-CUDA®-Kernel zur Verfügung, damit diese nativ in Open-Source-Frameworks integriert werden können.

Die NVIDIA-Inferenzplattform wird im gesamten KI-Ökosystem unterstützt, einschließlich:

Anbietern von Cloud-Diensten: Amazon Web Services (AWS), Microsoft Azure, Google Cloud, OCI
NVIDIA Cloud-Partnern: Alibaba Cloud, CoreWeave, Crusoe, DigitalOcean, Gcore, GMI Cloud, Lightning AI, Nebius, Nscale, Together AI, Vultr
KI-nativen Unternehmen: Cursor, Hebbia, Perplexity
Anbietern von Inferenz-Endpunkten: Baseten, Deep Infra, Fireworks
Globalen Unternehmen: AstraZeneca, BlackRock, ByteDance, Coupang, Instacart, Meituan, PayPal, Pinterest, Shopee, SoftBank Corp.

Chen Goldberg, Executive Vice President of Product and Engineering bei CoreWeave, sagte: „Da die KI von experimentellen Pilotprojekten zur kontinuierlichen Produktion in großem Maßstab übergeht, muss die zugrunde liegende Infrastruktur so dynamisch sein wie die Modelle, die sie unterstützt. Durch die Unterstützung von NVIDIA Dynamo können wir eine nahtlosere, widerstandsfähigere Umgebung für die Bereitstellung komplexer KI-Agenten anbieten. Diese Grundlage bietet die Ausfallsicherheit und leistungsstarke Orchestrierung, die erforderlich ist, um die ehrgeizigsten agentischen Workloads der Branche in die globale Produktion zu bringen.“

Danila Shtan, Chief Technology Officer von Nebius, erklärt: „Um zuverlässige KI-Inferenz in großem Maßstab bereitzustellen, sind nicht nur leistungsstarke GPUs erforderlich, sondern auch die Software, die diese Leistung in reale Ergebnisse für die Kunden umwandelt. Wir schätzen, wie der Software-Stack von NVIDIA von Dynamo bis TensorRT-LLM tiefgreifende Optimierungen, vorhersehbare Leistung und schnellere Zeit bis zur Bereitstellung ermöglicht. Dadurch können wir unseren Kunden einen einfacheren und leistungsstärkeren Weg zur Produktions-KI bieten.“

Matt Madrigal, Chief Technology Officer von Pinterest, sagte: „Um Hunderten Millionen von Benutzern eine intuitive, multimodale KI-Erfahrung zu bieten, ist Echtzeit-Intelligenz auf globaler Ebene erforderlich. Als wichtiger Anwender von Open-Source-Technologien setzen wir uns dafür ein, skalierbare KI-Technologien zu entwickeln. NVIDIA Dynamo optimiert unsere Bereitstellung und erweitert die nahtlosen und personalisierten Erlebnisse, die wir bieten, unterstützt von einer leistungsstarken KI-Infrastruktur.“

Vipul Ved Prakash, Mitbegründer und CEO von Together AI, erklärt: „AI-Natives benötigen Inferenz, die zuverlässig und effizient mit ihrer Anwendung skaliert werden kann. NVIDIA Dynamo 1.0 in Kombination mit modernster Inferenzforschung von Together AI hilft uns dabei, einen leistungsstarken Stack bereitzustellen, um beschleunigte, kostengünstige Inferenz für umfangreiche Produktions-Workloads anzubieten.“

Dynamo 1.0 ist schon heute für Entwickler weltweit verfügbar. Um mehr zu erfahren und loszulegen, lesen Sie den Blog und besuchen Sie die Dynamo-Webseite.