Vorgestellt: NVIDIA Nemotron 3 – offene Modelle für Multi-Agent-KI

by NVIDIA Writers
Gen AI Nemotron 3

Künstliche Intelligenz hat sich von isolierten Chatbots zu komplexen, zusammenarbeitenden Systemen entwickelt. NVIDIA ist das erste Unternehmen, das eine Sammlung modernster offener Modelle, Trainingsdatensätze und Umgebungen und Bibliotheken für verstärktes Lernen veröffentlicht hat, mit denen hochpräzise, effiziente und spezialisierte KI-Agenten entwickelt werden können.

Die Nemotron 3-Modelle – in den Größen Nano, Super und Ultra – verfügen über eine bahnbrechende hybride Latent Mixture-of-Experts (MoE)-Architektur, die Entwicklern dabei hilft, zuverlässige Multi-Agenten-Systeme in großem Maßstab zu erstellen und einzusetzen.

Neuerungen in Nemotron 3

Mit dem Übergang von Einzelmodell-Chatbots zu kollaborativen Multi-Agent-KI-Systemen nehmen die Herausforderungen für Unternehmen zu: Kommunikationsaufwand, Kontextverschiebungen und steigende Inferenzkosten. Entwickler benötigen Transparenz, um den Modellen zu vertrauen, die ihre Arbeitsabläufe automatisieren. Nemotron 3 geht direkt auf diese Anforderungen ein.

Die Nemotron 3-Familie umfasst drei Modellgrößen:

  • Nemotron 3 Nano: ein kleines Modell mit 30 Milliarden Parametern das bis zu 3 Milliarden Parameter gleichzeitig für gezielte, hocheffiziente Aufgaben wie Software-Debugging, Inhaltszusammenfassung, KI-Assistenten und Informationsabruf aktiviert.
  • Nemotron 3 Super: ein hochpräzises Schlussfolgerungsmodell mit etwa 100 Milliarden Parametern und 10 Milliarden aktiven Parametern per Token für Multi-Agent-Anwendungen, bei denen viele zusammenarbeitende Agenten komplexe Aufgaben mit geringer Latenz ausführen müssen.
  • Nemotron 3 Ultra: Eine große Schlussfolgerungs-Engine mit etwa 500 Milliarden Parametern und 50 Milliarden aktiven Parametern per Token für komplexe KI-Anwendungen.

Sowohl Super als auch Ultra verwenden das hocheffiziente 4-Bit-NVFP4-Trainingsformat von NVIDIA auf der NVIDIA Blackwell-Architektur, wodurch der Speicherbedarf erheblich reduziert und das Training beschleunigt wird, während die Genauigkeit im Vergleich zu Formaten mit höherer Präzision erhalten bleibt.

Effizienz, die zählt

Nemotron 3 Nano wurde für den Einsatz in der Praxis entwickelt, wo sich Effizienz direkt auf das Geschäftsergebnis auswirkt. Das Modell erreicht:

  • 4-mal höheren Token-Durchsatz im Vergleich zu Nemotron 2 Nano und liefert die meisten Token pro Sekunde für Multi-Agent-Systeme in großem Maßstab
  • Bis zu 60 % weniger Reasoning-Token nötig, was die Inferenzkosten erheblich senkt
  • Ein Kontextfenster von 1 Million Token, das eine genauere Langzeit-Argumentation und eine bessere Fähigkeit zur Verknüpfung von Informationen über lange, mehrstufige Aufgaben hinweg ermöglicht
  • Laut unabhängigen Benchmarks von Artificial Analysis das offenste und effizienteste Modell seiner Größe mit führender Genauigkeit

Dies bedeutet, dass Entwickler mehr Agenten einsetzen, längere Konversationen verarbeiten und die Infrastrukturkosten senken können – und das alles ohne Einbußen bei der Genauigkeit.

Ein offener Ansatz für die KI-Entwicklung

Offene Innovation ist der Weg, auf dem die KI-Branche vorankommt. Aus diesem Grund wird Nemotron 3 mit einem umfassenden Toolkit für Entwickler geliefert.

Drei Billionen Token neuer Nemotron-Datensätze für Vorabtraining, Nachschulung und verstärkendes Lernen liefern die umfangreichen Beispiele für Schlussfolgerungen, Codierung und mehrstufige Arbeitsabläufe, die für die Erstellung hochleistungsfähiger, domänenspezifischer Agenten erforderlich sind. Der Nemotron Agentic Safety Dataset bietet Telemetriedaten aus der Praxis, mit denen Teams die Sicherheit komplexer Agentensysteme bewerten und verbessern können.

Um die Entwicklung zu beschleunigen, haben wir die Open-Source-Bibliotheken NeMo Gym und NeMo RL veröffentlicht, die die Trainingsumgebungen und die Post-Training-Grundlage für Nemotron-Modelle bereitstellen, sowie NeMo Evaluator zur Validierung der Modellsicherheit und -leistung. Alle Tools und Datensätze sind jetzt auf GitHub und Hugging Face verfügbar.

Nemotron 3 wird von LM Studio, llama.cpp, SGLang und vLLM unterstützt. Darüber hinaus integrieren Prime Intellect und Unsloth die einsatzbereiten Trainingsumgebungen von NeMo Gym direkt in ihre Workflows, sodass Teams schneller und einfacher auf leistungsstarkes Reinforcement-Learning-Training zugreifen können.

Einsatz von Nemotron 3 in der Industrie

Frühe Anwender wie Accenture, Cadence, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens und Zoom integrieren Modelle aus der Nemotron-Familie, um KI-Workflows in den Bereichen Fertigung, Cybersicherheit, Softwareentwicklung, Medien, Kommunikation und anderen Branchen zu unterstützen:

„NVIDIA und ServiceNow gestalten seit Jahren die Zukunft der KI, und das Beste kommt noch“, so Bill McDermott, Chairman und CEO von ServiceNow. „Heute machen wir einen großen Schritt nach vorne, um Führungskräften aller Branchen die Möglichkeit zu geben, ihre agentenbasierte KI-Strategie voranzutreiben.  Die intelligente Workflow-Automatisierung von ServiceNow in Kombination mit Nemotron 3 von NVIDIA wird auch weiterhin den Standard mit unübertroffener Effizienz, Geschwindigkeit und Genauigkeit setzen.“

Erste Schritte mit NVIDIA Open Models

Nemotron 3 Nano ist ab sofort auf Hugging Face und über Inferenzdienstleister wie Baseten, Deepinfra, Fireworks, FriendliAI, OpenRouter und Together AI verfügbar.

Nemotron wird auf KI- und Dateninfrastrukturplattformen für Unternehmen angeboten, darunter Couchbase, DataRobot, H2O.ai, JFrog, Lambda und UiPath. Für Kunden in öffentlichen Clouds wird Nemotron 3 Nano über Amazon Bedrock (serverlos) auf AWS verfügbar sein und in Kürze auch auf Google Cloud, Coreweave, Nebius, Nscale und Yotta unterstützt werden.

Nemotron 3 Nano ist als NVIDIA NIM™-Mikroservice für eine sichere, skalierbare Bereitstellung überall auf NVIDIA-beschleunigter Infrastruktur verfügbar und bietet maximale Privatsphäre und Kontrolle. Nemotron 3 Super und Ultra werden voraussichtlich in der ersten Hälfte des Jahres 2026 verfügbar sein.