Das neue NVIDIA Nemotron 3 Super bietet 5-mal höheren Durchsatz für agentische KI

Ein neues offenes hybrides 120B-Modell (Mixture-of-Experts, MOE), das für NVIDIA Blackwell optimiert ist, adressiert die Kosten für langwierige Überlegungen und die explosive Kontextentwicklung, die die Workflows autonomer Agenten verlangsamen.
by Kari Briski

Am Mittwoch hat NVIDIA Nemotron 3 Super vorgestellt, ein offenes Modell mit 120 Milliarden Parametern und 12 Milliarden aktiven Parametern, das für die Ausführung komplexer agentischer KI-Systeme in großem Maßstab entwickelt wurde.

Das jetzt verfügbare Modell kombiniert fortschrittliche Reasoning-Funktionen, um Aufgaben für autonome Agenten effizient mit hoher Genauigkeit auszuführen.

KI-Natives: Perplexity bietet seinen Benutzern Zugriff auf Nemotron 3 Super über den Webbrowser und die API. Unternehmen, die Software-Codierungsagenten wie CodeRabbit, Factory und Greptile anbieten, integrieren das Modell zusammen mit proprietären Modellen in ihre KI-Agenten, um eine höhere Genauigkeit zu geringeren Kosten zu erzielen. Darüber hinaus werden Biowissenschaftsunternehmen wie Edison Scientific und Lila Sciences ihre Agenten für eine detaillierte Literatursuche, Datenwissenschaft und molekulares Verständnis befähigen.

Unternehmenssoftwareplattformen: Branchenführer wie Amdocs, Palantir, Cadence,  Dassault Systèmes und Siemens setzen das Modell ein, um Workflows in den Bereichen Telekommunikation, Cybersicherheit, Halbleiterdesign und Fertigung zu automatisieren.

Da Unternehmen über Chatbots hinaus zu Multi-Agenten-Anwendungen übergehen, sehen sie sich zwei Einschränkungen gegenüber.

Die Erste ist die explosive Zunahme des Kontext. Multi-Agenten-Workflows generieren bis zu 15-mal mehr Tokens als standardmäßiger Chat, da für jede Interaktion die erneute Übertragung vollständiger Verläufe, einschließlich Tool-Ausgaben und zwischenzeitlicher Schlussfolgerungen, erforderlich ist.

Bei langwierigen Aufgaben erhöht dieses Volumen an Kontext die Kosten und kann zu Zielverschiebungen führen, da Agenten die Ausrichtung auf das ursprüngliche Ziel verlieren.

Die Zweite ist die Thinking-Steuer. Komplexe Agenten müssen in jedem Schritt logisch denken. Die Verwendung großer Modelle für jede Unteraufgabe macht Multi-Agenten-Anwendungen für praktische Anwendungen jedoch zu teuer und zu langsam.

Nemotron 3 Super verfügt über ein Kontextfenster mit 1 Million Token, sodass Agenten den vollständigen Workflow-Status im Speicher behalten und Zieldrift verhindert wird.

Nemotron 3 Super hat neue Standards gesetzt und ist führend in der künstlichen Analyse in Bezug auf Effizienz und Offenheit mit führender Genauigkeit unter Modellen gleicher Größe.

Hybride Architektur

Nemotron 3 Super nutzt eine hybride Mixture-of-Experts-Architektur, die drei wichtige Innovationen kombiniert, um einen bis zu 5-mal höheren Durchsatz und eine bis zu 2-mal höhere Genauigkeit als das vorherige Nemotron Super-Modell zu ermöglichen.

  • Hybride Architektur: Mamba-Schichten bieten viermal höhere Speicher- und Recheneffizienz, während Transformatoren-Schichten fortschrittliches Reasoning vorantreiben.
  • Mixture-of-Experts (MoE): Nur 12 Milliarden der 120 Milliarden Parameter sind bei der Inferenz aktiv.
  • Latentes MoE: Eine neue Technik, die die Genauigkeit verbessert, indem vier Experten für die Kosten eines eingesetzten Experten aktiviert werden, um den nächsten Token bei der Inferenz zu generieren.
  • Multi-Token-Vorhersage (MTP): Prognostiziert mehrere zukünftige Wörter gleichzeitig, was zu einer dreimal schnelleren Inferenz führt.

Auf NVIDIA Blackwell wird das Modell mit NVFP4-Präzision ausgeführt. Dadurch werden der Speicherbedarf gesenkt und die Inferenz bis zu viermal schneller als mit FP8 auf NVIDIA Hopper und das ohne Genauigkeitsverlust.

Offene Gewichte, Daten und Rezepte

NVIDIA veröffentlicht Nemotron 3 Super mit offenen Gewichten unter einer permissiven Lizenz. Entwickler können es auf Workstations, in Rechenzentren oder in der Cloud einsetzen und anpassen.

Das Modell wurde mit synthetischen Daten trainiert, die mithilfe von Frontier-Reasoning-Modellen generiert wurden. NVIDIA veröffentlicht die vollständige Methodik, einschließlich über 10 T Token von Vor- und Nachtrainings-Datensätzen, 15 Trainingsumgebungen für bestärkendes Lernen und  Bewertungsrezepten. Forscher können NVIDIA NeMo außerdem einsetzen, um das Modell zu optimieren oder ein eigenes zu entwickeln.

Verwendung in agentischen Systemen

Nemotron 3 Super wurde für die Bewältigung komplexer Unteraufgaben innerhalb eines Multi-Agenten-Systems entwickelt.

Ein Softwareentwicklungsagent kann eine gesamte Codebasis gleichzeitig in den Kontext laden, wodurch die Generierung und Fehlerbehebung ohne Dokumentensegmentierung möglich wird.

In der Finanzanalyse kann es Tausende von Seiten an Berichten in den Speicher laden, wodurch die Notwendigkeit entfällt, lange Gespräche „neu zu analysieren“, was die Effizienz verbessert.

Nemotron 3 Super verfügt über hochpräzise Toolaufrufe, die sicherstellen, dass autonome Agenten zuverlässig in umfangreichen Funktionsbibliotheken navigieren, um Ausführungsfehler in anspruchsvollen Umgebungen wie der autonomen Sicherheitsorchestrierung in der Cybersicherheit zu vermeiden.

Verfügbarkeit

NVIDIA Nemotron 3 Super, das zur Nemotron 3-Familie gehört, ist ab sofort verfügbar. Das Modell ist auf build.nvidia.com, bei Perplexity, OpenRouter und Hugging Face verfügbar.

Unternehmen und Entwickler können das Modell über mehrere Partner bereitstellen:

Das Modell ist als NVIDIA NIM verpackt, was die Bereitstellung von lokalen Systemen in der Cloud ermöglicht.