NVIDIA stellt das Nemotron 3 Nano Omni-Modell vor, das Vision, Audio und Sprache für bis zu 9-mal effizientere KI-Agenten vereint

KI-Agentensysteme jonglieren heute mit separaten Modellen für Vision, Sprache und Sprache – und verlieren dabei Zeit und Kontext, wenn Daten von einem Modell zum anderen weitergeleitet werden.

Das heute vorgestellte NVIDIA Nemotron 3 Nano Omni ist ein offenes multimodales Modell, das diese Funktionen in einem System vereint, sodass Agenten schnellere, intelligentere Antworten mit fortschrittlichem Reasoning in den Bereichen Video, Audio, Bild und Text liefern können.

Dieses erstklassige Modell bietet Unternehmen und Entwicklern einen Weg zur Produktreife für effizientere und genauere multimodale KI-Agenten, verbunden mit umfassender Flexibilität und Kontrolle bei der Bereitstellung.

Nemotron 3 Nano Omni setzt mit führender Genauigkeit und geringen Kosten einen neuen Effizienzstandard für offene multimodale Modelle und steht an der Spitze von sechs Ranglistenlisten für komplexe Dokumentenintelligenz sowie Video- und Audioverstehen.

Zu den KI- und Softwareunternehmen, die Nemotron 3 Nano Omni bereits einsetzen, gehören Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company und Pyler, Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle, Palantir und Zefr evaluieren das Modell derzeit.

„Um nützliche Agenten zu entwickeln, kann man nicht Sekundenlang darauf warten, dass ein Modell einen Bildschirm interpretiert“, erklärte Gautier Cloix, CEO von H Company. „Durch die Nutzung von Nemotron 3 Nano Omni können unsere Agenten Full-HD-Bildschirmaufnahmen zügig auswerten – was zuvor nicht praktikabel war. Dies ist nicht nur eine Geschwindigkeitssteigerung: Es ist eine grundlegende Veränderung der Art und Weise, wie unsere Agenten digitale Umgebungen wahrnehmen und in Echtzeit mit ihnen interagieren.“

Nemotron 3 Nano Omni ermöglicht schnellere, schlankere multimodale Agenten

Stellen Sie sich einen KI-Agenten für den Kundensupport vor, der eine Bildschirmaufzeichnung bearbeitet, hochgeladenes Anruf-Audio analysiert und Datenprotokolle überprüft – oder einen Agenten für das Finanzwesen, der mit dem Parsen von PDFs, Tabellen, Diagrammen und Sprachnotizen beauftragt ist. Heute erledigen die meisten agentischen Systeme diese Aufgaben mit separaten Modellen für Bilderkennung, Sprache und Sprache.

Dieser Ansatz erhöht die Latenz durch wiederholte Inferenzdurchläufe, fragmentiert den Kontext über verschiedene Modalitäten hinweg und erhöht im Laufe der Zeit die Kosten und Ungenauigkeiten.

Durch die Kombination von Vision- und Audio-Encoder innerhalb seiner hybriden 30B-A3B Mixture-of-Experts-Architektur macht Nemotron 3 Nano Omni separate Wahrnehmungsmodelle überflüssig und verbessert die Effizienz in großem Maßstab. Als erstes offenes Modell, das sowohl dieses Effizienzniveau als auch eine hohe multimodale Wahrnehmungsgenauigkeit bietet, können KI-Systeme einen bis zu 9-mal höheren Durchsatz erzielen als andere offene Omni-Modelle mit ähnlicher Interaktivität. Das Ergebnis sind geringere Kosten und eine bessere Skalierbarkeit – ohne Beeinträchtigung der Reaktionsgeschwindigkeit oder Qualität.

Durch die Kombination von Vision- und Audio-Encoder innerhalb seiner hybriden Mixture-of-Experts-Architektur 30B-A3B macht Nemotron 3 Nano Omni separate Wahrnehmungsmodelle überflüssig und steigert die Inferenzeffizienz in großem Maßstab. Es kombiniert diese Effizienz mit einer hohen multimodalen Wahrnehmungsgenauigkeit, sodass KI-Systeme einen neunmal höheren Durchsatz als andere offene Omni-Modelle mit derselben Interaktivität erzielen können. Das Ergebnis sind geringere Kosten und eine bessere Skalierbarkeit, ohne dass Reaktionsgeschwindigkeit oder Qualität beeinträchtigt werden

In agentischen Systemen kann Nemotron 3 Nano Omni neben proprietären Cloud-Modellen oder anderen offenen NVIDIA Nemotron-Modellen – wie Nemotron 3 Super für hochfrequente Ausführung oder Nemotron 3 Ultra für komplexe Planung – sowie proprietären Modellen anderer Anbieter eingesetzt werden, um Subagenten für agentische Workflows wie Computernutzung, Dokumentenintelligenz und Audio-Video-Reasoning zu unterstützen.

Agenten für die Computernutzung – Nemotron 3 Nano Omni unterstützt die Wahrnehmungsschleife für Agenten, die durch grafische Benutzeroberflächen navigieren, Onscreen-Inhalte analysieren und den Zustand der Benutzeroberfläche im Laufe der Zeit verstehen. Der neueste Computer-Nutzungs-Agent von H Company, der von Nemotron 3 Nano Omni unterstützt wird, nutzt eine native Eingabeauflösung von 1920 x 1080 Pixeln, um hochpräzises visuelles Reasoning zu erzielen. In vorläufigen Bewertungen mit dem OSWorld-Benchmark zeigte diese Integration einen erheblichen Sprung bei der Navigation komplexer grafischer Schnittstellen und nutzte die Fähigkeit von Nemotron 3 Nano Omni, sehr hochauflösende Bilder zu verarbeiten.
Dokumentenintelligenz – interpretiert Dokumente, Diagramme, Tabellen, Screenshots und Mixed-Media-Eingaben, sodass Agenten über visuelle Strukturen und Textinhalte hinweg kohärent logisch denken können. Entscheidend für Unternehmensanalysen und Compliance-Workflows.
Audio- und Videoverständnis – Für Kundenservice, Forschung und Überwachung von Workflows bewahrt Nemotron 3 Nano Omni den Audio-Video-Kontext und verknüpft Gesagtes, Gezeigtes und Dokumentiertes zu einem einzigen logischen Ablauf, anstatt isolierte Zusammenfassungen zu erstellen.

Vorher	Mit Nemotron 3 Nano Omni
Separate Vision-, Sprach- und Sprachmodelle	Einheitliches omnimodales Reasoning-Modell
Mehrere Inferenzdurchgänge	One-Pass-Wahrnehmung
Kontext-Fragmentierung	Einheitlicher Kontext
Höhere Latenz und Kosten	9-mal höherer Durchsatz

Offen und anpassbar, überall bereitstellbar

Nemotron 3 Nano Omni wird mit offenen Gewichten, Datensätzen und Trainingstechniken veröffentlicht – dies bietet Unternehmen vollständige Transparenz und Kontrolle darüber, wie das Modell angepasst und eingesetzt wird.

Entwickler können Tools wie NVIDIA NeMo für die Anpassung, Bewertung und Optimierung für fachspezifische Anwendungsfälle nutzen. Da die Nemotron-Modellfamilie offen ist, können Unternehmen sie in Umgebungen bereitstellen, die regulatorische, Souveränitäts- oder Datenlokalisierungsanforderungen erfüllen.

Die Nemotron 3-Familie – einschließlich Nano, Super und Ultra Modelle – konnte im vergangenen Jahr über 50 Millionen Downloads verzeichnen. Omni erweitert die Funktionen der Familie auf multimodale und agentische Bereiche.

Das Modell ist auf Hugging Face, OpenRouter und build.nvidia.com als NVIDIA NIM Microservice und über ein breites Ökosystem von NVIDIA Cloud-Partnern, Inferenzplattformen und Cloud-Service-Anbietern verfügbar.

Seine offene, schlanke Architektur ermöglicht eine konsistente Bereitstellung von lokalen Systemen wie NVIDIA DGX Spark und DGX Station bis hin zu Rechenzentrums- und Cloud-Umgebungen.

Besuchen Sie den technischen Blog von NVIDIA, um Tutorials, Kochbücher und Bereitstellungsanleitungen für Nemotron 3 Nano Omni zu finden.

Bleiben Sie über agentische KI, NVIDIA Nemotron und mehr auf dem Laufenden, indem Sie NVIDIA Neuigkeiten abonnieren, der Community beitreten und NVIDIA AI auf LinkedIn, Instagram, X und Facebook folgen.

Erkunden Sie Video-Tutorials und Livestreams im eigenen Tempo.