Wie Cosmos 3 physischer KI hilft, vor dem Handeln zu denken

Die reale Welt ist ständig in Bewegung. Um autonom zu agieren, müssen physische KI-Systeme – darunter Roboter, autonome Fahrzeuge (AVs) und Smart Spaces – nicht nur verstehen, was sie sehen und wodurch es ausgelöst wurde, sondern auch, was als Nächstes wahrscheinlich passiert.

In einem Lager kann ein Roboter auf Objektkonstellationen treffen, die er noch nie zuvor gesehen hat. Auf der Straße muss ein autonomes Fahrzeug möglicherweise reagieren, wenn ein Fußgänger zwischen geparkten Autos hervortritt. Und in einer Fabrik muss ein Sicherheitssystem vorhersagen, wohin ein Gabelstapler fährt – nicht nur erkennen, dass er da ist.

Solche Szenarien in der realen Welt zu erfassen und nachzustellen ist langsam, teuer und oft unmöglich in großem Maßstab zu wiederholen.

NVIDIA Cosmos 3 ist für genau diesen Kreislauf gebaut. Das neue World Foundation Model – heute auf der NVIDIA GTC Taipei auf der COMPUTEX vorgestellt – vereint visuelles Reasoning und multimodale Generierung über Text, Video, Bilder, Umgebungston und Aktion in einem einzigen Modell, um Entwicklern zu helfen, Weltdaten mit physischem Kontext zu erstellen.

Cosmos 3 treibt Wahrnehmung, Vorhersage und Aktion an

Erfahren Sie mehr darüber, wie die Mixture-of-Transformers-Architektur von Cosmos 3 es einem Reasoning-Block ermöglicht, zunächst zu interpretieren, was in einer Szene geschieht, und anschließend einen Generierungs-Block nutzt, um mit diesem Kontext physisch fundierte Ausgaben zu erzeugen – von synthetischem Video bis hin zu Roboter-Aufgabendaten.

Aktionsdaten für reale Roboteraufgaben generieren

Cosmos 3 ist ein generalistisches Foundation Model, das mit vielfältigen Daten trainiert wurde, die ihm ein breites Verständnis dafür vermitteln, wie Szenen, Bewegung und Roboteraktionen zusammenhängen. Es ist ein Omnimodel mit nativer Aktionsgenerierung – das heißt, es kann numerische Aktionsdaten wie Gelenkwinkel, Greiferpositionen und Trajektorienpunkte erzeugen, die beschreiben, wie sich ein Roboter bewegen soll, um eine Aufgabe zu erfüllen.

Um zu lernen, benötigen Roboter mehr als Bilder oder Videos einer Szene. Für Pick-and-Place-Aufgaben benötigen sie beispielsweise Aktionssignale, die vorgeben, wie sie Objekte in ihrer Umgebung erreichen, greifen, bewegen und platzieren. Entwickler können Cosmos 3 feinabstimmen, um ihre Roboter auf eine bestimmte Verkörperung (Embodiment), Kameraanordnung, Arbeitsumgebung oder Aufgabe zu spezialisieren.

Das NVIDIA GEAR-Team nutzt Cosmos 3, um Video-Aktionsmodelle zu entwickeln, die verkörperten Agenten helfen zu lernen, wie sie in Spielen, Simulationen und realen Robotikumgebungen schlussfolgern, sich bewegen und handeln.

Audio-Prompt: Lege alle Bananen auf den Teller

Agile Robots entwickelt Humanoide und andere Verkörperungen wie Thor 3 oder FR3, die industrielle Aufgaben autonom, präzise und effizient bewältigen. Das Unternehmen nutzt Cosmos 3, um aktionskonditionierte Roboterdaten für seine Policy-Entwicklung zu generieren und so vielfältige Aufgaben-Trajektorien in großem Maßstab zu erstellen.

Prompt: Nimm das Core Electric Wire und lege es mit beiden Armen in den Behälter.

Die mit Cosmos 3 Nano nachtrainierte Policy führt auf RoboLab, das Policies in Simulationen über sprachgeführte Aufgaben hinweg testet, und auf RoboArena, das Policies auf DROID-Robotern in realen Umgebungen vergleicht.

Reasoning über Smart Cities und Spaces in Bewegung

Cosmos 3 kann über die gesamte Szene hinweg schlussfolgern und erkennen, welche Objekte sich bewegen, wo sich Wege kreuzen könnten und welcher zukünftige Zustand wahrscheinlich folgt. Anschließend kann es dichte Bildbeschreibungen, vorhergesagte Szenenänderungen oder Szenariovariationen generieren und so Entwicklern helfen, Verständnis, Vorhersage und Warnmeldungen in Vision-KI-Agenten für Industrie- und Infrastrukturumgebungen zu verbinden.

Trace der Roboter-Aktionsplanung mit Cosmos 3 für das Reasoning

Für Verkehrssysteme, Fabriken, Lagerhäuser und öffentliche Räume bedeutet das, dass Videosysteme dabei helfen können, Aktivitäten über die Zeit zu interpretieren, Anomalien aufzudecken und Betreibern einen umfassenderen Kontext darüber zu geben, was in komplexen Umgebungen geschieht.

Linker Vision nutzt die physische KI und die Digital-Twin-Technologien von NVIDIA, um intelligente Smart-City- und Industrielösungen zu entwickeln. Als Teil des Workflows nutzt das Unternehmen die Vision-Language-Reasoning-Fähigkeiten von Cosmos, um Live-Kamerastreams zu analysieren, räumliche Zusammenhänge zu verstehen, wertvolle Erkenntnisse zu gewinnen und über Tausende von Feeds hinweg Ursachenanalysen durchzuführen.

Linker Vision nutzt Vision-KI zur Optimierung des Stadtbetriebs – powered by Cosmos

Cosmos 3 ist das bestplatzierte offene Vision-Language-Modell auf VANTAGE-Bench, das das Szenenverständnis intelligenter Infrastruktur testet, und auf der TAR-Challenge, die das Reasoning bei Verkehrsanomalien testet.

Seltene Long-Tail-Szenarien über die Zeit generieren

Kollisionen und Long-Tail-Grenzfälle gehören zu den wichtigsten Beispielen, um Humanoide, Armroboter und sogar chirurgische Roboter auf die reale Welt vorzubereiten – doch sie lassen sich nur schwer sicher, wiederholbar und in großem Maßstab erfassen.
Als Video-Foundation-Model kann Cosmos 3 helfen, physikalisch plausible Videosequenzen zu generieren, um zu vermitteln, wie sich die reale Welt im Laufe der Zeit verändert.

Für Entwickler physischer KI können diese generierten Beispiele synthetische Daten-Workflows und die Vorhersage zukünftiger Zustände neben realen Fahrdaten unterstützen – selbst wenn sich die Bedingungen Bild für Bild verändern.

Bild-zu-Video-Prompt: Ein Hochgeschwindigkeitsrennen, bei dem ein Auto mehrere kurvenreiche Wendungen meistert.

Cosmos-3-Varianten belegen auf den Open-Weights-Bestenlisten von Artificial Analysis den ersten Platz. Cosmos 3 führt zudem die Bestenlisten von Physics-IQ, R-Bench und PAI-Bench sowie weitere Benchmarks für die Weltgenerierung an.

Erste Schritte mit Cosmos 3

Entwickler können Cosmos 3 auf build.nvidia.com ausprobieren, offene Modelle von Hugging Face herunterladen, Modelle anpassen und mit Ressourcen auf GitHub synthetische Daten generieren sowie mit NVIDIA NIM-Microservices bereitstellen.

Mit der OpenMDW-1.1-Lizenz der Linux Foundation können Entwickler Cosmos-Modellmaterialien über physische KI-Workflows hinweg unter einer einzigen, modellzentrierten Lizenz nutzen. Die Lizenz erleichtert das Trainieren, Modifizieren, Beitragen, Weiterverbreiten und Bereitstellen von Ressourcen, einschließlich Gewichten, Architektur, Dokumentation, Datensätzen, Benchmarks und Code.

Sehen Sie sich die GTC Taipei Keynote von NVIDIA-Gründer und CEO Jensen Huang an und entdecken Sie diese Physical-AI-Sessions.

Siehe Nutzungsbedingungen zu Softwareprodukten.