Into the Omniverse: Offene World-Foundation-Modelle generieren synthetische Welten für die Entwicklung physischer KI

by NVIDIA Writers

Hinweis der Redaktion: Dieser Beitrag ist Teil der Serie Into the Omniverse, die sich damit befasst, wie Entwickler, 3D-Anwender und Unternehmen ihre Workflows mit den neuesten Fortschritten in OpenUSD und NVIDIA Omniverse transformieren können.

Physische KI-Modelle, die Roboter, autonome Fahrzeuge und andere intelligente Maschinen antreiben, müssen sicher, für dynamische Szenarien generalisiert und in der Lage sein, in Echtzeit wahrzunehmen, zu schlussfolgern und zu funktionieren. Anders als große Sprachmodelle, die anhand massiver Datensätze aus dem Internet trainiert werden können, müssen physische KI-Modelle anhand von Daten lernen, die in der realen Welt verankert sind.

Es ist jedoch unglaublich schwierig und in einigen Fällen auch gefährlich, ausreichend viele Daten zu erfassen, die diese große Vielfalt der Szenarien in der realen Welt abdecken. Die physisch basierte synthetische Datenerzeugung bietet einen wichtigen Ansatzpunkt, um diese Lücke zu schließen.

NVIDIA hat für NVIDIA Cosmos kürzlich Updates der offenen World-Foundation-Modelle (WFM) veröffentlicht, um die Datengenerierung für das Testen und Validieren physischer KI-Modelle zu beschleunigen. Mit NVIDIA Omniverse-Bibliotheken und Cosmos können Entwickler unglaubliche Mengen an physisch basierten synthetischen Daten erstellen.

Cosmos Predict 2.5 vereint jetzt drei separate Modelle – Text2World, Image2World und Video2World – in einer einzigen, leichtgewichtigen Architektur, die aus einem einzigen Bild, Video oder Prompt konsistente, kontrollierbare Multikamera-Videowelten generiert.

Cosmos Transfer 2.5 ermöglicht eine qualitativ hochwertige, räumlich gesteuerte Übertragung von Welt zu Welt, um die Datenvariation zu verstärken. Entwickler können über mehrere Kameras neue Wetter-, Licht- und Geländebedingungen zu ihren simulierten Umgebungen hinzufügen. Cosmos Transfer 2.5 ist 3,5-mal kleiner als sein Vorgänger und bietet eine schnellere Leistung mit besserer Prompt-Ausrichtung und physischer Genauigkeit.

Diese WFMs können in synthetische Datenpipelines integriert werden, die in dem Open-Source-Framework für Robotiksimulation NVIDIA Isaac Sim ausgeführt werden. Dieses Framework basiert auf der NVIDIA Omniverse-Plattform und generiert fotorealistische Videos, die den Abstand zwischen Simulation und Realität verringern. Entwickler können auf eine vierteilige Pipeline für die Generierung synthetischer Daten verweisen:

  • NVIDIA Omniverse NuRec-Bibliotheken für neuronale Rekonstruktionen, um einen digitalen Zwilling einer realen Umgebung in OpenUSD zu rekonstruieren, indem sie einfach mit einem Smartphone beginnen.
  • SimReady-Assets, um einen digitalen Zwilling mit physisch exakten 3D-Modellen zu füllen.
  • MobilityGen-Workflow in Isaac Sim, um synthetische Daten zu erzeugen.
  • NVIDIA Cosmos, um die generierten Daten anzureichern.

Von der Simulation in die reale Welt

Führende Robotik- und KI-Unternehmen nutzen diese Technologien bereits, um die Entwicklung physischer KI zu beschleunigen.

Skild AI entwickelt universell einsetzbare Robotergehirne und nutzt Cosmos Transfer, um vorhandene Daten für das Testen und Validieren von Robotikrichtlinien mit neuen Variationen zu ergänzen, die in NVIDIA Isaac Lab trainiert wurden.

Skild AI nutzt Isaac Lab, um skalierbare Simulationsumgebungen zu erstellen, in denen seine Roboter für verschiedene Ausführungen und Anwendungen trainiert werden können. Durch die Kombination der Robotersimulationsfunktionen von Isaac Lab mit der synthetischen Datengenerierung von Cosmos kann Skild AI Robotergehirne unter verschiedenen Bedingungen trainieren, ohne dass die zeitlichen und finanziellen Einschränkungen der Datenerfassung in der realen Welt zum Tragen kommen.

Serve Robotics nutzt synthetische Daten, die aus Tausenden von simulierten Szenarien in NVIDIA Isaac Sim generiert wurden. Die synthetischen Daten werden dann zusammen mit realen Daten für das Training physischer KI-Modelle verwendet. Das Unternehmen hat eine der größten Flotten autonomer Roboter aufgebaut, die in öffentlichen Räumen eingesetzt werden, und hat damit über 100.000 Mahlzeiten in urbanen Räumen ausgeliefert. Die Roboter von Serve sammeln monatlich 1 Million Meilen an Daten, darunter fast 170 Milliarden Lidar-Bilder, die in der Simulation zur weiteren Verbesserung der Robotermodelle verwendet werden

Erfahren Sie im folgenden Livestream mehr darüber, wie Serve Robotics Isaac Sim nutzt, um die Entwicklung, das Testen und die Bereitstellung seiner Roboter für die Lieferung bis zum Gehsteig zu beschleunigen.


Neben der Versorgung von Menschen mit Mahlzeiten hat Serve seine Roboter kürzlich genutzt, um Rechenleistung bereitzustellen, indem es brandneue NVIDIA DGX Spark-KI-Supercomputer an Refik Anadol, Will.I.AM und Ollama ausgeliefert hat. Mit 1 Petaflop an KI-Leistung bietet DGX Spark Entwicklern die Desktop-Funktionen für die Workflows für das Prototyping von KI-Modellen und das Finetuning der Modelle bis hin zur Entwicklung von Inferenz und Robotik.

Auch das Unternehmen Zipline, das sich mit autonomen Drohnenlieferungen befasst, hat sich an der DGX Spark-Auslieferung beteiligt. Jo Mardall, Chief Hardware Officer, hat einen DGX Spark per Drohne am Hauptsitz und der Testanlage des Unternehmens in Half Moon Bay, Kalifornien, in Empfang genommen. Zipline nutzt für seine Drohnenauslieferungssysteme die NVIDIA Jetson-Edge-KI- und Robotikplattform.

Erfahren Sie, wie Entwickler synthetische Daten nutzen

Lightwheel ist ein Anbieter von Simulation-First-Robotiklösungen, der Unternehmen hilft, mit SimReady-Assets und großen synthetischen Datensätzen die Lücke zwischen der Simulation und der Realität zu schließen. Mit hochwertigen synthetischen Daten und Simulationsumgebungen, die auf OpenUSD basieren, hilft der Ansatz von Lightwheel, sicherzustellen, dass in Simulationen trainierte Roboter in realen Szenarien effektiv funktionieren – ob in der Fabrikhalle oder zuhause.

Data Scientist und Mitglied der Omniverse Community Santiago Villa nutzt synthetische Daten mit Omniverse-Bibliotheken und Blender-Software, um Bergbauoperationen zu verbessern, indem er große Felsbrocken identifiziert, die den Betrieb behindern.

Unentdeckte Felsbrocken, die in Brechmaschinen gelangen, können pro Vorfall Verzögerungen von sieben oder mehr Minuten verursachen, was Bergwerke pro Jahr bis zu 650.000 US-Dollar durch Produktionsausfall kostet. Die Verwendung von Omniverse zur Generierung von Tausenden automatisch annotierter synthetischer Bilder bei unterschiedlichen Licht- und Wetterverhältnissen verringert die Trainingskosten drastisch und ermöglicht Bergbauunternehmen gleichzeitig, die Systeme zur Erkennung von Felsbrocken zu verbessern und Ausfallzeiten zu vermeiden.

FS Studio hat mit einem weltweit führenden Logistikunternehmen zusammengearbeitet, um die KI-getriebene Paketerkennung zu verbessern, indem es mit Omniverse-Bibliotheken wie Replicator Tausende fotorealistische Paketvariationen bei unterschiedlichen Lichtverhältnissen erstellt hat. Der synthetische Datensatz hat die Genauigkeit der Objekterkennung drastisch verbessert und falsch-positive Ergebnisse reduziert, was die Durchsatzgeschwindigkeit und die Systemleistung im gesamten Logistiknetzwerk des Kunden verbessert hat.

Bild mit freundlicher Genehmigung von FS Studio

Robots for Humanity hat für einen Kunden aus der Öl- und Gasbranche eine vollständige Simulationsumgebung in Isaac Sim aufgebaut. Hierzu wurden Omniverse-Bibliotheken zur Generierung synthetischer Daten, einschließlich der Tiefen-, Segmentierungs- und RGB-Bildern, genutzt, während gleichzeitig per Teleoperation die Gelenk- und Bewegungsdaten vom Unitree G1-Roboter erfasst wurden.

Bild mit freundlicher Genehmigung von Robots for Humanity

Omniverse-Botschafter Scott Dempsey hat einen Synthesizer für die Generierung synthetischer Daten entwickelt, mit dem verschiedene Kabel gemäß den Spezifikationen realer Hersteller erstellt werden. Dabei werden mit Isaac Sim synthetische Daten generiert, die mit Cosmos Transfer angereichert werden, um fotorealistische Trainingsdatensätze für Anwendungen zu erstellen, die Kabel erkennen und handhaben.

Werden Sie Teil der Welt von OpenUSD

Erfahren Sie mehr über OpenUSD, Cosmos und synthetische Daten für physische KI, indem Sie folgende Ressourcen erkunden:

Bleiben Sie auf dem Laufenden, abonnieren Sie NVIDIA Omniverse-News, treten Sie der Omniverse-Community bei und folgen Sie Omniverse auf Discord, InstagramLinkedInThreads X und YouTube

Erkunden Sie das Alliance for OpenUSD-Forum und die AOUSD-Website.