Hugging Face und NVIDIA forcieren die Forschung und Entwicklung von Open-Source-KI-Robotik

Das Open-Source-Framework LeRobot von Hugging Face in Kombination mit der KI- und Robotik-Technologie von NVIDIA ermöglicht es Forschern und Entwicklern, Fortschritte in einer Vielzahl von Branchen zu erzielen.
by Kalyan Vadrevu

Auf der Conference for Robot Learning (CoRL) in München kündigten Hugging Face und NVIDIA eine Zusammenarbeit an, um die Forschung und Entwicklung im Bereich Robotik zu beschleunigen – durch die Zusammenführung ihrer Open-Source-Robotik-Communitys.

Die offene KI-Plattform LeRobot von Hugging Face in Kombination mit der KI-, Omniverse- und Isaac-Robotiktechnologie von NVIDIA wird es Forschern und Entwicklern ermöglichen, Fortschritte in einer Vielzahl von Branchen zu erzielen, darunter die Fertigung, das Gesundheitswesen und die Logistik.

Open-Source-Robotik für das Zeitalter der physischen KI

Die Ära der physischen KI – Roboter, die die physischen Eigenschaften von Umgebungen verstehen – ist angebrochen und verändert die Branchen der Welt rasant.

Um diese rasante Innovation voranzutreiben und aufrechtzuerhalten, benötigen Robotikforscher und -entwickler Zugriff auf erweiterbare Open-Source-Frameworks, die den Entwicklungsprozess von Robotertraining, -simulation und -inferenz umfassen. Durch die Freigabe von Modellen, Datensätzen und Workflows im Rahmen gemeinsamer Frameworks sind die neuesten Fortschritte ohne weiteres verfügbar, ohne dass Code neu erstellt werden muss.

Die führende offene KI-Plattform von Hugging Face dient mehr als 5 Millionen Forschern und Entwicklern im Bereich des maschinellen Lernens und bietet Tools und Ressourcen zur Optimierung der KI-Entwicklung. Benutzer von Hugging Face können auf die neuesten vortrainierten Modelle zugreifen und diese feinabstimmen sowie KI-Pipelines auf gemeinsamen APIs mit über 1,5 Millionen Modellen, Datensätzen und Anwendungen aufbauen, die im Hugging Face Hub frei zugänglich sind.

LeRobot, entwickelt von Hugging Face, weitet die erfolgreichen Paradigmen seiner Transformers- und Diffusers-Bibliotheken auf den Bereich der Robotik aus. LeRobot bietet eine umfassende Suite von Tools für die gemeinsame Nutzung von Datenerfassung, Modelltraining und Simulationsumgebungen sowie Designs für kostengünstige Manipulator-Kits.

Die KI-Technologie, die Simulation und das modulare Open-Source-Framework für das Roboterlernen von NVIDIA wie NVIDIA Isaac Lab können den Workflow der Datenerfassung, des Trainings und der Verifizierung von LeRobot beschleunigen. Forscher und Entwickler können ihre mit LeRobot und Isaac Lab erstellten Modelle und Datensätze teilen und so ein Daten-Flywheel für die Robotik-Community schaffen.

Skalierung der Roboterentwicklung mit Simulation

Die Entwicklung physischer KI ist eine Herausforderung. Im Gegensatz zu Sprachmodellen, die umfangreiche Internet-Textdaten verwenden, stützt sich die physikbasierte Robotik auf physische Interaktionsdaten zusammen mit Vision-Sensoren, die in großem Umfang schwieriger zu erfassen sind. Das Sammeln von realen Roboterdaten für die geschickte Manipulation einer Vielzahl von Aufgaben und Umgebungen ist zeit- und arbeitsintensiv.

Isaac Lab, das auf NVIDIA Isaac Sim aufbaut, ermöglicht das Training von Robotern durch Demonstration oder Versuch und Irrtum in Simulationen mit High-Fidelity-Rendering und Physiksimulation, um realistische synthetische Umgebungen und Daten zu erzeugen. Durch die Kombination von GPU-beschleunigten Physiksimulationen und der Ausführung in parallelen Umgebungen bietet Isaac Lab die Möglichkeit, mit einer einzigen Demonstration riesige Mengen an Trainingsdaten zu generieren. Dies entspricht Tausenden von realen Erfahrungen in der realen Welt.

Die generierten Bewegungsdaten werden dann verwendet, um eine Richtlinie mit Imitationslernen zu trainieren. Nach dem erfolgreichen Training und der Validierung in der Simulation werden die Richtlinien auf einem echten Roboter bereitgestellt, wo sie weiter getestet und abgestimmt werden, um eine optimale Leistung zu erzielen.

Dieser iterative Prozess nutzt die Genauigkeit von Daten aus der realen Welt und die Skalierbarkeit von simulierten synthetischen Daten, um robuste und zuverlässige Robotiksysteme zu gewährleisten.

Durch die gemeinsame Nutzung dieser Datensätze, Richtlinien und Modelle auf Hugging Face wird ein Roboterdaten-Flywheel erstellt, das es Entwicklern und Forschern ermöglicht, auf der Arbeit des anderen aufzubauen und den Fortschritt auf diesem Gebiet zu beschleunigen.

„Die Robotik-Community gedeiht, wenn wir gemeinsam an der Entwicklung arbeiten“, sagte Animesh Garg, Assistant Professor an der Georgia Tech. „Durch die Nutzung von Open-Source-Frameworks wie LeRobot von Hugging Face und NVIDIA Isaac Lab beschleunigen wir das Tempo von Forschung und Innovation in der KI-gestützten Robotik.“

Förderung der Zusammenarbeit und des Engagements der Community

Der geplante kollaborative Workflow umfasst die Erfassung von Daten durch Teleoperation und Simulation im Isaac Lab und deren Speicherung im Standardformat LeRobotDataset. Die mit GR00T-Mimic generierten Daten werden dann verwendet, um eine Roboterrichtlinie mit Imitationslernen zu trainieren, die anschließend in der Simulation ausgewertet wird. Schließlich wird die validierte Richtlinie auf realen Robotern mit NVIDIA Jetson für die Inferenz in Echtzeit bereitgestellt.

Die ersten Schritte in dieser Zusammenarbeit wurden bereits unternommen: Das gezeigte physische Pick-System mit LeRobot-Software wurde auf NVIDIA Jetson Orin Nano ausgeführt und bietet eine leistungsstarke, kompakte Rechenplattform für die Bereitstellung.

„Die Kombination der Open-Source-Community von Hugging Face mit der Hardware von NVIDIA und der Simulation von Isaac Lab hat das Potenzial, die Innovation im Bereich der KI für die Robotik zu beschleunigen“, sagte Remi Cadene, Principal Research Scientist bei LeRobot.

Diese Arbeit baut auf den Community-Beiträgen von NVIDIA im Bereich der generativen KI am Edge auf und unterstützt die neuesten offenen Modelle und Bibliotheken, wie z. B. Hugging Face Transformers, die Optimierung der Inferenz für große Sprachmodelle (LLMs), kleine Sprachmodelle (SLMs) und multimodale Vision-Language-Modelle (VLMs) sowie die aktionsbasierten Varianten von Vision-Language-Aktionsmodellen (VLAs), Diffusionsrichtlinien und Sprachmodelle von VLM – alles mit starker, Community-gesteuerter Unterstützung.

Gemeinsam wollen Hugging Face und NVIDIA die Arbeit des globalen Ökosystems von Robotikforschern und -entwicklern beschleunigen sowie die Branchen vom Transport über die Fertigung bis hin zur Logistik transformieren.

Erfahren Sie mehr über die Forschungsarbeiten von NVIDIA im Bereich Robotik auf der CoRL, einschließlich der VLM-Integration für ein besseres Verständnis der Umwelt, der zeitlichen Navigation und der langfristigen Planung. Informieren Sie sich über Workshops mit NVIDIA Forschern auf der CoRL.