KI-Modelle entwickeln sich schnell und in großem Umfang weiter.
Was fehlt ihnen jedoch, was die (meisten) Menschen besitzen? Alltagswissen(Common Sense): Ein Verständnis, das Menschen durch reale Erfahrungen entwickelt haben, z. B. dass Vögel nicht rückwärts fliegen können, dass Spiegel reflektieren und dass Eis zu Wasser schmilzt.
Während Menschen solche Prinzipien für selbstverständlich halten, müssen sie KI-Modellen beigebracht werden, wenn diese mit der genauen Beantwortung komplexer Fragen und der Navigation in unkalkulierbaren physischen Umgebungen, wie z. B. Industriehallen oder Straßen, beauftragt werden.
NVIDIA geht diese Herausforderung mit der Entwicklung einer Reihe von Tests an, die KI-Modellen die Grenzen der physischen Welt vermitteln. Anders ausgedrückt sind dies Tests, die der KI Alltagswissen vermitteln.
Diese Tests werden für die Entwicklung von Reasoning-Modellen genutzt, z. B. für NVIDIA Cosmos Reason, ein offenes Reasoning-VLM (Vision Language Model), das für physische KI-Anwendungen genutzt wird, die in der Lage sind, zeitlich begründete Antworten zu generieren. Cosmos Reason hat es auf Hugging Face gerade an die Spitze der Bestenliste für physisches Reasoning geschafft.
Cosmos Reason ist im Vergleich zu früheren VLMs deswegen einzigartig, weil es dafür ausgelegt ist, die Entwicklung physischer KI für Bereiche wie die Robotik, autonome Fahrzeuge und Smart Spaces zu beschleunigen. Mithilfe von physischem Alltagswissen kann das Modell Schlussfolgerungen ziehen und über neuartige Szenarien nachdenken.
Damit Modelle komplexe Umgebungen – darunter auch Industriehallen und Labore – verstehen, müssen sie klein anfangen. So wurde das Cosmos Reason-Modell im unten dargestellten Test beispielsweise damit beauftragt, eine Multiple-Choice-Frage zu der relativen Bewegung im Video zu beantworten:
Beispiel aus dem Evaluierungsdatensatz von Cosmos Reason
Wie gestaltet sich Reasoning aus der Perspektive eines KI-Modells?
Damit NVIDIA-Modelle ihre Fähigkeiten zum Ziehen von Schlussfolgerungen entwickeln, wird diesen mittels bestärkendem Lernen physisches Alltagswissen aus der realen Welt vermittelt.
Roboter wissen beispielsweise nicht intuitiv, wo links, rechts, oben oder unten ist. Solche räumlich-zeitlichen Grenzen werden ihnen durch Training vermittelt. KI-gesteuerten Robotern, die in Sicherheitstests wie Crashtests für Fahrzeuge eingesetzt werden, muss ein Bewusstsein dafür vermittelt werden, wie ihre physische Form mit ihrer Umgebung interagiert.
Wenn kein Alltagswissen in das Training dieser Roboter eingebettet wird, kann dies beim Einsatz zu Problemen führen.
„Ohne grundlegendes Wissen über die physische Welt kann ein Roboter herunterfallen oder versehentlich etwas zerbrechen, was womöglich Menschen und die Umwelt gefährdet“, erklärte Yin Cui, Research Scientist bei NVIDIA.
NVIDIA entwickelt die nächste Generation der KI, indem es menschliches Alltagswissen über die physische Welt in Modellen widerspiegelt.
Sehen Sie sich das NVIDIA Data Factory-Team an: Es besteht aus einer Gruppe globaler Analysten mit unterschiedlichen Hintergründen, darunter Biotechnologie, Wirtschaft und Linguistik. Diese Gruppe arbeitet daran, Hunderttausende von Dateneinheiten zu entwickeln, zu analysieren und zu kompilieren, die für das Training generativer KI-Modelle im Hinblick auf Reasoning verwendet werden.
Der Datenkurationsprozess
Eines der Projekte des NVIDIA Data Factory-Teams konzentriert sich auf die Entwicklung von World-Foundation-Modellen für physische KI-Anwendungen. Diese virtuellen Umgebungen erschaffen neuronale Deep-Learning-Netze, die für das Training von Reasoning-Modellen auf Basis simulierter Domänen sicherer und effektiver sind.
Zuerst erstellt eine NVIDIA-Annotationsgruppe Paare aus Fragen und Antworten, die auf Videodaten basieren. Diese Videos stammen durchweg aus der realen Welt und können alle Arten von Bildmaterial enthalten, von Hühnern, die in ihrem Stall herumlaufen, bis zu Autos, die auf einer Landstraße fahren.
Ein Annotator könnte beispielsweise zu dem folgenden Video fragen: „Welche Hand benutzt die Person, um die Spaghetti zu schneiden?“
Beispiel aus dem Evaluierungsdatensatz von Cosmos Reason
Die Annotatoren bieten dann vier Multiple-Choice-Antworten an (A, B, C und D). Die Daten werden in das Modell eingespeist und es muss mittels Reasoning die richtige Antwort auswählen.
„Im Grunde erstellen wir einen Test für das Modell“, erklärte Cui. „Alle unsere Fragen sind Multiple-Choice-Fragen, wie sie Schüler in einer Prüfung erhalten.“
NVIDIA-Analysten wie Michelle Li prüfen dann die Qualität dieser Frage-Antwort-Paare.
Li verfügt über einen beruflichen Hintergrund im Bereich der öffentlichen Gesundheit und der Datenanalyse, der es ihr ermöglicht, den übergeordneten Zweck der von ihr analysierten Daten zu beurteilen.
„Für physische KI haben wir das spezifische Ziel, Modelle im Hinblick auf das Verständnis der physischen Welt zu trainieren. Das hilft mir, das große Ganze im Blick zu halten, wenn ich mir die Frage-Antwort-Paare und die Art der gestellten Fragen ansehe“, sagte Li. „Ich frage mich, ob die Frage-Antwort-Paare mit unseren Zielen für die Richtlinien des Projekts übereinstimmen.“
Anschließend werden die Daten von den Data Factory-Leitern des Projekts geprüft, die sicherstellen, dass sie den Qualitätsstandards entsprechen und an das Cosmos Reason-Forschungsteam gesendet werden können. Die Wissenschaftler speisen diese hunderttausende von Dateneinheiten – in diesem Fall die Frage-Antwort-Paare – dann in das Modell ein und trainieren es mit bestärkendem Lernen im Hinblick auf die Grenzen und Einschränkungen der physischen Welt.
Welche Anwendungen für Reasoning-KI gibt es?
Reasoning-Modelle sind deshalb außergewöhnlich, weil sie sowohl ihren zeitlichen Raum erfassen als auch Ergebnisse vorhersagen können. Sie können eine Situation analysieren, ein Gedankennetz wahrscheinlicher Ergebnisse erstellen und daraus das wahrscheinlichste Szenario ableiten.
Einfach ausgedrückt, stellt Reasoning-KI das menschliche Denken dar. Reasoning-KI zeigt ihre Arbeit und verschafft dem Benutzer Einblick in die Logik hinter ihren Antworten.
Benutzer können diese Modelle auffordern, ein Video zu analysieren, z. B. von zwei Autos, die auf einer Straße fahren. Wenn dann gefragt wird „Was würde passieren, wenn die Autos auf der gleichen Spur aufeinander zufahren?“, kann das Modell schlussfolgern und das wahrscheinlichste Ergebnis des vorgeschlagenen Szenarios ermitteln – beispielsweise einen Autounfall.
„Wir bauen ein bahnbrechendes Reasoning-Modell auf, das sich auf physische KI konzentriert“, erklärte Tsung-Yi Lin, Principal Research Scientist im Cosmos Reason-Team von NVIDIA.
Die Fähigkeit des Data Factory-Teams von NVIDIA, qualitativ hochwertige Daten zu erzeugen, wird unerlässlich sein für weitere Innovationen im Bereich der Reasoning-Modelle und die Entwicklung intelligenter autonomer Agenten und physischer KI-Systeme, die sicher mit der realen Welt interagieren können.
Sehen Sie sich eine Vorschau von NVDIA Cosmos-Reason1 an oder laden Sie das Modell von Hugging Face und GitHub herunter.
