Neuigkeiten: NVIDIA stellt Blueprint für KI-Agenten vor, die Videos analysieren können

Der neue NVIDIA AI Blueprint mit Metropolis ermöglicht es Unternehmen und Einzelpersonen, die Produktivität und Sicherheit zu steigern und könnte sogar NVIDIAs CEO dabei helfen, seinen Fastball-Pitch zu verbessern.
by Adam Scraba

Der nächste große KI-Moment ist buchstäblich in Sicht.

In der heutigen Zeit werden weltweit mehr als 1,5 Milliarden Kameras auf Unternehmensebene eingesetzt, die jährlich rund 7 Billionen Stunden Videomaterial generieren. Doch nur ein Bruchteil davon wird analysiert.

Es wird geschätzt, dass weniger als 1 % des Videomaterials von Industriekameras live von Menschen mitverfolgt wird, was bedeutet, dass kritische Betriebsvorfälle weitgehend unbemerkt bleiben.

Dies ist mit hohen Kosten verbunden. Hersteller verlieren beispielsweise jährlich Billionen von Dollar aufgrund von schlechter Produktqualität oder Defekten, die von KI-Agenten zur Wahrnehmung, Analyse und Unterstützung von menschlichem Handeln zu einem früheren Zeitpunkt hätten entdeckt oder sogar vorhergesagt werden können.

Interaktive KI-Agenten mit integrierten visuellen Wahrnehmungsfunktionen können als jederzeit verfügbare Videoanalysten dienen und Fabriken dabei unterstützen, effizienter zu sein, die Mitarbeitersicherheit verbessern, den Verkehr staufrei halten und können Athleten in ihrer Sportart sogar noch besser machen.

Um die Erstellung solcher Agenten zu beschleunigen, hat NVIDIA heute den frühen Zugang zu einer neuen Version des NVIDIA AI Blueprint für die Videosuche und -zusammenfassung angekündigt. Der auf der NVIDIA Metropolis-Plattform basierende Blueprint wird jetzt von NVIDIA Cosmos Nemotron VLMs (Vision-Sprachmodelle), NVIDIA Llama Nemotron LLMs (große Sprachmodelle) und NVIDIA NeMo Retriever unterstützt und bietet Entwicklern Tools zur Entwicklung und Bereitstellung von KI-Agenten, die große Mengen an Video- und Bildinhalten analysieren können.

Der Blueprint integriert die NVIDIA AI Enterprise Softwareplattform, die NVIDIA NIM Microservices für VLMs und LLMs sowie fortschrittliche KI-Frameworks für die Retrieval-Augmented Generation umfasst, um die Batch-Videoverarbeitung zu ermöglichen, was 30-mal schneller ist als die Live-Wiedergabe von Videos.

Der Blueprint umfasst mehrere agentenbasierte KI-Funktionen wie Chain-of-Thought-Argumentation, Aufgabenplanung und Tool-Calling, die Entwicklern dabei helfen, die Entwicklung leistungsstarker und vielfältiger visueller Agenten zu optimieren und so eine Vielzahl von Problemen zu lösen.

KI-Agenten mit Videoanalysefähigkeiten können mit weiteren Agenten, die andere Fähigkeiten besitzen, kombiniert werden, um noch anspruchsvollere agentenbasierte KI-Dienste zu ermöglichen. Unternehmen haben die Flexibilität, ihre KI-Agenten wo immer sie möchten zu entwickeln und bereitzustellen – vom Edge bis zur Cloud.

KI-Agenten für Videoanalysen zur Unterstützung industrieller Unternehmen

KI-Agenten mit visuellen Wahrnehmungs- und Analysefähigkeiten können zur Unterstützung industrieller Betriebe abgestimmt werden, um folgende Vorteile zu bieten:

  • Produktivitätssteigerung und Abfallreduzierung: Agenten können dazu beitragen, dass Standardbetriebsverfahren bei komplexen industriellen Prozessen wie der Produktmontage eingehalten werden. Sie können auch abgestimmt werden, um nuancierte Aktionen und die Reihenfolge, in der sie implementiert werden, sorgfältig zu beobachten und zu verstehen.
  • Effizienzsteigerung des Asset-Managements durch bessere Platznutzung: Agenten können die Lagerhaltung in Lagerhallen optimieren, indem sie 3D-Volumenschätzungen durchführen und das Verständnis für verschiedene Kameraströme zentralisieren.
  • Verbesserung der Sicherheit durch die automatische Generierung von Berichten und Zusammenfassungen von Vorfällen: Agenten können riesige Mengen Videomaterial verarbeiten und als kontextbezogene informationsreiche Unfallberichte zusammenfassen. Sie können auch dazu beitragen, die Einhaltung der Vorschriften für persönliche Schutzausrüstung in Fabriken sicherzustellen, was die Sicherheit der Arbeiter in industriellen Umgebungen verbessert.
  • Verhinderung von Unfällen und Produktionsproblemen: KI-Agenten können untypische Aktivitäten identifizieren, um Betriebs- und Sicherheitsrisiken schnell entgegenzuwirken, ob es nun in einem Lager, einer Fabrik oder einem Flughafen, an einer Verkehrskreuzung oder in anderen städtischen Umgebungen ist.
  • Aus der Vergangenheit lernen: Agenten können Videoarchive des Betriebs durchsuchen, relevante Informationen aus der Vergangenheit finden und diese nutzen, um Probleme zu lösen oder neue Prozesse zu entwickeln.

Videoanalysten für Sport, Unterhaltung und mehr

Eine weitere Branche, in der KI-Agenten für die Videoanalyse sich durchsetzen werden, ist der Sport – ein Markt von 500 Mrd. USD weltweit, mit einem prognostizierten Wachstum von Hunderten von Milliarden in den nächsten Jahren.

Trainer, Teams und Ligen – ob Profis oder Amateure – verlassen sich auf Videoanalysen, um die Spielerleistung zu bewerten und zu verbessern, die Sicherheit zu priorisieren und das Fan-Engagement durch Spieleranalyseplattformen und Datenvisualisierung zu steigern. KI-Agenten mit visueller Wahrnehmung bieten Sportlern jetzt noch nie dagewesenen Zugang zu detaillierteren Einblicken und Verbesserungsmöglichkeiten.

Während seines Eröffnungsvortrags auf der CES demonstrierte NVIDIA Gründer und CEO Jensen Huang einen KI-Videoanalyse-Agenten, der die Fastball-Pitching-Fähigkeiten eines Amateur-Baseballspielers im Vergleich zu einem Profi bewertete. Mithilfe eines Videos, das von Huang während der Zeremonie des ersten Pitchs für das Baseballteam der San Francisco Giants aufgenommen wurde, konnte der KI-Videoanalyse-Agent Verbesserungsmöglichkeiten vorschlagen.