Nemotron Labs: Wie KI-Agenten Dokumente in Echtzeit-Geschäftsintelligenz umwandeln

KI-gestützte Dokumentenintelligenz, die auf offenen Modellen von NVIDIA Nemotron basiert, verbessert die wissenschaftliche Forschung, Finanzen und juristische Arbeitsabläufe.
by NVIDIA Writers

Anmerkung der Redaktion: Dieser Beitrag ist Teil der Nemotron Labs-Blogserie, die die sich damit beschäftigt, wie die neuesten offenen Modelle, Datensätze und Trainingstechniken Unternehmen dabei unterstützen, spezialisierte KI-Systeme und Anwendungen auf NVIDIA-Plattformen zu entwickeln. Jeder Beitrag zeigt praktische Anwendungsbeispiele, einen offenen Stack zu nutzen, um Mehrwert in der Produktion zu bieten – von transparenten Forschungs-Copiloten bis hin zu skalierbaren KI-Agenten.

Unternehmen stehen heute vor der Herausforderung, wertvolle Erkenntnisse zu gewinnen, die in einer Vielzahl von Dokumenten verborgen sind, wie in Berichten, Präsentationen, PDFs, Webseiten und Tabellen.

Häufig stellen Teams Erkenntnisse zusammen, indem sie Dateien manuell überprüfen, Daten in Tabellen kopieren, Dashboards erstellen und grundlegende Such- oder vorlagenbasierte Tools zur optischen Zeichenerkennung (OCR) verwenden, bei denen wichtige Details in komplexen Medien häufig nicht erkannt werden.

Die intelligente Dokumentenverarbeitung ist ein KI-gestützter Workflow, der Dokumente automatisch liest, versteht und Erkenntnisse aus ihnen extrahiert. Er interpretiert umfangreiche Formate in diesen Dokumenten – einschließlich Tabellen, Diagrammen, Bilder und Text – mit KI-Agenten und Techniken wie Retrieval-Augmented Generation (RAG), um den multimodalen Inhalt in Erkenntnisse umzuwandeln, die andere Multi-Agenten-Systeme und Menschen problemlos nutzen können.

Mit offenen Modellen und GPU-beschleunigten Bibliotheken von NVIDIA Nemotron können Unternehmen KI-gestützte Dokumentenintelligenzsysteme für Forschung, Finanzdienstleistungen, juristische Workflows und mehr entwickeln.

Diese offenen Modelle, Datensätze und Trainingsrezepte haben zu sehr guten Ergebnissen auf Leaderboards wie MTEB, MMTEB und ViDoRe V3, Benchmarks für die Bewertung mehrsprachiger und multimodaler Abrufmodelle, geführt. Teams können unter den besten Modellen für Aufgaben wie Suche und Beantwortung von Fragen wählen.

Wie die Dokumentenverarbeitung Business Intelligence optimiert

Dokumentenintelligenzsysteme, die Bedeutung aus komplexen Layouts herauslesen, auf riesige Dateibibliotheken skalieren und genau zeigen, woher eine Antwort stammt, sind in anspruchsvollen Umgebungen unglaublich nützlich. Diese Systeme:

  • Verstehen umfangreiche Dokumenteninhalte, gehen über das einfache Text-Scraping hinaus, um Informationen aus Diagrammen, Tabellen, Abbildungen und Seiten in gemischten Sprachen zu erfassen und Dokumente wie ein Mensch zu behandeln, indem sie Struktur, Beziehungen und Kontext erkennen.
  • Bearbeiten große Mengen an dynamischen Daten, erfassen und verarbeiten parallel umfangreiche Sammlungen von Dokumenten und halten Wissensdatenbanken kontinuierlich auf dem neuesten Stand.
  • FGenau das finden, was Benutzer benötigen, und KI-Agenten dabei helfen, die relevantesten Passagen, Tabellen oder Absätze für eine Abfrage zu identifizieren, sodass sie präzise und genau reagieren können.
  • Zeigen die Belege hinter den Antworten auf, indem sie Zitate zu bestimmten Seiten oder Diagrammen bereitstellen, damit Teams Transparenz und Prüffähigkeit erhalten, was in regulierten Branchen entscheidend ist.

Das Ergebnis ist eine Umstellung von statischen Dokumentarchiven auf lebendige Wissenssysteme, die Business Intelligence, Kundenerlebnisse und betriebliche Workflows direkt vorantreiben.

Dokumentenintelligenz im Einsatz

Intelligente Dokumentenverarbeitungssysteme, die auf NVIDIA Nemotron RAG-Modellen, Nemotron Parse und beschleunigtem Rechnen basieren, verändern schon jetzt, wie Organisationen in verschiedenen Branchen Erkenntnisse aus ihren Dokumenten gewinnen.

Justt: KI-basiertes Chargeback-Management und Optimierung von Streitfällen

Im Bereich Finanzdienstleistungen verursachen Zahlungsstreitigkeiten erhebliche Umsatzverluste und betriebliche Komplexität für Händler, vor allem weil die für ihre Bearbeitung erforderlichen Nachweise in unstrukturierten Formaten gespeichert sind. Transaktionsprotokolle, Kundenkommunikation und Richtliniendokumente sind häufig über Systeme hinweg fragmentiert und können nur schwer in großem Maßstab verarbeitet werden, was die Bearbeitung von Streitigkeiten langsam, manuell und kostspielig macht.

Justt.ai bietet eine KI-gesteuerte Plattform, die den gesamten Chargeback-Lebenszyklus in großem Maßstab automatisiert. Die Plattform verbindet sich direkt mit Zahlungsdienstleistern und Händlerdatenquellen, um Transaktionsdaten, Kundeninteraktionen und Richtlinien zu erfassen und anschließend automatisch streitspezifische Nachweise zusammenzustellen, die den Anforderungen des Kreditkartennetzwerks und der Herausgeber entsprechen.

Die KI-gestützte Streitoptimierung der Plattform, die von Nemotron Parse unterstützt wird, wendet prädiktive Analysen an, um festzustellen, welche Rückbuchungen angefochten oder akzeptiert werden müssen und wie jede Reaktion für eine maximale Nettobetrag optimiert werden kann. Führende Hotelbetreiber wie HEI Hotels & Resorts nutzen die Plattform, um die Bearbeitung von Streitigkeiten in ihren Häusern zu automatisieren und so Einnahmen zurückzugewinnen und gleichzeitig die Beziehungen zu Gästen aufrechtzuerhalten.

Durch die Kombination von dokumentenzentrierter Intelligenz mit Entscheidungsautomatisierung können Händler einen erheblichen Teil der Einnahmen zurückgewinnen, die durch illegitime Rückbuchungen verloren gingen, während sie den manuellen Überprüfungsaufwand reduzieren.

Erfahren Sie, wie das Chargeback-Management-Tool von Justt Finanzdaten autonom verarbeitet, um Streitigkeiten für Händler zu bewältigen.

Docusign: Skalierung von Vertragsintelligenz

Docusign ist der weltweit führende Anbieter im Bereich intelligentes Vertragsmanagement und bearbeitet jeden Tag Millionen von Transaktionen für mehr als 1,8 Millionen Kunden und über 1 Milliarde Benutzer.

Vereinbarungen sind die Grundlage jedes Unternehmens, aber die kritischen Informationen, die sie enthalten, sind oft auf den Seiten von Dokumenten vergraben. Um die Informationen ans Licht zu bringen, benötigte Docusign eine hochpräzise Extraktion von Tabellen, Text und Metadaten aus komplexen Dokumenten wie PDFs, damit Unternehmen Verpflichtungen, Risiken und Chancen schneller verstehen und darauf reagieren können.

Docusign evaluiert Nemotron Parse für ein tieferes Verständnis von Verträgen in großem Maßstab. Das Modell, das auf NVIDIA-GPUs ausgeführt wird, kombiniert fortschrittliche KI mit Layout-Erkennung und OCR. Das System kann komplexe Tabellen zuverlässig interpretieren und Tabellen mit erforderlichen Informationen rekonstruieren. Dies reduziert den Bedarf an manuellen Korrekturen und trägt dazu bei, dass selbst die komplexesten Verträge mit der Geschwindigkeit und Genauigkeit bearbeitet werden, die Kunden erwarten.

Mit dieser Grundlage wird Docusign Vereinbarungsablagen in strukturierte Daten umwandeln, die die Vertragssuche, Analyse und KI-gesteuerte Workflows vorantreiben und so Vereinbarungen in Geschäftsressourcen verwandeln, die Organisationen und ihren Teams dabei helfen, die Transparenz zu verbessern, Risiken zu reduzieren und schnellere Entscheidungen zu treffen.

Edison Scientific: Forschung quer durch riesige Literaturmengen

Kosmos AI Scientist von Edison Scientific hilft Forschern dabei, komplexe wissenschaftliche Landschaften zu navigieren, um Literatur zu synthetisieren, Verbindungen zu identifizieren und Beweise ans Licht zu bringen.

Edison benötigte eine Möglichkeit, schnell und genau strukturierte Informationen aus großen Mengen von PDFs zu extrahieren, einschließlich Gleichungen, Tabellen und Abbildungen, die herkömmliche Informationsanalysemethoden häufig falsch verarbeiten.

Durch die Integration des NVIDIA Nemotron Parse-Modells in seine PaperQA-Pipeline kann Edison Forschungsarbeiten zerlegen, wichtige Konzepte indizieren und Antworten in bestimmten Passagen verankern, wodurch sowohl der Durchsatz als auch die Antwortqualität für Wissenschaftler verbessert werden. Dieser Ansatz verwandelt einen ausgedehnten Forschungskorpus in eine interaktive, abfragbare Wissensmaschine, die die Generierung von Hypothesen und die Literaturprüfung beschleunigt.

Die hohe Effizienz von Nemotron Parse ermöglicht eine kosteneffiziente Bereitstellung in großem Maßstab, sodass das Team von Edison die gesamte multimodale Pipeline erschließen kann.

Entwicklung einer intelligenten Dokumentenverarbeitungsanwendung mit NVIDIA-Technologien

Eine robuste, fachspezifische Dokumentenintelligenzpipeline erfordert Technologien, die die Datenextraktion, Einbettung und Neueinbettung übernehmen können, während die Daten gleichzeitig sicher und konform mit den Vorschriften sind.

  • Extraktion: Nemotron-Extraktions- und OCR-Modelle erfassen schnell multimodale PDFs, Text, Tabellen, Grafiken und Bilder, um sie in strukturierte, maschinenlesbare Inhalte umzuwandeln und gleichzeitig das Layout und die Semantik zu erhalten.
  • Einbettung: Nemotron-Einbettungsmodelle wandeln Passagen, Entitäten und visuelle Elemente in Vektordarstellungen um, die auf den Dokumentenabruf abgestimmt sind und eine semantisch genaue Suche ermöglichen.
  • Reranking: Nemotron-Reranking-Modelle bewerten Kandidatenpassagen, um sicherzustellen, dass die relevantesten Inhalte als Kontext für große Sprachmodelle (LLMs) angezeigt werden, wodurch die Antworttreue verbessert und Halluzinationen reduziert werden.
  • Parsing: Nemotron Parse-Modelle entschlüsseln die Dokumentensemantik, um Text und Tabellen mit präziser räumlicher Verankerung und korrektem Lesefluss zu extrahieren. Durch die Überwindung von Layout-Variabilität werden unstrukturierte Dokumente in umsetzbare Daten umgewandelt, die die Genauigkeit von LLMs und agentischen Workflows verbessern.

Diese Funktionen sind als NVIDIA NIM-Microservices und Foundation-Modelle verpackt, die effizient auf NVIDIA-GPUs ausgeführt werden, sodass Teams vom Proof-of-Concept bis zur Produktion skalieren und gleichzeitig sensible Daten in der gewählten Cloud- oder Rechenzentrumsumgebung bleiben können.

Die effektivsten KI-Systeme verwenden eine Mischung aus Frontier-Modellen und Open-Source-Modellen wie NVIDIA Nemotron, wobei ein LLM-Router jede Aufgabe analysiert und automatisch das dafür am besten geeignete Modell auswählt. Dieser Ansatz gewährleistet eine starke Leistung bei gleichzeitiger Kontrolle der Rechenkosten und Verbesserung der Effizienz.

Erste Schritte mit NVIDIA Nemotron

Greifen Sie auf ein Schritt-für-Schritt-Tutorial zur Entwicklung einer Dokumentenverarbeitungspipeline mit RAG-Funktionen zu. Erfahren Sie, wie Nemotron RAG spezialisierte Agenten vorantreiben kann, die auf verschiedene Branchen zugeschnitten sind.

Experimentieren Sie außerdem mit Nemotron RAG-Modellen und der offenen NVIDIA NeMo Retriever-Bibliothek, die auf GitHub und Hugging Face sowie auf Nemotron Parse auf Hugging Face verfügbar ist.

Werden Sie Mitglied der Gemeinschaft von Entwicklern, die mit dem NVIDIA Blueprint für Enterprise RAG arbeiten, dem ein Dutzend branchenführender KI-Datenplattformanbieter vertrauen und das jetzt auf build.nvidia.com, GitHub und dem NGC-Katalog verfügbar ist.

Bleiben Sie über agentisches KI, NVIDIA Nemotron und mehr auf dem Laufenden, indem Sie NVIDIA AI-Nachrichten abonnieren, der Community beitreten und NVIDIA AI auf LinkedIn, Instagram, X und Facebook folgen.

Erkunden Sie Video-Tutorials und Livestreams im eigenen Tempo.