Von KI-Assistenten, die intensive Forschung betreiben, bis hin zu autonomen Fahrzeugen, die in Sekundenschnelle Navigationsentscheidungen treffen: Die Einführung von KI nimmt in allen Branchen explosionsartig zu.
Grundlage jeder dieser Interaktionen ist Inferenz – die Phase nach dem Training, in der ein KI-Modell Eingaben verarbeitet und Ausgaben in Echtzeit erzeugt.
Die fortschrittlichsten KI-Reasoning-Modelle von heute, die in der Lage sind, mehrstufige Logik und komplexe Entscheidungen zu treffen, generieren weit mehr Token pro Interaktion als ältere Modelle. Dies führt zu einer Zunahme der Token-Nutzung und dem Bedarf an Infrastruktur, die Intelligenzleistungen in großem Maßstab erbringen kann.
KI-Fabriken sind eine Möglichkeit, diesen wachsenden Bedarf zu decken.
Das Betreiben von Inferenz in so großem Umfang bedeutet jedoch nicht nur, mehr Rechenleistung in den Topf zu werfen.
Um KI mit maximaler Effizienz einzusetzen, muss die Inferenz auf der Grundlage des Think SMART-Framework ausgewertet werden:
- Scale and Complexity (Umfang und Komplexität)
- Multidimensional Performance (multidimensionale Leistung)
- Architecture and Software (Architektur und Software)
- Return On Investment Driven by Performance (leistungsbasierte Rendite)
- Technology Ecosystem and Install Base (Technologieökosystem und Verbreitung)
Umfang und Komplexität
Da sich Modelle von kompakten Anwendungen zu massiven Multi-Expertensystemen entwickeln, muss Inferenz mit zunehmend unterschiedlichen Workloads Schritt halten – von der Beantwortung schneller, einmaliger Abfragen bis hin zu mehrstufigem Reasoning mit Millionen von Token.
Die zunehmende Größe und Komplexität von KI-Modellen hat große Auswirkungen auf die Inferenz, etwa bei Ressourcennutzung, Latenz und Durchsatz, Energie und Kosten sowie der Vielfalt der Anwendungsfälle.
Um dieser Komplexität gerecht zu werden, skalieren KI-Dienstleister und Unternehmen ihre Infrastruktur hoch und Partner wie CoreWeave, Dell Technologies, Google Cloud und Nebius bringen neue KI-Fabriken online.
Multidimensionale Leistung
Die Skalierung komplexer KI-Bereitstellungen bedeutet, dass KI-Fabriken die Flexibilität benötigen, Token für ein breites Spektrum von Anwendungsfällen zu verarbeiten und gleichzeitig Genauigkeit, Latenz und Kosten auszugleichen.
Einige Workloads, wie die Echtzeit-Übersetzung von Sprache in Text, erfordern eine extrem niedrige Latenz und eine große Anzahl von Token pro Benutzer, was die Rechenressourcen zugunsten maximaler Reaktionsfähigkeit auslastet. Bei anderen ist die Latenz zwar weniger bedeutend, jedoch ist ein hoher Durchsatz erforderlich, z. B. bei der gleichzeitigen Generierung von Antworten auf Dutzende komplexer Fragen.
Die meisten beliebten Echtzeit-Szenarien liegen in Wahrheit irgendwo in der Mitte: Sie erfordern schnelle Reaktionen, damit Benutzer zufrieden sind, und hohen Durchsatz, um gleichzeitig potenziell Millionen von Benutzern zu bedienen – alles bei gleichzeitiger Minimierung der Kosten pro Token.
So wurde beispielsweise die NVIDIA-Inferenzplattform entwickelt, um Latenz und Durchsatz auszugleichen. Sie unterstützt Inferenzbenchmarks für Modelle wie gpt-oss, DeepSeek-R1 und Llama 3.1.
Was beurteilt werden muss, um optimale multidimensionale Leistung zu erzielen
- Durchsatz: Wie viele Token kann das System pro Sekunde verarbeiten? Je mehr, desto besser die Skalierung von Workloads und Umsätzen.
- Latenz: Wie schnell reagiert das System auf eine Eingabeaufforderung? Geringere Latenz bedeutet eine bessere Benutzererfahrung – entscheidend für interaktive Anwendungen.
- Skalierbarkeit: Kann sich das System-Setup schnell an die steigende Nachfrage anpassen und von einer auf Tausende von GPUs umstellen, ohne dass komplexe Umstrukturierungen oder verschwendete Ressourcen erforderlich sind?
- Kostenwirksamkeit: Ist die Leistung pro Dollar hoch und sind diese Gewinne nachhaltig, wenn die Systemanforderungen steigen?
Architektur und Software
Die Leistung von KI-Inferenz muss bei der Entwicklung von Anfang an bedacht werden. Sie ist das Ergebnis synchron funktionierender Hardware und Software, also GPUs, Netzwerken und Code, die so abgestimmt sind, dass Engpässe vermieden werden und jeder Zyklus optimal genutzt wird.
Leistungsstarke Architektur ohne intelligente Orchestrierung verschwendet Potenzial, großartige Software ohne schnelle Hardware mit geringer Latenz bedeutet träge Leistung. Der Schlüssel ist eine Systemarchitektur, die es ermöglicht, Aufforderungen schnell, effizient und flexibel in nützliche Antworten zu verwandeln.
Unternehmen können NVIDIA-Infrastruktur nutzen, um Systeme zu erstellen, die optimale Leistung bieten.
Für Inferenz im KI-Fabrikmaßstab optimierte Architektur
Die NVIDIA Blackwell-Plattform ermöglicht eine 50-fache Steigerung der Produktivität von KI-Fabriken für Inferenzen – dadurch können Unternehmen den Durchsatz und die interaktive Reaktionsfähigkeit optimieren, selbst wenn die komplexesten Modelle ausgeführt werden.
Das NVIDIA GB200 NVL72-System im Rack-Format verbindet 36 NVIDIA Grace-CPUs und 72 Blackwell-GPUs mit NVIDIA NVLink-Interconnect und bietet 40-mal höhere Umsatzpotenziale, 30-mal höheren Durchsatz, 25-mal höhere Energieeffizienz und 300-mal mehr Wassereffizienz für anspruchsvolle KI-Reasoning-Workloads.
Darüber hinaus bietet das NVFP4-Format mit geringer Präzision auf NVIDIA Blackwell Spitzenleistung und senkt den Energie-, Speicher-und Bandbreitenbedarf, ohne die Genauigkeit zu beeinträchtigen. So profitieren Benutzer von mehr Abfragen pro Watt und niedrigeren Kosten pro Token.
Full-Stack-Inferenzplattform, beschleunigt von Blackwell
Inferenz im KI-Fabrikmaßstab nutzen zu können erfordert mehr als nur beschleunigte Architektur. Dafür ist eine Full-Stack-Plattform mit mehreren Ebenen von Lösungen und Tools nötig, die zusammenarbeiten können.
Moderne KI-Bereitstellungen erfordern eine dynamische automatische Skalierung von einer bis zu Tausenden von GPUs. Die NVIDIA Dynamo-Plattform steuert die verteilte Inferenz, um GPUs dynamisch zuzuweisen und Datenflüsse zu optimieren, was eine bis zu 4-fache Leistungssteigerung bei gleichbleibenden Kosten ermöglicht. Neue Cloud-Integrationen verbessern die Skalierbarkeit und vereinfachen die Bereitstellung.
Bei Inferenz-Workloads, die auf optimale Leistung pro GPU ausgerichtet sind, z. B. die Beschleunigung großer Mischungen von Experten-Modellen, helfen Frameworks wie NVIDIA TensorRT-LLM Entwicklern, eine bahnbrechende Leistung zu erzielen.
Mit seinem neuen, auf PyTorch fokussierten Workflow vereinfacht TensorRT-LLM die KI-Bereitstellung, da die Engine nicht mehr manuell verwaltet werden muss. Diese Lösungen sind nicht nur für sich genommen leistungsstark – sie sind darauf ausgelegt, im Tandem zusammenzuarbeiten. Mit Dynamo und TensorRT-LLM können beispielsweise entscheidende Inferenzanbieter wie Baseten sofort moderne Modellleistung auch bei neuen Frontier-Modellen wie gpt-oss liefern.
Im Hinblick auf die Modelle werden Familien wie NVIDIA Nemotron mit offenen Trainingsdaten für Transparenz entwickelt und generieren schnell genug Token, um fortschrittliche Reasoning-Aufgaben mit hoher Genauigkeit zu bewältigen, ohne die Rechenkosten zu erhöhen. Mit NVIDIA NIM können diese Modelle zudem in ausführbare Microservices verpackt werden, sodass Teams sie einfacher einsetzen und für verschiedene Umgebungen skalieren können und dabei die niedrigsten Gesamtbetriebskosten erzielen.
Zusammen bilden diese Schichten – dynamische Orchestrierung, optimierte Ausführung, optimale Modelle und vereinfachte Bereitstellung – das Rückgrat der Inferenzfähigkeit für Cloud-Anbieter und Unternehmen gleichermaßen.
Leistungsbasierte Rendite
Angesichts der zunehmenden Nutzung von KI sind Unternehmen immer mehr bestrebt, die Rendite jeder einzelnen Benutzeranfrage zu maximieren.
Leistungsfähigkeit ist der größte Faktor für die Rendite. Eine 4-fache Leistungssteigerung von der NVIDIA Hopper-Architektur auf Blackwell führt zu einem bis zu 10-fachen Gewinnwachstum bei ähnlichem Energiebudget.
In Rechenzentren und KI-Fabriken mit begrenzter Stromversorgung führt die Generierung von mehr Token pro Watt direkt zu höheren Einnahmen pro Rack. Die effiziente Verwaltung des Token-Durchsatzes – der Ausgleich von Latenz, Genauigkeit und Benutzerlast – ist entscheidend, um die Kosten niedrig zu halten.
Die Branche erlebt durch stackweite Optimierungen rasante Kostenverringerungen um bis zu 80 % pro Million Token. Die gleichen Vorteile sind mit gpt-oss und anderen Open-Source-Modellen aus dem Inferenz-Ökosystem von NVIDIA erreichbar, egal ob in hyperskalierten Rechenzentren oder auf lokalen KI-PCs.
Technologieökosystem und Verbreitung
Wenn Modelle weiterentwickelt werden, längere Kontextfenster erhalten, mehr Token leisten und ausgefeilteres Laufzeitverhalten unterstützen, skaliert auch die Inferenzleistung.
Offene Modelle sind eine treibende Kraft dieser Entwicklung und beschleunigen heute über 70 % der KI-Inferenz-Workloads. Sie ermöglichen es Start-ups und Unternehmen gleichermaßen, kundenspezifische Agenten, Copiloten und Anwendungen in allen Branchen zu erstellen.
Open-Source-Communitys spielen eine entscheidende Rolle im Ökosystem der generativen KI – sie fördern die Zusammenarbeit, beschleunigen die Innovation und demokratisieren den Zugang. NVIDIA verfügt über mehr als 1.000 Open-Source-Projekte auf GitHub, 450 Modelle und mehr als 80 Datensätze auf Hugging Face. Diese ermöglichen die Integration beliebter Frameworks wie JAX, PyTorch, vLLM und TensorRT-LLM in die Inferenzplattform von NVIDIA und gewährleisten maximale Inferenzleistung und Flexibilität in allen Konfigurationen.
Dadurch trägt NVIDIA weiterhin zu Open-Source-Projekten wie llm-d bei und arbeitet zusammen mit Branchenführern an offenen Modellen wie Llama, Google Gemma, NVIDIA Nemotron, DeepSeek und gpt-oss und bringt KI-Anwendungen mit beispielloser Geschwindigkeit von der Idee zur Produktion.
Das Fazit zu optimierter Inferenz
Die NVIDIA-Inferenzplattform in Verbindung mit dem Think SMART-Framework für die Bereitstellung moderner KI-Workloads hilft Unternehmen sicherzustellen, dass ihre Infrastruktur mit den Anforderungen schnell wachsender Modelle Schritt halten kann und dass jeder generierte Token maximalen Wert liefert.
Erfahren Sie mehr darüber, wie Inferenz das Einnahmenpotenzial von KI-Fabriken steigert.
Melden Sie sich für den NVIDIA Think SMART Newsletter an, um monatliche Updates zu erhalten.