Da sich KI-Modelle weiterentwickeln und deren Nutzung zunimmt, müssen Unternehmen einen schwierigen Balanceakt vollziehen, wenn sie maximalen Nutzen erzielen möchten.
Der Grund dafür ist, dass Inferenz – der Prozess der Ausführung von Daten in einem Modell, um eine Ausgabe zu erhalten – eine andere Rechenherausforderung darstellt als das Trainieren eines Modells.
Das Pre-Training eines Modells – der Prozess der Erfassung von Daten, ihrer Aufteilung in Token und der Suche nach Mustern – ist im Wesentlichen eine einmalige Aufgabe. Beim Inferenzieren generiert jedoch jeder Prompt an ein Modell Token, die jeweils Kosten verursachen.
Das bedeutet, dass mit zunehmender Leistung und Nutzung eines KI-Modells auch die Menge der generierten Token und die damit verbundenen Rechenkosten steigen. Für Unternehmen, die KI-Funktionen einrichten möchten, besteht der Schlüssel darin, so viele Token wie möglich zu generieren – mit maximaler Geschwindigkeit, Genauigkeit und Servicequalität, ohne dass Rechenkosten in die Höhe schießen.
Das KI-Ökosystem arbeitet daher daran, Inferenz billiger und effizienter zu gestalten. Inferenzkosten sind im vergangenen Jahr dank großer Fortschritte bei der Modelloptimierung gesunken, was zu einer zunehmend fortschrittlichen und energieeffizienten Infrastruktur für beschleunigtes Rechnen sowie Full-Stack-Lösungen geführt hat.
Laut dem 2025 AI Index Report des Stanford University Institute for Human-Centered AI sind „die Inferenzkosten für ein System, das auf dem Niveau von GPT-3.5 arbeitet, zwischen November 2022 und Oktober 2024 um mehr als das 280-Fache gesunken. Auf der Hardwareebene haben sich die Kosten um 30 % pro Jahr verringert, während sich die Energieeffizienz jährlich um 40 % erhöht hat. Außerdem schließen Open-Weight-Modelle die Lücke zu geschlossenen Modellen und haben den Leistungsunterschied bei einigen Benchmarks in einem Jahr von 8 % auf nur noch 1,7 % reduziert. Zusammengenommen bauen diese Trends die Hindernisse auf dem Weg zu fortschrittlicher KI rasant ab.“
Während sich Modelle weiterentwickeln, zusätzliche Nachfrage generieren und mehr Token erstellen, müssen Unternehmen ihre beschleunigten Computing-Ressourcen skalieren, um die nächste Generation von KI-Argumentationstools unterstützen zu können. Ansonsten riskieren sie steigende Kosten und einen höheren Energieverbrauch.
Die folgenden Informationen liefern eine Grundlage, um die Konzepte der Wirtschaftlichkeit von Inferenz zu verstehen. Mit ihrer Hilfe können sich Unternehmen so positionieren, dass sich effiziente, kostengünstige und rentable KI-Lösungen in großem Maßstab entwickeln lassen.
Wichtige Begriffe bezüglich der Wirtschaftlichkeit von KI-Inferenz
Die wichtigsten Begriffe bezüglich der Wirtschaftlichkeit von Inferenz zu kennen hilft dabei, die Grundlagen für ein besseres Verständnis ihrer Bedeutung zu schaffen.
Token stellen die grundlegenden Dateneinheiten in einem KI-Modell dar. Sie werden während des Trainings aus Daten in Form von Text, Bildern, Audioclips und Videos abgeleitet. Durch einen Prozess namens Tokenisierung wird jede Dateneinheit in kleinere Einheiten aufgeteilt. Während des Trainings erlernt das Modell die Beziehungen zwischen Token, sodass es Inferenzaufgaben ausführen und eine genaue, relevante Ausgabe generieren kann.
Durchsatz bezieht sich auf die Datenmenge (in der Regel in Token gemessen), die das Modell in einer bestimmten Zeit ausgeben kann. Das wiederum hängt von der Infrastruktur ab, in der das Modell ausgeführt wird. Der Durchsatz wird häufig in Token pro Sekunde gemessen, wobei ein höherer Durchsatz eine höhere Rentabilität der Infrastruktur bedeutet.
Latenz ist ein Maß für die Zeit zwischen der Eingabe eines Prompts und dem Start der Reaktion des Modells. Eine niedrigere Latenz bedeutet schnellere Reaktionen. Die beiden Hauptmethoden zur Messung der Latenz sind:
- Zeit bis zum ersten Token: Eine Messung der anfänglichen Verarbeitungszeit, die das Modell benötigt, um nach einem Prompt sein erstes Ausgabetoken zu generieren.
- Zeit pro Ausgabetoken: Die durchschnittliche Zeit zwischen aufeinanderfolgenden Token bzw. die Zeit, die für die Generierung eines Completion Token für jeden Benutzer, der das Modell gleichzeitig abfragt, erforderlich ist. Sie ist auch als „Inter-Token-Latenz“ oder „Token-zu-Token-Latenz“ bekannt.
Die Zeit bis zum ersten Token und die Zeit pro Ausgabetoken sind hilfreiche Benchmarks, stellen aber nur zwei Aspekte einer umfassenderen Gleichung dar. Eine alleinige Konzentration auf diese Aspekte kann dennoch zu schlechterer Leistung oder höheren Kosten führen.
Um anderen Abhängigkeiten Rechnung zu tragen, beginnen IT-Führungskräfte mit der Messung des „goodput“. Dieser Wert ist definiert als der von einem System erzielte Durchsatz unter gleichzeitiger Wahrung der Zielzeit bis zum ersten Token und der Zeit pro Ausgabetoken. Mithilfe dieser Metrik können Unternehmen Leistung auf ganzheitliche Weise bewerten und sicherstellen, dass Durchsatz, Latenz und Kosten aufeinander abgestimmt sind, um sowohl die betriebliche Effizienz zu fördern als auch für ein außergewöhnliches Benutzererlebnis zu sorgen.
Energieeffizienz ist das Maß dafür, wie effektiv ein KI-System Energie in Rechenleistung umwandelt – ausgedrückt als Verarbeitungsleistung pro Watt. Durch den Einsatz von beschleunigten Computing-Plattformen können Unternehmen die Token pro Watt maximieren und gleichzeitig den Energieverbrauch minimieren.
Wie sich die Skalierungsgesetze auf Inferenzkosten anwenden lassen
Darüber hinaus sind die drei Gesetze der KI-Skalierung von zentraler Bedeutung, wenn es darum geht, die Wirtschaftlichkeit von Inferenz zu verstehen:
- Pre-Training-Skalierung: Das ursprüngliche Skalierungsgesetz, das gezeigt hat, dass Modelle durch Erhöhung der Größe der Trainingsdatenmenge, der Anzahl der Modellparameter und der Rechenressourcen vorhersehbare Verbesserungen bei Intelligenz und Genauigkeit erzielen können.
- Post-Training: Ein Prozess, bei dem Modelle auf Genauigkeit und Spezifität abgestimmt werden, sodass sie bei der Anwendungsentwicklung eingesetzt werden können. Techniken wie Retrieval-Augmented Generation (RAG) können dazu dienen, relevantere Antworten aus einer Unternehmensdatenbank zu erhalten.
- Skalierung in der Testzeit (auch bekannt als „Long Thinking“ oder „Reasoning“): Eine Technik, mit der Modelle beim Inferenzieren zusätzliche Rechenressourcen zuweisen, um verschiedene mögliche Ergebnisse zu bewerten, bevor sie die beste Antwort ermitteln.
Während sich KI weiterentwickelt und Techniken für Post-Training und Skalierung in der Testzeit immer ausgefeilter werden, bleibt das Pre-Training weiter erforderlich und eine wichtige Möglichkeit zur Skalierung von Modellen. Noch immer werden Pre-Trainings benötigt, um das Post-Training und die Skalierung in der Testzeit zu unterstützen.
Rentable KI erfordert einen Full-Stack-Ansatz
Im Vergleich zur Inferenz eines Modells, das nur Pre-Training und Post-Training durchlaufen hat, generieren Modelle, die Skalierung in der Testzeit nutzen, verschiedene Token, um ein komplexes Problem zu lösen. Das führt zu genaueren und relevanteren Modellergebnissen, ist aber auch deutlich rechenintensiver.
Intelligentere KI bedeutet, dass zur Lösung eines Problems mehr Token generiert werden. Und die Schaffung eines hochwertigen Benutzererlebnisses bedeutet, dass diese Token so schnell wie möglich generiert werden. Je intelligenter und schneller ein KI-Modell ist, desto nützlicher ist es für Unternehmen und Kunden.
Unternehmen müssen ihre beschleunigten Computing-Ressourcen skalieren, um die nächste Generation von KI-Reasoning-Tools bereitzustellen, die komplexe Problemlösung, Codierung und mehrstufige Planung unterstützen können, ohne die Kosten in die Höhe zu treiben.
Dies erfordert sowohl fortschrittliche Hardware als auch einen vollständig optimierten Software-Stack. Die Produkt-Roadmap für KI-Fabriken von NVIDIA wurde entwickelt, um den Rechenbedarf zu decken und Komplexität beim Inferenzieren zu reduzieren, während gleichzeitig eine höhere Effizienz erreicht wird.
KI-Fabriken integrieren leistungsstarke KI-Infrastruktur, schnelle Netzwerke und optimierte Software, um intelligente Informationen in großem Maßstab zu erzeugen. Die entsprechenden Komponenten sind flexibel und programmierbar, sodass Unternehmen die für ihre Modelle oder Inferenzanforderungen entscheidenden Bereiche priorisieren können.
Um Betriebsabläufe bei der Bereitstellung umfangreicher KI-Reasoning-Modelle weiter zu optimieren, laufen KI-Fabriken in einem leistungsstarken Inferenz-Managementsystem mit geringer Latenz, das sicherstellt, dass die Geschwindigkeit und der Durchsatz für das KI-Reasoning möglichst kostengünstig erfüllt werden, um die Einnahmen aus der Token-Generierung zu maximieren.
Erfahren Sie mehr, indem Sie das E-Book „KI-Inferenz: Das Zusammenspiel von Kosten, Inferenz und Leistung“ lesen.