Wenn die KI-Rechnung nicht mehr aufgeht: Token-Kosten, Vendor-Lock-in und was jetzt zu tun ist

Viele Unternehmen haben KI eingeführt, weil es schnell ging und günstig klang. Jetzt trudeln Abrechnungen ein, die niemand so erwartet hat. Token-Kosten haben sich in manchen Setups bis zu verzwanzigfacht, und vier US-Konzerne sitzen am Hebel. Wer jetzt nicht rechnet, rechnet falsch.

von Justus Kornath·7. Juni 2026, aktualisiert am 5. Juli 2026 · Lesezeit: ca. 7 Minuten

Quittungen und Dokumente auf einem Schreibtisch, stellvertretend für steigende Unternehmenskosten

Cloud-KI-Kosten treffen Unternehmen oft unvorbereitet, wenn die Nutzung skaliert. Foto: www.kaboompics.com auf Pexels

Das Problem in vier Sätzen: Token-Preise bei Cloud-KI-Diensten sind kein Fixkostenpunkt mehr, sondern skalieren mit jeder Anfrage, jedem Dokument, jeder Automatisierung. Wer den Piloten ohne Kostenkontrolle auf die Breite ausrollt, erlebt böse Überraschungen auf der Monatsrechnung. Vier US-Konzerne kontrollieren den Markt, was Verhandlungsmacht und Planbarkeit einschränkt. Lokale KI-Infrastruktur ist teuer im Einstieg, aber sie gibt die Kontrolle zurück.

Warum die KI-Rechnung für viele nicht mehr aufgeht

Es gibt diesen Moment in Unternehmen, in dem die Begeisterung über KI-Produktivität kippt: Die erste richtige Abrechnung kommt. Nicht die Piloten-Rechnung, sondern die nach dem Rollout. Nach dem Rollout, wenn fünfzehn Kolleginnen das Analyse-Tool täglich nutzen, wenn die automatische Dokumentenverarbeitung läuft, wenn der Chatbot Kundenanfragen bearbeitet.

Dr. Alexander Nichau von der niologic GmbH beschreibt das Muster präzise: Token-Kosten haben sich in manchen Unternehmensszenarien bereits verzehn- oder verzwanzigfacht, verglichen mit frühen Pilotphasen. Der Grund liegt nicht in der Gier der Anbieter, sondern in der Natur von Sprachmodellen. Je komplexer die Anfrage, je länger der Kontext, je hochwertiger das Modell, desto mehr Tokens werden verbraucht. Und Tokens kosten Geld, jedes Mal.

Das klingt abstrakt. Konkret bedeutet es: Wer ein leistungsstarkes Modell für die Vertragsanalyse nutzt, zahlt pro Dokument deutlich mehr als beim textgenerator. Wer Agents einsetzt, die mehrere Schritte autonom durchlaufen, multipliziert die Kosten mit jedem Schritt. Wer keine Token-Limits gesetzt hat, wundert sich am Monatsende.

Dazu kommt die Marktstruktur. Vier US-Techunternehmen dominieren den Markt für leistungsstarke KI-Modelle. Das sind im Wesentlichen OpenAI, Anthropic, Google und Microsoft. Die Preise bestimmen sie. Die Roadmaps bestimmen sie. Die Datenschutzpraktiken auch, zumindest teilweise. Wer darauf angewiesen ist, hat wenig Verhandlungsmasse.

Das ist kein Grund zur Panik. Aber es ist ein Grund zur Klarheit.

”Token-Kosten haben sich stellenweise schon verzehn- oder verzwanzigfacht.”
Dr. Alexander Nichau, niologic GmbH, Finanznachrichten.de, 3. Juni 2026

Was das konkret bedeutet: Wenn ein Unternehmen im Piloten zehn Mitarbeitende mit einem KI-Tool testet und dann auf hundert skaliert, steigen die Kosten nicht linear. Sie steigen mit der Nutzungsintensität, der Modellwahl und der Komplexität der Aufgaben. Ohne Monitoring und Budgetgrenzen wird aus einem geplanten Effizienzgewinn schnell ein ungeplanter Kostenfaktor.

Cloud, lokal oder beides: Der ehrliche Vergleich

Die offensichtliche Gegenfrage lautet: Könnte man die KI-Infrastruktur nicht selbst betreiben? Technisch ja. Aber es ist kein Selbstläufer.

Lokale KI-Server kosten in der Anschaffung 40.000 bis 50.000 Euro oder mehr, je nach Rechenleistung und Modellgröße. Die Lieferketten für die notwendige Hardware, insbesondere Nvidia-Grafikchips, brauchen drei bis sechs Monate. Das ist kein Ersatz für ein schnelles Pilot-Projekt, sondern eine strategische Investition mit mittlerem Horizont.

Was lokale Infrastruktur bietet, ist Kontrolle. Über Datenschutz, über Kosten, über Verfügbarkeit. Wer sensible Kundendaten oder Geschäftsgeheimnisse verarbeitet, hat mit lokalen Modellen ein strukturell anderes Risikoprofil als mit Cloud-Diensten, die Daten über US-Server routen. Für viele Mittelständler ist das ein ernstes Argument.

Der Mittelweg, den viele Berater empfehlen, ist eine hybride Architektur: Standard-Aufgaben (Textentwürfe, Recherchen, interne FAQs) über Cloud-Modelle abwickeln, weil sie günstig und flexibel sind. Kritische, volumenschwere oder datenschutzsensible Prozesse lokal betreiben. Das erfordert technisches Know-how oder einen verlässlichen IT-Partner.

Was nicht funktioniert: Blindflug. KI ohne Monitoring, ohne Token-Budgets, ohne klare Use-Case-Definition. Das ist, als würde man Firmenwagen ohne Tankbudget freigeben und sich dann über die Benzinrechnung wundern.

Wer tiefer in die Abhängigkeit von wenigen Anbietern einsteigen möchte, findet bei uns eine ehrliche Analyse dazu: 89 Prozent in zwei Händen, und dein KI-Stack hängt an beiden.

Drei Fragen, die jetzt auf den Tisch gehören

Es geht nicht darum, KI abzuschaffen oder in Abwartehaltung zu verfallen. Es geht darum, das Thema wie jede andere Kostenposition zu behandeln: mit Klarheit.

Wie viel geben wir gerade aus, und wofür? Viele Unternehmen wissen es nicht genau. API-Kosten verteilen sich auf Teams, auf Abteilungen, auf Projekte. Ein zentrales Tracking, auch ein einfaches Tabellenblatt mit monatlichen API-Abrechnungen, schafft die Grundlage für jede weitere Entscheidung.

Welche Use Cases laufen auf teuren Modellen, obwohl günstigere reichen? Nicht jede Aufgabe braucht das leistungsstarke Modell. Einfache Textzusammenfassungen, Kategorisierungen, strukturierte Datenextraktion: Das leisten kleinere Modelle oft genauso gut, für einen Bruchteil des Preises. Die Kosten der KI-Agenten, die heute im Mittelstand eingesetzt werden, hängen stark davon ab, welches Modell im Hintergrund rechnet.

Was würde passieren, wenn ein Anbieter die Preise verdoppelt? Diese Frage klingt hypothetisch, ist es aber nicht. Die Marktmacht der wenigen Anbieter ist real. Wer keine Alternative hat und keine Wechselmöglichkeit aufgebaut hat, hat auch keine Verhandlungsposition. Das sollte in jede KI-Strategie einfließen.

Dass der Preiswettbewerb unter den Modellanbietern zuletzt spürbar wurde, ist kein Widerspruch dazu, wie DeepSeek den KI-Preiskrieg 2026 beeinflusst hat. Im Gegenteil: Es zeigt, dass Preise sich schnell und unvorhergesehen verändern können, in beide Richtungen.

Für Unternehmen, die verstehen wollen, wie sich die großen Modellbauer strategisch positionieren, lohnt ein Blick auf Microsoft Build 2026 und die Konsequenzen für M365-Nutzer.

Was Unternehmer jetzt tun können

Drei konkrete Schritte, die keine sechs Monate Planung brauchen:

Erstens: Token-Monitoring einschalten. Alle großen API-Anbieter bieten Nutzungs-Dashboards. Wer das noch nicht täglich oder wöchentlich prüft, fängt damit an. Budgetlimits setzen, bei denen eine Benachrichtigung kommt.

Zweitens: Modellwahl überprüfen. Welche internen Tools laufen auf welchem Modell? Gibt es Use Cases, die auf ein kleineres Modell wechseln können, ohne Qualitätsverlust? Der Preisunterschied ist real: Ein kleines Modell wie Claude Haiku 4.5 kostet mit 1 US-Dollar Input und 5 US-Dollar Output je Million Token einen Bruchteil eines Spitzenmodells wie Opus 4.8 mit 5 und 25 US-Dollar, für viele Routineaufgaben reicht das kleinere Modell völlig aus. Wer wissen will, welches Modell zu welcher Aufgabe passt, findet eine Einordnung in unserem Claude-Guide für Unternehmen. Das ist eine technische Frage, aber sie hat direkte Kostenwirkung.

Drittens: Lokale Option ernstnehmen. Nicht als sofortigen Schritt, sondern als strategische Planung. Wer in zwölf Monaten signifikante KI-Workloads hat, sollte jetzt anfangen zu prüfen, ob ein lokales Setup wirtschaftlich Sinn ergibt, also Lieferzeiten einplanen, Kosten vergleichen, Know-how aufbauen.

Das ist kein Plädoyer für Rückzug aus der Cloud. Cloud-KI ist oft die richtige Wahl, schnell, skalierbar, und viele Anbieter werden die Preise weiter senken. Aber sie ist keine kostenfreie Option, und sie ist keine neutrale Option. Wer das verstanden hat, kann klüger damit umgehen.

Das Wichtigste in zwei Sätzen: Token-Kosten bei Cloud-KI skalieren mit der Nutzung und können bei unkontrolliertem Rollout schnell das Budget sprengen. Monitoring, Modellwahl und eine realistische Abwägung lokaler Infrastruktur sind keine Technikfragen, sondern Führungsentscheidungen.

Häufige Fragen

Was sind Token-Kosten bei KI-Diensten genau?

Sprachmodelle wie GPT oder Claude verarbeiten Text nicht Wort für Wort, sondern in sogenannten Tokens, Texteinheiten von etwa vier Zeichen. Jede API-Anfrage wird nach der Anzahl der Input- und Output-Tokens abgerechnet. Je länger der Kontext, je aufwendiger die Aufgabe und je leistungsstärker das Modell, desto mehr Tokens werden verbraucht, und desto höher die Rechnung.

Ab wann lohnt sich lokale KI-Infrastruktur für ein mittelständisches Unternehmen?

Als grobe Faustregel gilt: Wenn monatliche API-Kosten dauerhaft über 2.000 bis 3.000 Euro liegen, wenn datenschutzkritische Prozesse automatisiert werden sollen oder wenn hohe Volumina standardisierter Aufgaben anfallen, wird ein lokales Setup wirtschaftlich interessant. Die Einstiegskosten von 40.000 bis 50.000 Euro amortisieren sich dann über zwei bis drei Jahre. Die Berechnung hängt aber stark vom konkreten Use Case ab und sollte mit einem Fachberater durchgeführt werden.

Welche Maßnahmen schützen vor unkontrollierten KI-Kosten?

Die wirksamsten Maßnahmen sind: monatliche Budgetlimits in der API-Konfiguration setzen, Nutzungs-Dashboards aktiv überwachen, Use Cases auf das jeweils günstigste ausreichende Modell optimieren und intern klare Zuständigkeiten für KI-Kosten definieren. Viele Unternehmen haben noch niemanden, der für diese Ausgaben explizit verantwortlich ist. Das zu ändern kostet nichts und spart mitunter viel.

Quellen & Referenzen

Dr. Alexander Nichau (niologic GmbH): Analyse zu explodierenden Token-Kosten und KI-Marktkonzentration in Unternehmen, inkl. Kostensteigerungsfaktoren und lokaler Infrastrukturalternativen. finanznachrichten.de
ifo Institut: Konjunkturumfrage Mai 2026, KI-Nutzung in deutschen Unternehmen (54,5 Prozent), Branchengefälle IT vs. Bau/Handwerk. ifo.de
marktundmittelstand.de: Auswertung ifo-Daten zu strategischen Lücken bei KI-Adoption im Mittelstand 2026. marktundmittelstand.de

Justus Kornath

Marketing-Experte · Collective Brain GmbH

Justus Kornath ist Marketing-Experte bei Collective Brain. Unter seinem Label „justus marketing“ begleitet er seit über zwölf Jahren Solo-Selbstständige und Mittelständler im B2B-Marketing, von Strategie und SEO über Paid Advertising bis zu Video- und Funnel-Aufbau. Sein Motto: nicht Berater, sondern Macher. Aus Kiel.

LinkedIn Beratung anfragen