Token-Lotto: Wenn KI-Lizenzen ohne Verbrauchs-Deckel ins Quartal einschlagen

500 Millionen Dollar Token-Rechnung in einem Monat. Ein einziges Unternehmen!

Weil niemand das Usage-Limit auf den Mitarbeiter-Lizenzen gesetzt hatte.

Klingt nach Hyperscaler-Problem. Ist es nicht. Jedes Unternehmen, das KI-Lizenzen ohne Verbrauchs-Deckel verteilt, läuft in dasselbe Muster, egal ob 200 oder 20.000 Mitarbeitende.

Warum die Rechnung hochläuft: agentische Workflows rufen sich selbst und weitere Agenten auf, jeder Schritt frisst Input- plus Output-Token. Anthropic-Berater nennen die Hausnummer: rund 1.000-mal mehr Token als bei einer einzelnen LLM-Abfrage.

Kontext aus derselben Woche:

Uber hat sein 2026er-KI-Budget bis April aufgebraucht.
Microsoft hat interne Claude-Code-Lizenzen reduziert, nachdem Kosten von 500 bis 2.000 Dollar pro Engineer und Monat aufliefen.
Bei Amazon haben Mitarbeitende den Verbrauch hochgetrieben, weil interne Ziele am Token-Volumen gemessen wurden („Tokenmaxxing”).

Aus eigener Praxis mit KI-Plattformen weiß ich: pauschale 100-Euro-Subscriptions lösen das nicht. 10 bis 20 Prozent der Nutzer erzeugen rund 80 Prozent des Token-Verbrauchs.

Drei Cluster lassen sich immer trennen:

Casual User im Chat-Stil: einstelliger Euro-Bereich pro Monat.
Knowledge Worker mit Retrieval und langen Kontexten: zweistellig bis niedrig dreistellig.
Power User mit Coding-Assistenten und agentischen Pipelines: ab Tag eins vier- bis fünfstellig.

Pauschal zahlt zu viel für die Breite und sieht die Power-User nicht. Token-basiert ohne Steuerung skaliert nach oben, bis das Quartalsergebnis es bemerkt.

Was in der Praxis helfen kann? Ein internes KI-Gateway davor mit folgenden Fähigkeiten:

Routing der API-Calls nach Use-Case und Nutzer-Gruppe.
Rate Limiting und Budget-Deckel pro Team und Anwendung.
Audit Logs für Prompt, Output und Datenfluss.
Cost Attribution auf Projekt-Ebene, nicht auf Lizenz-Ebene.
Sicherheits-Level pro API: welche Daten dürfen welches Modell sehen.

Tools wie LiteLLM oder Portkey decken den Kern. Entscheidend ist die Disziplin: keine API ohne Projekt-Zuweisung, keine Lizenz ohne Verbrauchs-Logik. Damit wird aus Lizenz-Lotto eine Kostenstelle.

Nebeneffekt: dieselbe Schicht beantwortet die Frage aus Artikel 4 EU AI Act, der seit Februar 2025 gilt. Wer im Haus nutzt KI, in welcher Tiefe, mit welcher Schulung? Ohne Gateway eine Schätzung, mit Gateway eine Auswertung.

Ein ehrlicher Selbstcheck: Wer im Haus kennt die Token-Burnrate pro Team und pro Use-Case? Wenn die Antwort „die IT” oder „der Anbieter” lautet, dann ist das die nächste Aufgabe, bevor die nächste Lizenz ausgerollt wird.