Token-Lotto: Wenn KI-Lizenzen ohne Verbrauchs-Deckel ins Quartal einschlagen
500 Millionen Dollar Token-Rechnung in einem Monat. Uber-Budget bis April aufgebraucht. Was Unternehmen aus der Anthropic-Lehre für ihre KI-Lizenz-Strategie ableiten müssen.
500 Millionen Dollar Token-Rechnung in einem Monat. Ein einziges Unternehmen!
Weil niemand das Usage-Limit auf den Mitarbeiter-Lizenzen gesetzt hatte.
Klingt nach Hyperscaler-Problem. Ist es nicht. Jedes Unternehmen, das KI-Lizenzen ohne Verbrauchs-Deckel verteilt, läuft in dasselbe Muster, egal ob 200 oder 20.000 Mitarbeitende.
Warum die Rechnung hochläuft: agentische Workflows rufen sich selbst und weitere Agenten auf, jeder Schritt frisst Input- plus Output-Token. Anthropic-Berater nennen die Hausnummer: rund 1.000-mal mehr Token als bei einer einzelnen LLM-Abfrage.
Kontext aus derselben Woche:
- Uber hat sein 2026er-KI-Budget bis April aufgebraucht.
- Microsoft hat interne Claude-Code-Lizenzen reduziert, nachdem Kosten von 500 bis 2.000 Dollar pro Engineer und Monat aufliefen.
- Bei Amazon haben Mitarbeitende den Verbrauch hochgetrieben, weil interne Ziele am Token-Volumen gemessen wurden („Tokenmaxxing”).
Aus eigener Praxis mit KI-Plattformen weiß ich: pauschale 100-Euro-Subscriptions lösen das nicht. 10 bis 20 Prozent der Nutzer erzeugen rund 80 Prozent des Token-Verbrauchs.
Drei Cluster lassen sich immer trennen:
- Casual User im Chat-Stil: einstelliger Euro-Bereich pro Monat.
- Knowledge Worker mit Retrieval und langen Kontexten: zweistellig bis niedrig dreistellig.
- Power User mit Coding-Assistenten und agentischen Pipelines: ab Tag eins vier- bis fünfstellig.
Pauschal zahlt zu viel für die Breite und sieht die Power-User nicht. Token-basiert ohne Steuerung skaliert nach oben, bis das Quartalsergebnis es bemerkt.
Was in der Praxis helfen kann? Ein internes KI-Gateway davor mit folgenden Fähigkeiten:
- Routing der API-Calls nach Use-Case und Nutzer-Gruppe.
- Rate Limiting und Budget-Deckel pro Team und Anwendung.
- Audit Logs für Prompt, Output und Datenfluss.
- Cost Attribution auf Projekt-Ebene, nicht auf Lizenz-Ebene.
- Sicherheits-Level pro API: welche Daten dürfen welches Modell sehen.
Tools wie LiteLLM oder Portkey decken den Kern. Entscheidend ist die Disziplin: keine API ohne Projekt-Zuweisung, keine Lizenz ohne Verbrauchs-Logik. Damit wird aus Lizenz-Lotto eine Kostenstelle.
Nebeneffekt: dieselbe Schicht beantwortet die Frage aus Artikel 4 EU AI Act, der seit Februar 2025 gilt. Wer im Haus nutzt KI, in welcher Tiefe, mit welcher Schulung? Ohne Gateway eine Schätzung, mit Gateway eine Auswertung.
Ein ehrlicher Selbstcheck: Wer im Haus kennt die Token-Burnrate pro Team und pro Use-Case? Wenn die Antwort „die IT” oder „der Anbieter” lautet, dann ist das die nächste Aufgabe, bevor die nächste Lizenz ausgerollt wird.