Skip to content

Token-Lotto: Wenn KI-Lizenzen ohne Verbrauchs-Deckel ins Quartal einschlagen

500 Millionen Dollar Token-Rechnung in einem Monat. Uber-Budget bis April aufgebraucht. Was Unternehmen aus der Anthropic-Lehre für ihre KI-Lizenz-Strategie ableiten müssen.

30. Mai 2026 4 min LESEN VON TIM KAPPEL

500 Millionen Dollar Token-Rechnung in einem Monat. Ein einziges Unternehmen!

Weil niemand das Usage-Limit auf den Mitarbeiter-Lizenzen gesetzt hatte.

Klingt nach Hyperscaler-Problem. Ist es nicht. Jedes Unternehmen, das KI-Lizenzen ohne Verbrauchs-Deckel verteilt, läuft in dasselbe Muster, egal ob 200 oder 20.000 Mitarbeitende.

Warum die Rechnung hochläuft: agentische Workflows rufen sich selbst und weitere Agenten auf, jeder Schritt frisst Input- plus Output-Token. Anthropic-Berater nennen die Hausnummer: rund 1.000-mal mehr Token als bei einer einzelnen LLM-Abfrage.

Kontext aus derselben Woche:

  • Uber hat sein 2026er-KI-Budget bis April aufgebraucht.
  • Microsoft hat interne Claude-Code-Lizenzen reduziert, nachdem Kosten von 500 bis 2.000 Dollar pro Engineer und Monat aufliefen.
  • Bei Amazon haben Mitarbeitende den Verbrauch hochgetrieben, weil interne Ziele am Token-Volumen gemessen wurden („Tokenmaxxing”).

Aus eigener Praxis mit KI-Plattformen weiß ich: pauschale 100-Euro-Subscriptions lösen das nicht. 10 bis 20 Prozent der Nutzer erzeugen rund 80 Prozent des Token-Verbrauchs.

Drei Cluster lassen sich immer trennen:

  • Casual User im Chat-Stil: einstelliger Euro-Bereich pro Monat.
  • Knowledge Worker mit Retrieval und langen Kontexten: zweistellig bis niedrig dreistellig.
  • Power User mit Coding-Assistenten und agentischen Pipelines: ab Tag eins vier- bis fünfstellig.

Pauschal zahlt zu viel für die Breite und sieht die Power-User nicht. Token-basiert ohne Steuerung skaliert nach oben, bis das Quartalsergebnis es bemerkt.

Was in der Praxis helfen kann? Ein internes KI-Gateway davor mit folgenden Fähigkeiten:

  • Routing der API-Calls nach Use-Case und Nutzer-Gruppe.
  • Rate Limiting und Budget-Deckel pro Team und Anwendung.
  • Audit Logs für Prompt, Output und Datenfluss.
  • Cost Attribution auf Projekt-Ebene, nicht auf Lizenz-Ebene.
  • Sicherheits-Level pro API: welche Daten dürfen welches Modell sehen.

Tools wie LiteLLM oder Portkey decken den Kern. Entscheidend ist die Disziplin: keine API ohne Projekt-Zuweisung, keine Lizenz ohne Verbrauchs-Logik. Damit wird aus Lizenz-Lotto eine Kostenstelle.

Nebeneffekt: dieselbe Schicht beantwortet die Frage aus Artikel 4 EU AI Act, der seit Februar 2025 gilt. Wer im Haus nutzt KI, in welcher Tiefe, mit welcher Schulung? Ohne Gateway eine Schätzung, mit Gateway eine Auswertung.

Ein ehrlicher Selbstcheck: Wer im Haus kennt die Token-Burnrate pro Team und pro Use-Case? Wenn die Antwort „die IT” oder „der Anbieter” lautet, dann ist das die nächste Aufgabe, bevor die nächste Lizenz ausgerollt wird.