Tokens, Kontext & Kosten

Die Waehrung der KI -- wer Tokens versteht, versteht die Kosten.

Was sind Tokens?

Alles, was KI verarbeitet, wird in Tokens zerlegt:

1 Token ≈ 3/4 eines Wortes (oder ~4 Zeichen)
"Hello, how are you?" = 6 Tokens
Code ist token-dichter als natuerliche Sprache
Jede Sprache hat eine unterschiedliche Token-Effizienz

Beispiele:

"AI"           → 1 Token
"Artificial"   → 1 Token
"Intelligence" → 1 Token
"kuenstliche"  → 2 Tokens (Deutsch ist weniger effizient)
"人工智能"      → 2 Tokens (Chinesisch)

Warum das wichtig ist: Sie bezahlen pro Token. Kuerzere Prompts = guenstiger. Aber zu kurz = schlechtere Ergebnisse.

Kontextfenster

Das "Gedaechtnis" einer Konversation -- wie viel Text das Modell gleichzeitig sehen kann:

Modell	Kontextfenster	≈ Seiten
GPT-3.5 (2023)	4.000 Tokens	~6 Seiten
GPT-4 (2023)	128.000 Tokens	~200 Seiten
Claude 3.5 (2024)	200.000 Tokens	~300 Seiten
Gemini 1.5 (2024)	1.000.000 Tokens	~1.500 Seiten
Claude Opus 4.6 (2026)	200.000 Tokens	~300 Seiten

Kritisch: Wenn der Kontext voll ist, werden aeltere Nachrichten verworfen oder komprimiert. Die KI "vergisst" buchstaeblich den Anfang Ihrer Konversation.

Kontext-Komprimierung

Was passiert, wenn das Limit erreicht wird?

Strategie 1: Abschneiden

Aelteste Nachrichten verwerfen, neueste behalten
Einfach, aber verliert wichtigen Kontext

Strategie 2: Zusammenfassung

Alte Nachrichten in eine kuerzere Version zusammenfassen
Behaelt Kernpunkte, aber verlustbehaftet

Strategie 3: RAG (Retrieval Augmented Generation)

Kontext in einer Vektordatenbank speichern
Nur relevante Teile bei Bedarf abrufen
Am ausgefeiltesten, am besten fuer grosse Wissensbasen

Profi-Tipp: Platzieren Sie die wichtigsten Informationen immer am ENDE Ihres Prompts -- Modelle schenken neueren Tokens mehr Aufmerksamkeit.

Die Kostengleichung

Jede KI-Anfrage hat Kosten:

Kosten = (Input-Tokens x Input-Preis) + (Output-Tokens x Output-Preis)

Beispiel -- GPT-5 soll 100 Zeilen Code ueberpruefen:

Input: ~2.000 Tokens x $10/1M = $0,02
Output: ~500 Tokens x $40/1M = $0,02
Gesamt: $0,04 pro Anfrage

Im grossen Massstab:

100 Entwickler x 50 Anfragen/Tag = 5.000 Anfragen
5.000 x $0,04 = $200/Tag = $6.000/Monat

Deshalb ist Modell-Routing wichtig -- nicht jede Aufgabe braucht GPT-5. Eine einfache Frage kann ein $0,001-Modell verwenden.

Strategien zur Kostenoptimierung

So senken Sie KI-Kosten um 60-80% ohne Qualitaetsverlust:

Modell-Routing -- guenstige Modelle fuer einfache Aufgaben, teure fuer komplexe
Prompt-Optimierung -- kuerzere Prompts = weniger Input-Tokens
Caching -- identische Prompts erhalten gecachte Antworten
Batch-Verarbeitung -- aehnliche Anfragen buendeln fuer Mengenrabatte
Self-Hosting -- Open-Source-Modelle fuer Workloads mit hohem Volumen ausfuehren

Model Prism von Ohara Systems automatisiert Strategie Nr. 1 -- es klassifiziert jede Anfrage und leitet sie automatisch an das optimale Modell weiter.

---quiz question: Wie viele Tokens entsprechen ungefaehr einem englischen Wort? options:

{ text: "Genau 1 Token pro Wort", correct: false }
{ text: "Etwa 3/4 eines Wortes pro Token (1 Token ≈ 4 Zeichen)", correct: true }
{ text: "1 Token = 1 Satz", correct: false } feedback: Ein Token entspricht ungefaehr 3/4 eines Wortes oder etwa 4 Zeichen. Das bedeutet, "artificial intelligence" sind 2 Tokens, nicht 1.

---quiz question: Was passiert, wenn eine Konversation das Kontextfenster ueberschreitet? options:

{ text: "Das Modell stuerzt mit einem Fehler ab", correct: false }
{ text: "Aeltere Nachrichten werden verworfen oder komprimiert -- das Modell 'vergisst'", correct: true }
{ text: "Das Modell wechselt automatisch auf ein groesseres Fenster", correct: false } feedback: Wenn das Kontextfenster voll ist, werden aeltere Nachrichten gekuerzt oder zusammengefasst. Das Modell verliert buchstaeblich den Zugang zu frueheren Teilen der Konversation.