Tokens, Kontext & Kosten
Die Waehrung der KI -- wer Tokens versteht, versteht die Kosten.
Was sind Tokens?
Alles, was KI verarbeitet, wird in Tokens zerlegt:
- 1 Token ≈ 3/4 eines Wortes (oder ~4 Zeichen)
- "Hello, how are you?" = 6 Tokens
- Code ist token-dichter als natuerliche Sprache
- Jede Sprache hat eine unterschiedliche Token-Effizienz
Beispiele:
"AI" → 1 Token
"Artificial" → 1 Token
"Intelligence" → 1 Token
"kuenstliche" → 2 Tokens (Deutsch ist weniger effizient)
"人工智能" → 2 Tokens (Chinesisch)
Warum das wichtig ist: Sie bezahlen pro Token. Kuerzere Prompts = guenstiger. Aber zu kurz = schlechtere Ergebnisse.
Kontextfenster
Das "Gedaechtnis" einer Konversation -- wie viel Text das Modell gleichzeitig sehen kann:
| Modell | Kontextfenster | ≈ Seiten |
|---|---|---|
| GPT-3.5 (2023) | 4.000 Tokens | ~6 Seiten |
| GPT-4 (2023) | 128.000 Tokens | ~200 Seiten |
| Claude 3.5 (2024) | 200.000 Tokens | ~300 Seiten |
| Gemini 1.5 (2024) | 1.000.000 Tokens | ~1.500 Seiten |
| Claude Opus 4.6 (2026) | 200.000 Tokens | ~300 Seiten |
Kritisch: Wenn der Kontext voll ist, werden aeltere Nachrichten verworfen oder komprimiert. Die KI "vergisst" buchstaeblich den Anfang Ihrer Konversation.
Kontext-Komprimierung
Was passiert, wenn das Limit erreicht wird?
Strategie 1: Abschneiden
- Aelteste Nachrichten verwerfen, neueste behalten
- Einfach, aber verliert wichtigen Kontext
Strategie 2: Zusammenfassung
- Alte Nachrichten in eine kuerzere Version zusammenfassen
- Behaelt Kernpunkte, aber verlustbehaftet
Strategie 3: RAG (Retrieval Augmented Generation)
- Kontext in einer Vektordatenbank speichern
- Nur relevante Teile bei Bedarf abrufen
- Am ausgefeiltesten, am besten fuer grosse Wissensbasen
Profi-Tipp: Platzieren Sie die wichtigsten Informationen immer am ENDE Ihres Prompts -- Modelle schenken neueren Tokens mehr Aufmerksamkeit.
Die Kostengleichung
Jede KI-Anfrage hat Kosten:
Kosten = (Input-Tokens x Input-Preis) + (Output-Tokens x Output-Preis)
Beispiel -- GPT-5 soll 100 Zeilen Code ueberpruefen:
- Input: ~2.000 Tokens x $10/1M = $0,02
- Output: ~500 Tokens x $40/1M = $0,02
- Gesamt: $0,04 pro Anfrage
Im grossen Massstab:
- 100 Entwickler x 50 Anfragen/Tag = 5.000 Anfragen
- 5.000 x $0,04 = $200/Tag = $6.000/Monat
Deshalb ist Modell-Routing wichtig -- nicht jede Aufgabe braucht GPT-5. Eine einfache Frage kann ein $0,001-Modell verwenden.
Strategien zur Kostenoptimierung
So senken Sie KI-Kosten um 60-80% ohne Qualitaetsverlust:
- Modell-Routing -- guenstige Modelle fuer einfache Aufgaben, teure fuer komplexe
- Prompt-Optimierung -- kuerzere Prompts = weniger Input-Tokens
- Caching -- identische Prompts erhalten gecachte Antworten
- Batch-Verarbeitung -- aehnliche Anfragen buendeln fuer Mengenrabatte
- Self-Hosting -- Open-Source-Modelle fuer Workloads mit hohem Volumen ausfuehren
Model Prism von Ohara Systems automatisiert Strategie Nr. 1 -- es klassifiziert jede Anfrage und leitet sie automatisch an das optimale Modell weiter.
---quiz question: Wie viele Tokens entsprechen ungefaehr einem englischen Wort? options:
- { text: "Genau 1 Token pro Wort", correct: false }
- { text: "Etwa 3/4 eines Wortes pro Token (1 Token ≈ 4 Zeichen)", correct: true }
- { text: "1 Token = 1 Satz", correct: false } feedback: Ein Token entspricht ungefaehr 3/4 eines Wortes oder etwa 4 Zeichen. Das bedeutet, "artificial intelligence" sind 2 Tokens, nicht 1.
---quiz question: Was passiert, wenn eine Konversation das Kontextfenster ueberschreitet? options:
- { text: "Das Modell stuerzt mit einem Fehler ab", correct: false }
- { text: "Aeltere Nachrichten werden verworfen oder komprimiert -- das Modell 'vergisst'", correct: true }
- { text: "Das Modell wechselt automatisch auf ein groesseres Fenster", correct: false } feedback: Wenn das Kontextfenster voll ist, werden aeltere Nachrichten gekuerzt oder zusammengefasst. Das Modell verliert buchstaeblich den Zugang zu frueheren Teilen der Konversation.