Modellauswahl-Strategie
Nicht jede Aufgabe braucht ein $75/Million-Token-Modell. Das richtige Modell fuer die richtige Aufgabe kann die Kosten um 80% senken, ohne Qualitaet einzubuessen.
Die 8-stufige Modell-Hierarchie
Modelle fallen in acht Faehigkeitsstufen -- von Frontier bis kostenlos:
| Stufe | Modelle | Kosten/1M Output | Anwendungsfall |
|---|---|---|---|
| T1 -- Frontier | Claude Opus 4.6, GPT-5 | $60-75 | Komplexes Reasoning, neuartige Probleme |
| T2 -- Reasoning | o3, DeepSeek R1 | $30-40 | Mathematik, Logik, mehrstufige Analyse |
| T3 -- Premium | Claude Sonnet 4, GPT-4o | $10-15 | Allzweck, gute Qualitaet |
| T4 -- Balanced | Gemini 2.5 Pro, Llama 4 | $5-10 | Solide Qualitaet, angemessene Kosten |
| T5 -- Value | Claude Haiku 3.5, GPT-4o mini | $0,60-4 | Einfache Aufgaben, hohes Volumen |
| T6 -- Economy | Gemini Flash, Nova Micro | $0,10-0,40 | Klassifikation, Routing |
| T7 -- Lokal | Ollama (Llama, Phi, Qwen) | $0 (GPU-Kosten) | Privat, offline, Hochvolumen |
| T8 -- Embedded | TinyLlama, Phi-3 mini | $0 (CPU) | Edge, Mobil, IoT |
Zentrale Erkenntnis: 70% der KI-Anfragen in Unternehmen koennen von Tier-5-6-Modellen bearbeitet werden. Nur 5% benoetigen wirklich Tier 1.
Aufgaben den richtigen Stufen zuordnen
Ein praktischer Leitfaden zur Modellauswahl:
Tier 1-2 (Frontier/Reasoning) -- $30-75/1M:
- Einen komplexen Algorithmus aus einer vagen Beschreibung schreiben
- Rechtsvertraege auf Risiken analysieren
- Mehrstufige mathematische Beweise
- Neuartige Forschungsfragen ohne klares Antwortmuster
Tier 3-4 (Premium/Balanced) -- $5-15/1M:
- Code-Review mit Verbesserungsvorschlaegen
- Technische Dokumentation schreiben
- Lange Dokumente zusammenfassen
- Uebersetzen mit Nuancenerhaltung
- Allgemeiner Chat und Frage-Antwort
Tier 5-6 (Value/Economy) -- $0,10-4/1M:
- Strukturierte Daten aus Text extrahieren
- Einfache Klassifikation (Stimmung, Kategorie, Prioritaet)
- Grammatik- und Rechtschreibkorrektur
- Code-Formatierung und Linting
- Vorlagenbasierte Inhaltserstellung
Tier 7-8 (Lokal/Embedded) -- $0/Token:
- Autocomplete-Vorschlaege
- Offline-Umgebungen
- Datenschutzkritische Datenverarbeitung
- Hochfrequente Aufgaben mit geringer Komplexitaet
Kosten-pro-Aufgabe-Analyse
Praxisbeispiele, die den Kostenunterschied zeigen:
Aufgabe: Ein Support-Ticket klassifizieren (positiv/negativ/neutral)
Tier 1 (Opus): ~500 Tokens x $75/1M = $0,0375
Tier 5 (Haiku): ~500 Tokens x $4/1M = $0,002
Tier 6 (Flash): ~500 Tokens x $0,40/1M = $0,0002
-> Tier 6 ist 187x guenstiger bei identischer Genauigkeit fuer diese Aufgabe
Aufgabe: Einen detaillierten Architekturvorschlag schreiben
Tier 1 (Opus): ~3000 Tokens x $75/1M = $0,225 <- lohnt sich
Tier 5 (Haiku): ~3000 Tokens x $4/1M = $0,012 <- Qualitaet sinkt
Tier 6 (Flash): ~3000 Tokens x $0,40/1M = $0,0012 <- unbrauchbar
-> Frontier-Modelle rechtfertigen ihre Kosten bei komplexer kreativer Arbeit
Im grossen Massstab -- 10.000 taegliche Klassifikationsanfragen:
Tier 1: $375/Tag = $11.250/Monat
Tier 6: $2/Tag = $60/Monat
-> Falsche Modellwahl = $11.190/Monat verschwendet
Das Modellauswahl-Flussdiagramm
Ein schnelles Entscheidungsframework:
Ist die Aufgabe einfach und klar definiert?
|-- JA -> Braucht sie hohe Genauigkeit?
| |-- JA -> Tier 5 (Haiku, GPT-4o mini)
| +-- NEIN -> Tier 6 (Flash, Nova Micro)
+-- NEIN -> Braucht sie komplexes Reasoning?
|-- JA -> Braucht sie Kreativitaet?
| |-- JA -> Tier 1 (Opus, GPT-5)
| +-- NEIN -> Tier 2 (o3, DeepSeek R1)
+-- NEIN -> Tier 3-4 (Sonnet, GPT-4o)
Ist Datenschutz kritisch?
|-- JA -> Koennen Sie GPUs betreiben?
| |-- JA -> Tier 7 (Ollama + Llama)
| +-- NEIN -> Tier 4-5 via Bedrock/Azure
+-- NEIN -> Cloud-API nutzen
Qualitaet vs. Kosten-Kurven
Ein entscheidendes Konzept: die Qualitaets-Kosten-Beziehung ist NICHT linear.
Qualitaet
| ,------- Tier 1 ($75)
| ,-'
| ,' Tier 3 ($15)
| ,'
|,' Tier 5 ($4)
|'
+-------------------- Kosten
Die Erkenntnis: Von Tier 5 auf Tier 3 bringt eine spuerbare Qualitaetsverbesserung. Von Tier 3 auf Tier 1 bringt fuer die meisten Aufgaben nur eine marginale Verbesserung -- kostet aber 5x mehr.
Der Sweet Spot fuer die meisten Organisationen: Tier 3-4 als Standard, Tier 1 fuer komplexe Aufgaben, Tier 5-6 fuer einfache Aufgaben. Diese Kombination liefert 95% der Frontier-Qualitaet bei 30% der Kosten.
Automatisierte Modellauswahl
Manuelle Modellauswahl skaliert nicht. Automatisierungsansaetze:
Regelbasiertes Routing:
if (task.type === 'classification') return 'gemini-flash';
if (task.type === 'code-review') return 'claude-sonnet-4';
if (task.type === 'research') return 'claude-opus-4.6';
LLM-basiertes Routing (Auto-Routing): Ein kleines, schnelles Modell (Tier 6) klassifiziert die eingehende Anfrage und waehlt das optimale Modell:
Eingabe: "What's 2+2?"
Router: -> einfache Mathematik -> Tier 6
Eingabe: "Design a distributed consensus algorithm for..."
Router: -> komplexe Architektur -> Tier 1
Model Prism automatisiert dies mit konfigurierbaren Routing-Regeln und LLM-basierter Klassifikation. Sie definieren Kostenbeschraenkungen und Qualitaetsanforderungen; es routet automatisch.
---quiz question: Wie viel Prozent der KI-Anfragen in Unternehmen benoetigen typischerweise Tier-1-Modelle (Frontier)? options:
- { text: "Etwa 50% -- die meisten Aufgaben sind komplex", correct: false }
- { text: "Etwa 5% -- nur wirklich komplexe Aufgaben benoetigen Frontier-Modelle", correct: true }
- { text: "Etwa 90% -- Qualitaet ist bei allem wichtig", correct: false } feedback: Nur etwa 5% der KI-Anfragen in Unternehmen benoetigen wirklich Frontier-Modelle. 70% koennen von Tier-5-6-Modellen (Value/Economy) mit identischen Ergebnissen bearbeitet werden. Der Schluessel ist, jede Aufgabe an die passende Stufe weiterzuleiten.
---quiz question: Wie viel koennen Sie sparen, wenn Sie die richtige Modellstufe fuer Klassifikationsaufgaben verwenden? options:
- { text: "Etwa 10%", correct: false }
- { text: "Etwa 50%", correct: false }
- { text: "Bis zu 99% -- ein Tier-6-Modell kann 187x guenstiger sein als Tier 1 bei identischer Genauigkeit", correct: true } feedback: Fuer einfache, klar definierte Aufgaben wie Klassifikation liefern Economy-Modelle (Tier 6) identische Ergebnisse wie Frontier-Modelle zu einem Bruchteil der Kosten. Die Einsparungen im grossen Massstab sind enorm.
---quiz question: Was ist "Auto-Routing" im KI-Modellmanagement? options:
- { text: "Automatischer Neustart fehlgeschlagener Anfragen", correct: false }
- { text: "Ein kleines schnelles Modell klassifiziert Anfragen und leitet sie an das optimale Modell weiter", correct: true }
- { text: "Alle Anfragen an das guenstigste Modell senden", correct: false } feedback: Auto-Routing verwendet ein kleines, guenstiges Modell, um jede eingehende Anfrage zu analysieren und festzustellen, welche Modellstufe sie effektiv bearbeiten kann -- und balanciert dabei Kosten und Qualitaet automatisch.