Modellauswahl-Strategie

Nicht jede Aufgabe braucht ein $75/Million-Token-Modell. Das richtige Modell fuer die richtige Aufgabe kann die Kosten um 80% senken, ohne Qualitaet einzubuessen.

Die 8-stufige Modell-Hierarchie

Modelle fallen in acht Faehigkeitsstufen -- von Frontier bis kostenlos:

Stufe	Modelle	Kosten/1M Output	Anwendungsfall
T1 -- Frontier	Claude Opus 4.6, GPT-5	$60-75	Komplexes Reasoning, neuartige Probleme
T2 -- Reasoning	o3, DeepSeek R1	$30-40	Mathematik, Logik, mehrstufige Analyse
T3 -- Premium	Claude Sonnet 4, GPT-4o	$10-15	Allzweck, gute Qualitaet
T4 -- Balanced	Gemini 2.5 Pro, Llama 4	$5-10	Solide Qualitaet, angemessene Kosten
T5 -- Value	Claude Haiku 3.5, GPT-4o mini	$0,60-4	Einfache Aufgaben, hohes Volumen
T6 -- Economy	Gemini Flash, Nova Micro	$0,10-0,40	Klassifikation, Routing
T7 -- Lokal	Ollama (Llama, Phi, Qwen)	$0 (GPU-Kosten)	Privat, offline, Hochvolumen
T8 -- Embedded	TinyLlama, Phi-3 mini	$0 (CPU)	Edge, Mobil, IoT

Zentrale Erkenntnis: 70% der KI-Anfragen in Unternehmen koennen von Tier-5-6-Modellen bearbeitet werden. Nur 5% benoetigen wirklich Tier 1.

Aufgaben den richtigen Stufen zuordnen

Ein praktischer Leitfaden zur Modellauswahl:

Tier 1-2 (Frontier/Reasoning) -- $30-75/1M:

Einen komplexen Algorithmus aus einer vagen Beschreibung schreiben
Rechtsvertraege auf Risiken analysieren
Mehrstufige mathematische Beweise
Neuartige Forschungsfragen ohne klares Antwortmuster

Tier 3-4 (Premium/Balanced) -- $5-15/1M:

Code-Review mit Verbesserungsvorschlaegen
Technische Dokumentation schreiben
Lange Dokumente zusammenfassen
Uebersetzen mit Nuancenerhaltung
Allgemeiner Chat und Frage-Antwort

Tier 5-6 (Value/Economy) -- $0,10-4/1M:

Strukturierte Daten aus Text extrahieren
Einfache Klassifikation (Stimmung, Kategorie, Prioritaet)
Grammatik- und Rechtschreibkorrektur
Code-Formatierung und Linting
Vorlagenbasierte Inhaltserstellung

Tier 7-8 (Lokal/Embedded) -- $0/Token:

Autocomplete-Vorschlaege
Offline-Umgebungen
Datenschutzkritische Datenverarbeitung
Hochfrequente Aufgaben mit geringer Komplexitaet

Kosten-pro-Aufgabe-Analyse

Praxisbeispiele, die den Kostenunterschied zeigen:

Aufgabe: Ein Support-Ticket klassifizieren (positiv/negativ/neutral)

Tier 1 (Opus):  ~500 Tokens x $75/1M  = $0,0375
Tier 5 (Haiku): ~500 Tokens x $4/1M   = $0,002
Tier 6 (Flash): ~500 Tokens x $0,40/1M = $0,0002

-> Tier 6 ist 187x guenstiger bei identischer Genauigkeit fuer diese Aufgabe

Aufgabe: Einen detaillierten Architekturvorschlag schreiben

Tier 1 (Opus):   ~3000 Tokens x $75/1M  = $0,225  <- lohnt sich
Tier 5 (Haiku):  ~3000 Tokens x $4/1M   = $0,012  <- Qualitaet sinkt
Tier 6 (Flash):  ~3000 Tokens x $0,40/1M = $0,0012 <- unbrauchbar

-> Frontier-Modelle rechtfertigen ihre Kosten bei komplexer kreativer Arbeit

Im grossen Massstab -- 10.000 taegliche Klassifikationsanfragen:

Tier 1: $375/Tag = $11.250/Monat
Tier 6: $2/Tag   = $60/Monat

-> Falsche Modellwahl = $11.190/Monat verschwendet

Das Modellauswahl-Flussdiagramm

Ein schnelles Entscheidungsframework:

Ist die Aufgabe einfach und klar definiert?
|-- JA -> Braucht sie hohe Genauigkeit?
|        |-- JA -> Tier 5 (Haiku, GPT-4o mini)
|        +-- NEIN -> Tier 6 (Flash, Nova Micro)
+-- NEIN -> Braucht sie komplexes Reasoning?
         |-- JA -> Braucht sie Kreativitaet?
         |        |-- JA -> Tier 1 (Opus, GPT-5)
         |        +-- NEIN -> Tier 2 (o3, DeepSeek R1)
         +-- NEIN -> Tier 3-4 (Sonnet, GPT-4o)

Ist Datenschutz kritisch?
|-- JA -> Koennen Sie GPUs betreiben?
|        |-- JA -> Tier 7 (Ollama + Llama)
|        +-- NEIN -> Tier 4-5 via Bedrock/Azure
+-- NEIN -> Cloud-API nutzen

Qualitaet vs. Kosten-Kurven

Ein entscheidendes Konzept: die Qualitaets-Kosten-Beziehung ist NICHT linear.

Qualitaet
  |     ,------- Tier 1 ($75)
  |   ,-'
  |  ,'          Tier 3 ($15)
  | ,'
  |,'            Tier 5 ($4)
  |'
  +-------------------- Kosten

Die Erkenntnis: Von Tier 5 auf Tier 3 bringt eine spuerbare Qualitaetsverbesserung. Von Tier 3 auf Tier 1 bringt fuer die meisten Aufgaben nur eine marginale Verbesserung -- kostet aber 5x mehr.

Der Sweet Spot fuer die meisten Organisationen: Tier 3-4 als Standard, Tier 1 fuer komplexe Aufgaben, Tier 5-6 fuer einfache Aufgaben. Diese Kombination liefert 95% der Frontier-Qualitaet bei 30% der Kosten.

Automatisierte Modellauswahl

Manuelle Modellauswahl skaliert nicht. Automatisierungsansaetze:

Regelbasiertes Routing:

if (task.type === 'classification') return 'gemini-flash';
if (task.type === 'code-review')   return 'claude-sonnet-4';
if (task.type === 'research')      return 'claude-opus-4.6';

LLM-basiertes Routing (Auto-Routing): Ein kleines, schnelles Modell (Tier 6) klassifiziert die eingehende Anfrage und waehlt das optimale Modell:

Eingabe: "What's 2+2?"
Router: -> einfache Mathematik -> Tier 6

Eingabe: "Design a distributed consensus algorithm for..."
Router: -> komplexe Architektur -> Tier 1

Model Prism automatisiert dies mit konfigurierbaren Routing-Regeln und LLM-basierter Klassifikation. Sie definieren Kostenbeschraenkungen und Qualitaetsanforderungen; es routet automatisch.

---quiz question: Wie viel Prozent der KI-Anfragen in Unternehmen benoetigen typischerweise Tier-1-Modelle (Frontier)? options:

{ text: "Etwa 50% -- die meisten Aufgaben sind komplex", correct: false }
{ text: "Etwa 5% -- nur wirklich komplexe Aufgaben benoetigen Frontier-Modelle", correct: true }
{ text: "Etwa 90% -- Qualitaet ist bei allem wichtig", correct: false } feedback: Nur etwa 5% der KI-Anfragen in Unternehmen benoetigen wirklich Frontier-Modelle. 70% koennen von Tier-5-6-Modellen (Value/Economy) mit identischen Ergebnissen bearbeitet werden. Der Schluessel ist, jede Aufgabe an die passende Stufe weiterzuleiten.

---quiz question: Wie viel koennen Sie sparen, wenn Sie die richtige Modellstufe fuer Klassifikationsaufgaben verwenden? options:

{ text: "Etwa 10%", correct: false }
{ text: "Etwa 50%", correct: false }
{ text: "Bis zu 99% -- ein Tier-6-Modell kann 187x guenstiger sein als Tier 1 bei identischer Genauigkeit", correct: true } feedback: Fuer einfache, klar definierte Aufgaben wie Klassifikation liefern Economy-Modelle (Tier 6) identische Ergebnisse wie Frontier-Modelle zu einem Bruchteil der Kosten. Die Einsparungen im grossen Massstab sind enorm.

---quiz question: Was ist "Auto-Routing" im KI-Modellmanagement? options:

{ text: "Automatischer Neustart fehlgeschlagener Anfragen", correct: false }
{ text: "Ein kleines schnelles Modell klassifiziert Anfragen und leitet sie an das optimale Modell weiter", correct: true }
{ text: "Alle Anfragen an das guenstigste Modell senden", correct: false } feedback: Auto-Routing verwendet ein kleines, guenstiges Modell, um jede eingehende Anfrage zu analysieren und festzustellen, welche Modellstufe sie effektiv bearbeiten kann -- und balanciert dabei Kosten und Qualitaet automatisch.