Modell-Routing mit Model Prism

Intelligentes Modell-Routing ist die wirkungsvollste Kostenoptimierung fuer KI im grossen Massstab. Model Prism macht es automatisch.

Was ist Modell-Routing?

Modell-Routing = jede KI-Anfrage basierend auf der Aufgabe an das optimale Modell senden:

Ohne Routing (naiver Ansatz):

Alle Anfragen -> GPT-4o -> $$$
"What's 2+2?"             -> GPT-4o  ($0,03)
"Summarize this PDF"      -> GPT-4o  ($0,15)
"Design a microservice"   -> GPT-4o  ($0,08)

Mit intelligentem Routing:

"What's 2+2?"             -> Gemini Flash  ($0,0002)
"Summarize this PDF"      -> Claude Sonnet ($0,05)
"Design a microservice"   -> Claude Opus   ($0,15)

Gleiche Qualitaet. 60-80% weniger Kosten.

Model Prism Architektur

Model Prism ist ein OpenAI-API-kompatibles Gateway, das zwischen Ihren Anwendungen und KI-Anbietern sitzt:

+----------------+     +----------------+     +----------------+
| Ihre App       |     | Model Prism    |     | OpenAI         |
|                |---->|                |---->| Anthropic      |
| IDE / Agent    |     | * Auth         |     | Google         |
| Chatbot        |     | * Route        |     | AWS Bedrock    |
| Pipeline       |     | * Kosten track.|     | Ollama         |
+----------------+     | * Logging      |     +----------------+
                        +----------------+

Hauptfunktionen:

Drop-in-Ersatz -- OPENAI_BASE_URL aendern, alles funktioniert
Multi-Tenant -- jedes Team erhaelt seinen eigenen API-Key mit Kontingenten
Modell-Aliasing -- gpt-4 kann an jedes Modell weiterleiten
Auto-Routing -- KI klassifiziert Anfragen und waehlt das beste Modell
Kostenverfolgung -- pro Anfrage, pro Tenant, in Echtzeit

Model Prism einrichten

Der Einstieg dauert Minuten:

1. Deployment:

docker run -d \
  -p 3000:3000 \
  -e MONGODB_URI="mongodb://mongo:27017/prism" \
  -e JWT_SECRET="your-secret-here" \
  -e ENCRYPTION_KEY="your-32-char-key-here" \
  ghcr.io/ohara-systems/model-prism:latest

2. Anbieter konfigurieren (Admin-UI -> Providers):

OpenAI, Anthropic, Google usw. hinzufuegen
Jeder Anbieter benoetigt seinen API-Key (verschluesselt gespeichert)
Prioritaetsreihenfolge fuer Failover setzen

3. Tenants erstellen (Admin-UI -> Tenants):

Jedes Team/Projekt erhaelt einen Tenant
Tenant bekommt einen API-Key: omp-abc123...
Budgetlimits, erlaubte Modelle, Rate Limits festlegen

4. Ihre Tools verbinden:

export OPENAI_BASE_URL="https://prism.your-company.com/api/team-a/v1"
export OPENAI_API_KEY="omp-your-tenant-key"
# Jetzt wird jedes OpenAI-kompatible Tool ueber Prism geroutet

Auto-Routing

Die leistungsfaehigste Funktion -- die KI waehlt das Modell:

So funktioniert es:

Ihre App sendet model: "auto" in der Anfrage
Model Prism sendet den Prompt an ein schnelles Klassifikationsmodell (Tier 6)
Der Klassifikator bestimmt die Aufgabenkategorie (Code, Analyse, einfache Frage usw.)
Model Prism ordnet die Kategorie dem optimalen Modell zu
Die Anfrage geht an das ausgewaehlte Modell
Die Antwort enthaelt Metadaten darueber, welches Modell verwendet wurde und warum

Konfiguration -- Kategorie-zu-Modell-Zuordnung:

simple-questions  -> gemini-2.0-flash  (guenstigste)
classification    -> gpt-4o-mini       (schnell, genau)
code-generation   -> claude-sonnet-4   (am besten fuer Code)
complex-analysis  -> claude-opus-4.6   (hoechste Qualitaet)
creative-writing  -> gpt-4o            (guter kreativer Output)

Der Klassifikator-Prompt-Overhead betraegt ~$0,0001 pro Anfrage -- vernachlaessigbar im Vergleich zu den Einsparungen durch Routing.

Keyword-Regeln & Tier Boost

Routing mit Regeln feinabstimmen:

Keyword-basiertes Routing:

Wenn Prompt "security audit" enthaelt -> immer Tier 1 verwenden
Wenn Prompt "translate" enthaelt      -> Tier 5 verwenden
Wenn Prompt "summarize" enthaelt      -> Tier 4 verwenden

Tier Boost: Manche Tenants benoetigen immer hoeherwertige Modelle:

Tenant: executive-team
  Tier Boost: +2 (jede Anfrage geht an ein Modell 2 Stufen hoeher)

Tenant: internal-tools
  Tier Boost: 0 (Standard-Routing)

Tenant: batch-processing
  Tier Boost: -1 (immer ein Modell 1 Stufe niedriger verwenden)

Modell-Aliasing: Benutzerfreundliche Namen auf spezifische Modelle abbilden:

"gpt-4" -> "claude-sonnet-4"          (Anbieter transparent wechseln)
"fast"  -> "gemini-2.0-flash"         (semantische Aliase)
"best"  -> "claude-opus-4.6"          (Qualitaets-Aliase)
"code"  -> "claude-sonnet-4"          (Aufgaben-Aliase)

Bestehende Tools benoetigen keine Code-Aenderungen -- einfach das Alias-Mapping aktualisieren.

Monitoring & Analyse

Model Prism verfolgt alles:

Metriken pro Anfrage:

Verwendetes Modell (angefragt vs. tatsaechlich nach Routing)
Token-Anzahl (Input + Output)
Kosten (berechnet aus Token-Anzahl und Modellpreisen)
Latenz (Zeit bis zum ersten Token, Gesamtzeit)
Routing-Entscheidung (warum dieses Modell gewaehlt wurde)

Dashboard-Ansichten:

Kosten nach Tenant, nach Modell, nach Tag/Woche/Monat
Anfragevolumen und -muster
Modellleistungsvergleich
Budgetauslastung pro Tenant
Kosteneinsparungen durch Routing vs. ohne Routing

Prometheus-Metriken fuer Integration mit Grafana, Datadog usw.:

model_prism_request_cost_total{tenant="team-a", model="claude-sonnet-4"}
model_prism_request_duration_seconds{tenant="team-a"}
model_prism_tokens_total{tenant="team-a", direction="output"}

Migrations-Checkliste

Ihre Organisation auf Model Prism umstellen:

Model Prism-Instanz bereitstellen (Docker oder Cloud)
Alle KI-Anbieter-Zugangsdaten hinzufuegen
Tenant fuer jedes Team/Projekt erstellen
Budgetlimits und Benachrichtigungen fuer jeden Tenant setzen
Modell-Aliase konfigurieren (damit bestehende Tools unveraendert funktionieren)
OPENAI_BASE_URL in allen Anwendungen aktualisieren
Auto-Routing-Kategorien einrichten
Prometheus/Grafana-Dashboards konfigurieren
Team in der Admin-UI schulen
2 Wochen ueberwachen, Routing-Regeln basierend auf Daten anpassen

Typisches Ergebnis: 50-70% Kostenreduktion im ersten Monat, ohne Qualitaetseinbussen bei Aufgaben, die ueber-provisioniert waren.

---quiz question: Was bedeutet es, wenn Sie model: "auto" in einer Model Prism-Anfrage setzen? options:

{ text: "Model Prism waehlt ein zufaelliges Modell", correct: false }
{ text: "Ein schneller Klassifikator analysiert die Anfrage und leitet sie an das optimale Modell fuer diese Aufgabe weiter", correct: true }
{ text: "Model Prism verwendet das guenstigste verfuegbare Modell", correct: false } feedback: Auto-Routing verwendet einen schnellen, guenstigen Klassifikator, um den Aufgabentyp zu bestimmen (Code, Analyse, einfache Frage usw.) und leitet die Anfrage dann an das Modell weiter, das am besten zu dieser Aufgabe passt -- unter Abwaegung von Qualitaet und Kosten.

---quiz question: Wie erreicht Model Prism null Code-Aenderungen in bestehenden Anwendungen? options:

{ text: "Es erfordert ein spezielles SDK", correct: false }
{ text: "Es bietet eine OpenAI-kompatible API -- einfach die Base-URL und den API-Key aendern", correct: true }
{ text: "Es funktioniert nur mit Anwendungen, die speziell fuer Model Prism gebaut wurden", correct: false } feedback: Model Prism implementiert den OpenAI-API-Standard. Jedes Tool, das mit OpenAI funktioniert (was praktisch jedes KI-Tool ist), kann zu Model Prism wechseln, indem es zwei Umgebungsvariablen aendert -- keine Code-Aenderungen noetig.

---quiz question: Was ist ein "Tier Boost" in Model Prism? options:

{ text: "Eine Moeglichkeit, API-Antworten zu beschleunigen", correct: false }
{ text: "Eine Pro-Tenant-Einstellung, die alle Routing-Entscheidungen um N Stufen nach oben oder unten verschiebt", correct: true }
{ text: "Ein Rabatt auf hoeherwertige Modelle", correct: false } feedback: Tier Boost passt die Modellstufe fuer alle Anfragen eines bestimmten Tenants an. Ein +2-Boost bedeutet, dass jede Anfrage ein Modell 2 Stufen hoeher als das Routing normalerweise waehlen wuerde verwendet, was Premium-Qualitaet fuer wichtige Teams sichert.