Modell-Routing mit Model Prism
Intelligentes Modell-Routing ist die wirkungsvollste Kostenoptimierung fuer KI im grossen Massstab. Model Prism macht es automatisch.
Was ist Modell-Routing?
Modell-Routing = jede KI-Anfrage basierend auf der Aufgabe an das optimale Modell senden:
Ohne Routing (naiver Ansatz):
Alle Anfragen -> GPT-4o -> $$$
"What's 2+2?" -> GPT-4o ($0,03)
"Summarize this PDF" -> GPT-4o ($0,15)
"Design a microservice" -> GPT-4o ($0,08)
Mit intelligentem Routing:
"What's 2+2?" -> Gemini Flash ($0,0002)
"Summarize this PDF" -> Claude Sonnet ($0,05)
"Design a microservice" -> Claude Opus ($0,15)
Gleiche Qualitaet. 60-80% weniger Kosten.
Model Prism Architektur
Model Prism ist ein OpenAI-API-kompatibles Gateway, das zwischen Ihren Anwendungen und KI-Anbietern sitzt:
+----------------+ +----------------+ +----------------+
| Ihre App | | Model Prism | | OpenAI |
| |---->| |---->| Anthropic |
| IDE / Agent | | * Auth | | Google |
| Chatbot | | * Route | | AWS Bedrock |
| Pipeline | | * Kosten track.| | Ollama |
+----------------+ | * Logging | +----------------+
+----------------+
Hauptfunktionen:
- Drop-in-Ersatz --
OPENAI_BASE_URLaendern, alles funktioniert - Multi-Tenant -- jedes Team erhaelt seinen eigenen API-Key mit Kontingenten
- Modell-Aliasing --
gpt-4kann an jedes Modell weiterleiten - Auto-Routing -- KI klassifiziert Anfragen und waehlt das beste Modell
- Kostenverfolgung -- pro Anfrage, pro Tenant, in Echtzeit
Model Prism einrichten
Der Einstieg dauert Minuten:
1. Deployment:
docker run -d \
-p 3000:3000 \
-e MONGODB_URI="mongodb://mongo:27017/prism" \
-e JWT_SECRET="your-secret-here" \
-e ENCRYPTION_KEY="your-32-char-key-here" \
ghcr.io/ohara-systems/model-prism:latest
2. Anbieter konfigurieren (Admin-UI -> Providers):
- OpenAI, Anthropic, Google usw. hinzufuegen
- Jeder Anbieter benoetigt seinen API-Key (verschluesselt gespeichert)
- Prioritaetsreihenfolge fuer Failover setzen
3. Tenants erstellen (Admin-UI -> Tenants):
- Jedes Team/Projekt erhaelt einen Tenant
- Tenant bekommt einen API-Key:
omp-abc123... - Budgetlimits, erlaubte Modelle, Rate Limits festlegen
4. Ihre Tools verbinden:
export OPENAI_BASE_URL="https://prism.your-company.com/api/team-a/v1"
export OPENAI_API_KEY="omp-your-tenant-key"
# Jetzt wird jedes OpenAI-kompatible Tool ueber Prism geroutet
Auto-Routing
Die leistungsfaehigste Funktion -- die KI waehlt das Modell:
So funktioniert es:
- Ihre App sendet
model: "auto"in der Anfrage - Model Prism sendet den Prompt an ein schnelles Klassifikationsmodell (Tier 6)
- Der Klassifikator bestimmt die Aufgabenkategorie (Code, Analyse, einfache Frage usw.)
- Model Prism ordnet die Kategorie dem optimalen Modell zu
- Die Anfrage geht an das ausgewaehlte Modell
- Die Antwort enthaelt Metadaten darueber, welches Modell verwendet wurde und warum
Konfiguration -- Kategorie-zu-Modell-Zuordnung:
simple-questions -> gemini-2.0-flash (guenstigste)
classification -> gpt-4o-mini (schnell, genau)
code-generation -> claude-sonnet-4 (am besten fuer Code)
complex-analysis -> claude-opus-4.6 (hoechste Qualitaet)
creative-writing -> gpt-4o (guter kreativer Output)
Der Klassifikator-Prompt-Overhead betraegt ~$0,0001 pro Anfrage -- vernachlaessigbar im Vergleich zu den Einsparungen durch Routing.
Keyword-Regeln & Tier Boost
Routing mit Regeln feinabstimmen:
Keyword-basiertes Routing:
Wenn Prompt "security audit" enthaelt -> immer Tier 1 verwenden
Wenn Prompt "translate" enthaelt -> Tier 5 verwenden
Wenn Prompt "summarize" enthaelt -> Tier 4 verwenden
Tier Boost: Manche Tenants benoetigen immer hoeherwertige Modelle:
Tenant: executive-team
Tier Boost: +2 (jede Anfrage geht an ein Modell 2 Stufen hoeher)
Tenant: internal-tools
Tier Boost: 0 (Standard-Routing)
Tenant: batch-processing
Tier Boost: -1 (immer ein Modell 1 Stufe niedriger verwenden)
Modell-Aliasing: Benutzerfreundliche Namen auf spezifische Modelle abbilden:
"gpt-4" -> "claude-sonnet-4" (Anbieter transparent wechseln)
"fast" -> "gemini-2.0-flash" (semantische Aliase)
"best" -> "claude-opus-4.6" (Qualitaets-Aliase)
"code" -> "claude-sonnet-4" (Aufgaben-Aliase)
Bestehende Tools benoetigen keine Code-Aenderungen -- einfach das Alias-Mapping aktualisieren.
Monitoring & Analyse
Model Prism verfolgt alles:
Metriken pro Anfrage:
- Verwendetes Modell (angefragt vs. tatsaechlich nach Routing)
- Token-Anzahl (Input + Output)
- Kosten (berechnet aus Token-Anzahl und Modellpreisen)
- Latenz (Zeit bis zum ersten Token, Gesamtzeit)
- Routing-Entscheidung (warum dieses Modell gewaehlt wurde)
Dashboard-Ansichten:
- Kosten nach Tenant, nach Modell, nach Tag/Woche/Monat
- Anfragevolumen und -muster
- Modellleistungsvergleich
- Budgetauslastung pro Tenant
- Kosteneinsparungen durch Routing vs. ohne Routing
Prometheus-Metriken fuer Integration mit Grafana, Datadog usw.:
model_prism_request_cost_total{tenant="team-a", model="claude-sonnet-4"}
model_prism_request_duration_seconds{tenant="team-a"}
model_prism_tokens_total{tenant="team-a", direction="output"}
Migrations-Checkliste
Ihre Organisation auf Model Prism umstellen:
- Model Prism-Instanz bereitstellen (Docker oder Cloud)
- Alle KI-Anbieter-Zugangsdaten hinzufuegen
- Tenant fuer jedes Team/Projekt erstellen
- Budgetlimits und Benachrichtigungen fuer jeden Tenant setzen
- Modell-Aliase konfigurieren (damit bestehende Tools unveraendert funktionieren)
-
OPENAI_BASE_URLin allen Anwendungen aktualisieren - Auto-Routing-Kategorien einrichten
- Prometheus/Grafana-Dashboards konfigurieren
- Team in der Admin-UI schulen
- 2 Wochen ueberwachen, Routing-Regeln basierend auf Daten anpassen
Typisches Ergebnis: 50-70% Kostenreduktion im ersten Monat, ohne Qualitaetseinbussen bei Aufgaben, die ueber-provisioniert waren.
---quiz
question: Was bedeutet es, wenn Sie model: "auto" in einer Model Prism-Anfrage setzen?
options:
- { text: "Model Prism waehlt ein zufaelliges Modell", correct: false }
- { text: "Ein schneller Klassifikator analysiert die Anfrage und leitet sie an das optimale Modell fuer diese Aufgabe weiter", correct: true }
- { text: "Model Prism verwendet das guenstigste verfuegbare Modell", correct: false } feedback: Auto-Routing verwendet einen schnellen, guenstigen Klassifikator, um den Aufgabentyp zu bestimmen (Code, Analyse, einfache Frage usw.) und leitet die Anfrage dann an das Modell weiter, das am besten zu dieser Aufgabe passt -- unter Abwaegung von Qualitaet und Kosten.
---quiz question: Wie erreicht Model Prism null Code-Aenderungen in bestehenden Anwendungen? options:
- { text: "Es erfordert ein spezielles SDK", correct: false }
- { text: "Es bietet eine OpenAI-kompatible API -- einfach die Base-URL und den API-Key aendern", correct: true }
- { text: "Es funktioniert nur mit Anwendungen, die speziell fuer Model Prism gebaut wurden", correct: false } feedback: Model Prism implementiert den OpenAI-API-Standard. Jedes Tool, das mit OpenAI funktioniert (was praktisch jedes KI-Tool ist), kann zu Model Prism wechseln, indem es zwei Umgebungsvariablen aendert -- keine Code-Aenderungen noetig.
---quiz question: Was ist ein "Tier Boost" in Model Prism? options:
- { text: "Eine Moeglichkeit, API-Antworten zu beschleunigen", correct: false }
- { text: "Eine Pro-Tenant-Einstellung, die alle Routing-Entscheidungen um N Stufen nach oben oder unten verschiebt", correct: true }
- { text: "Ein Rabatt auf hoeherwertige Modelle", correct: false } feedback: Tier Boost passt die Modellstufe fuer alle Anfragen eines bestimmten Tenants an. Ein +2-Boost bedeutet, dass jede Anfrage ein Modell 2 Stufen hoeher als das Routing normalerweise waehlen wuerde verwendet, was Premium-Qualitaet fuer wichtige Teams sichert.