KI-Modelle selbst hosten
Wenn Cloud-APIs nicht passen -- Datenschutzanforderungen, Air-Gapped-Netzwerke oder reine Wirtschaftlichkeit -- ist Self-Hosting die Antwort.
Warum Self-Hosting?
Vier ueberzeugende Gruende:
1. Datenschutz
- Sensible Daten verlassen nie Ihr Netzwerk
- Keine Protokollierung Ihrer Prompts oder Antworten durch Dritte
- Erforderlich fuer Verschlusssachen-Umgebungen, Gesundheitswesen (HIPAA), Finanzen
2. Kosten im grossen Massstab
- Keine Token-Kosten nach der Hardware-Investition
- Break-even bei ca. 10.000 Anfragen/Tag fuer mittlere Modelle
- 80% guenstiger als Cloud bei hohem Volumen
3. Air-Gapped-Betrieb
- Militaer, Regierung, kritische Infrastruktur
- Keine Internet-Abhaengigkeit
- Volle betriebliche Kontrolle
4. Anpassung
- Modelle mit Ihren proprietaeren Daten feintunen
- Benutzerdefinierte Tokenizer fuer domaenenspezifisches Vokabular
- Volle Kontrolle ueber Modellversionen und Updates
Ollama -- Der einfachste Weg
Ollama macht das Betreiben lokaler Modelle so einfach wie Docker:
Installation:
# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh
# Oder mit Homebrew
brew install ollama
Ein Modell starten:
ollama run llama3.3 # Chat mit Llama 3.3 70B
ollama run qwen3:30b # Qwen 3 30B
ollama run phi4 # Microsoft Phi-4 14B
ollama run codellama:34b # Code-spezialisiertes Llama
Als API nutzen (OpenAI-kompatibel):
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.3",
"messages": [{"role": "user", "content": "Hello!"}]
}'
Mit Ihren Tools verbinden:
export OPENAI_BASE_URL="http://localhost:11434/v1"
export OPENAI_API_KEY="not-needed"
# Jetzt nutzt jedes OpenAI-kompatible Tool Ihr lokales Modell
vLLM -- Produktionsreifes Serving
Fuer Produktions-Deployments, die Leistung brauchen:
pip install vllm
# Ein Modell bereitstellen
vllm serve meta-llama/Llama-3.3-70B-Instruct \
--tensor-parallel-size 2 \
--max-model-len 32768
Warum vLLM statt Ollama fuer Produktion:
- Continuous Batching -- verarbeitet viele gleichzeitige Anfragen effizient
- PagedAttention -- nutzt GPU-Speicher effizienter
- Hoeherer Durchsatz -- 2-4x schneller als naives Serving
- OpenAI-kompatible API integriert
Ollama vs. vLLM:
| Eigenschaft | Ollama | vLLM |
|---|---|---|
| Einrichtung | 1 Minute | 30 Minuten |
| Am besten fuer | Entwicklung, kleine Teams | Produktion, hohes Volumen |
| Durchsatz | Gut | Exzellent |
| Gleichzeitige Nutzer | 5-10 | 100+ |
| GPU-Auslastung | Gut | Optimiert |
| Modellformat | GGUF (quantisiert) | Volle Gewichte |
GPU-Anforderungen
Die richtige Hardware waehlen:
| Modellgroesse | Min VRAM | Empfohlene GPU | Ungefaehre Kosten |
|---|---|---|---|
| 7B Parameter | 8 GB | RTX 4070 | $500 |
| 14B Parameter | 12 GB | RTX 4080 | $1.000 |
| 30B Parameter | 24 GB | RTX 4090 | $1.600 |
| 70B Parameter | 48 GB | 2x RTX 4090 oder A6000 | $3.200+ |
| 100B+ Parameter | 80 GB | A100 oder H100 | $10.000+ |
Cloud-GPU-Miete (wenn Sie nicht kaufen moechten):
| Anbieter | A100 (80GB) | H100 | Pro Monat |
|---|---|---|---|
| Lambda Labs | $1,10/Std | $2,49/Std | $800-1.800 |
| RunPod | $1,64/Std | $3,89/Std | $1.200-2.800 |
| AWS (p5) | $8,00/Std | $12,00/Std | $5.760-8.640 |
Kostenvergleich: Llama 3.3 70B auf 2x A100 betreiben kostet ca. $1.600/Monat in Cloud-GPUs. Bei 20.000 Anfragen/Tag ersetzt dies ca. $6.000/Monat an Claude Sonnet API-Kosten.
Die Hybrid-Architektur
Die meisten Organisationen profitieren von einer Kombination aus Cloud und Self-Hosted:
+-------------------------------------------+
| Model Prism Gateway |
+-----------+-----------+-------------------+
| | | |
v v v v
Ollama OpenAI Anthropic AWS Bedrock
(lokal) (Cloud) (Cloud) (verwaltet)
| | | |
Einfache Kreative Komplexes Compliance-
Aufgaben Aufgaben Reasoning Workloads
Gratis/Tok $$ $$$ $$
Routing-Regeln:
- Einfache Aufgaben (Klassifikation, Extraktion) -> Ollama (kostenlos)
- Standard-Aufgaben (Code, Docs) -> Cloud-API (ausgewogen)
- Komplexe Aufgaben (Architektur, Analyse) -> Frontier-Cloud-Modell
- Regulierte Daten -> Bedrock oder Ollama (Compliance)
Failover: Wenn Ollama ueberlastet -> Fallback auf Cloud-API. Wenn Cloud ausfaellt -> Fallback auf Ollama fuer kritische Operationen.
Self-Hosting-Checkliste
Bevor Sie mit Self-Hosting beginnen:
- Break-even berechnen: Wie viele Anfragen/Tag? Bei welcher Modellstufe?
- Hardware waehlen: GPUs kaufen, Cloud-GPUs mieten oder vorhandene Server nutzen?
- Stack waehlen: Ollama (einfach) oder vLLM (Produktion)?
- Modelle auswaehlen: Welche Open-Source-Modelle entsprechen Ihren Qualitaetsanforderungen?
- Updates planen: Wie werden Sie auf neuere Modellversionen aktualisieren?
- Monitoring einrichten: GPU-Auslastung, Anfrage-Latenz, Warteschlangenlaenge
- Backup konfigurieren: Was passiert, wenn der GPU-Server ausfaellt?
- Sicherheit: API-Authentifizierung, Netzwerkisolation, Zugriffs-Logging
- Integration: Mit Model Prism fuer einheitliches Routing und Tracking verbinden
Klein anfangen: Lassen Sie Ollama eine Woche auf dem Arbeitsplatzrechner eines Entwicklers laufen. Messen Sie Qualitaet und Geschwindigkeit. Entscheiden Sie dann, ob Sie in dedizierte GPU-Infrastruktur investieren.
---quiz question: Ab welchem Anfragevolumen wird Self-Hosting ungefaehr guenstiger als Cloud-APIs? options:
- { text: "Bei jedem Volumen -- Self-Hosting ist immer guenstiger", correct: false }
- { text: "Ab ca. 10.000+ Anfragen pro Tag fuer mittelgrosse Modelle", correct: true }
- { text: "Erst ab 1 Million+ Anfragen pro Tag", correct: false } feedback: Self-Hosting hat fixe GPU-Kosten, aber keine Token-Kosten. Der Break-even-Punkt haengt von der Modellgroesse und den Cloud-Preisen ab, liegt aber typischerweise bei ca. 10.000 taeglichen Anfragen fuer mittelgrosse Modelle.
---quiz question: Was ist der Hauptvorteil von vLLM gegenueber Ollama fuer Produktions-Deployments? options:
- { text: "vLLM ist einfacher zu installieren", correct: false }
- { text: "vLLM verarbeitet viele gleichzeitige Anfragen effizient mit Continuous Batching", correct: true }
- { text: "vLLM unterstuetzt mehr Modellformate", correct: false } feedback: vLLM nutzt Continuous Batching und PagedAttention, um 100+ gleichzeitige Nutzer effizient zu bedienen und erreicht einen 2-4x hoeheren Durchsatz als einfachere Serving-Loesungen. Ollama ist einfacher, aber fuer Entwicklung und kleine Teams konzipiert.
---quiz question: Was ist die "Hybrid-Architektur" fuer KI-Modell-Hosting? options:
- { text: "Zwei Kopien desselben Modells fuer Redundanz betreiben", correct: false }
- { text: "Selbst gehostete Modelle fuer einfache/private Aufgaben mit Cloud-APIs fuer komplexe Aufgaben kombinieren", correct: true }
- { text: "Sowohl GPUs als auch CPUs auf demselben Server verwenden", correct: false } feedback: Die Hybrid-Architektur leitet einfache und datenschutzsensible Aufgaben an lokale Modelle (kostenlos, privat) und sendet komplexe Aufgaben an Cloud-APIs (hoehere Qualitaet). Ein Gateway wie Model Prism verwaltet das Routing automatisch.