KI-Modelle selbst hosten

Wenn Cloud-APIs nicht passen -- Datenschutzanforderungen, Air-Gapped-Netzwerke oder reine Wirtschaftlichkeit -- ist Self-Hosting die Antwort.

Warum Self-Hosting?

Vier ueberzeugende Gruende:

1. Datenschutz

Sensible Daten verlassen nie Ihr Netzwerk
Keine Protokollierung Ihrer Prompts oder Antworten durch Dritte
Erforderlich fuer Verschlusssachen-Umgebungen, Gesundheitswesen (HIPAA), Finanzen

2. Kosten im grossen Massstab

Keine Token-Kosten nach der Hardware-Investition
Break-even bei ca. 10.000 Anfragen/Tag fuer mittlere Modelle
80% guenstiger als Cloud bei hohem Volumen

3. Air-Gapped-Betrieb

Militaer, Regierung, kritische Infrastruktur
Keine Internet-Abhaengigkeit
Volle betriebliche Kontrolle

4. Anpassung

Modelle mit Ihren proprietaeren Daten feintunen
Benutzerdefinierte Tokenizer fuer domaenenspezifisches Vokabular
Volle Kontrolle ueber Modellversionen und Updates

Ollama -- Der einfachste Weg

Ollama macht das Betreiben lokaler Modelle so einfach wie Docker:

Installation:

# macOS / Linux
curl -fsSL https://ollama.ai/install.sh | sh

# Oder mit Homebrew
brew install ollama

Ein Modell starten:

ollama run llama3.3        # Chat mit Llama 3.3 70B
ollama run qwen3:30b       # Qwen 3 30B
ollama run phi4             # Microsoft Phi-4 14B
ollama run codellama:34b    # Code-spezialisiertes Llama

Als API nutzen (OpenAI-kompatibel):

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.3",
    "messages": [{"role": "user", "content": "Hello!"}]
  }'

Mit Ihren Tools verbinden:

export OPENAI_BASE_URL="http://localhost:11434/v1"
export OPENAI_API_KEY="not-needed"
# Jetzt nutzt jedes OpenAI-kompatible Tool Ihr lokales Modell

vLLM -- Produktionsreifes Serving

Fuer Produktions-Deployments, die Leistung brauchen:

pip install vllm

# Ein Modell bereitstellen
vllm serve meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 2 \
  --max-model-len 32768

Warum vLLM statt Ollama fuer Produktion:

Continuous Batching -- verarbeitet viele gleichzeitige Anfragen effizient
PagedAttention -- nutzt GPU-Speicher effizienter
Hoeherer Durchsatz -- 2-4x schneller als naives Serving
OpenAI-kompatible API integriert

Ollama vs. vLLM:

Eigenschaft	Ollama	vLLM
Einrichtung	1 Minute	30 Minuten
Am besten fuer	Entwicklung, kleine Teams	Produktion, hohes Volumen
Durchsatz	Gut	Exzellent
Gleichzeitige Nutzer	5-10	100+
GPU-Auslastung	Gut	Optimiert
Modellformat	GGUF (quantisiert)	Volle Gewichte

GPU-Anforderungen

Die richtige Hardware waehlen:

Modellgroesse	Min VRAM	Empfohlene GPU	Ungefaehre Kosten
7B Parameter	8 GB	RTX 4070	$500
14B Parameter	12 GB	RTX 4080	$1.000
30B Parameter	24 GB	RTX 4090	$1.600
70B Parameter	48 GB	2x RTX 4090 oder A6000	$3.200+
100B+ Parameter	80 GB	A100 oder H100	$10.000+

Cloud-GPU-Miete (wenn Sie nicht kaufen moechten):

Anbieter	A100 (80GB)	H100	Pro Monat
Lambda Labs	$1,10/Std	$2,49/Std	$800-1.800
RunPod	$1,64/Std	$3,89/Std	$1.200-2.800
AWS (p5)	$8,00/Std	$12,00/Std	$5.760-8.640

Kostenvergleich: Llama 3.3 70B auf 2x A100 betreiben kostet ca. $1.600/Monat in Cloud-GPUs. Bei 20.000 Anfragen/Tag ersetzt dies ca. $6.000/Monat an Claude Sonnet API-Kosten.

Die Hybrid-Architektur

Die meisten Organisationen profitieren von einer Kombination aus Cloud und Self-Hosted:

+-------------------------------------------+
|           Model Prism Gateway              |
+-----------+-----------+-------------------+
|           |           |                   |
v           v           v                   v
Ollama      OpenAI      Anthropic       AWS Bedrock
(lokal)     (Cloud)     (Cloud)         (verwaltet)
|           |           |                   |
Einfache    Kreative    Komplexes       Compliance-
Aufgaben    Aufgaben    Reasoning       Workloads
Gratis/Tok  $$          $$$             $$

Routing-Regeln:

Einfache Aufgaben (Klassifikation, Extraktion) -> Ollama (kostenlos)
Standard-Aufgaben (Code, Docs) -> Cloud-API (ausgewogen)
Komplexe Aufgaben (Architektur, Analyse) -> Frontier-Cloud-Modell
Regulierte Daten -> Bedrock oder Ollama (Compliance)

Failover: Wenn Ollama ueberlastet -> Fallback auf Cloud-API. Wenn Cloud ausfaellt -> Fallback auf Ollama fuer kritische Operationen.

Self-Hosting-Checkliste

Bevor Sie mit Self-Hosting beginnen:

Break-even berechnen: Wie viele Anfragen/Tag? Bei welcher Modellstufe?
Hardware waehlen: GPUs kaufen, Cloud-GPUs mieten oder vorhandene Server nutzen?
Stack waehlen: Ollama (einfach) oder vLLM (Produktion)?
Modelle auswaehlen: Welche Open-Source-Modelle entsprechen Ihren Qualitaetsanforderungen?
Updates planen: Wie werden Sie auf neuere Modellversionen aktualisieren?
Monitoring einrichten: GPU-Auslastung, Anfrage-Latenz, Warteschlangenlaenge
Backup konfigurieren: Was passiert, wenn der GPU-Server ausfaellt?
Sicherheit: API-Authentifizierung, Netzwerkisolation, Zugriffs-Logging
Integration: Mit Model Prism fuer einheitliches Routing und Tracking verbinden

Klein anfangen: Lassen Sie Ollama eine Woche auf dem Arbeitsplatzrechner eines Entwicklers laufen. Messen Sie Qualitaet und Geschwindigkeit. Entscheiden Sie dann, ob Sie in dedizierte GPU-Infrastruktur investieren.

---quiz question: Ab welchem Anfragevolumen wird Self-Hosting ungefaehr guenstiger als Cloud-APIs? options:

{ text: "Bei jedem Volumen -- Self-Hosting ist immer guenstiger", correct: false }
{ text: "Ab ca. 10.000+ Anfragen pro Tag fuer mittelgrosse Modelle", correct: true }
{ text: "Erst ab 1 Million+ Anfragen pro Tag", correct: false } feedback: Self-Hosting hat fixe GPU-Kosten, aber keine Token-Kosten. Der Break-even-Punkt haengt von der Modellgroesse und den Cloud-Preisen ab, liegt aber typischerweise bei ca. 10.000 taeglichen Anfragen fuer mittelgrosse Modelle.

---quiz question: Was ist der Hauptvorteil von vLLM gegenueber Ollama fuer Produktions-Deployments? options:

{ text: "vLLM ist einfacher zu installieren", correct: false }
{ text: "vLLM verarbeitet viele gleichzeitige Anfragen effizient mit Continuous Batching", correct: true }
{ text: "vLLM unterstuetzt mehr Modellformate", correct: false } feedback: vLLM nutzt Continuous Batching und PagedAttention, um 100+ gleichzeitige Nutzer effizient zu bedienen und erreicht einen 2-4x hoeheren Durchsatz als einfachere Serving-Loesungen. Ollama ist einfacher, aber fuer Entwicklung und kleine Teams konzipiert.

---quiz question: Was ist die "Hybrid-Architektur" fuer KI-Modell-Hosting? options:

{ text: "Zwei Kopien desselben Modells fuer Redundanz betreiben", correct: false }
{ text: "Selbst gehostete Modelle fuer einfache/private Aufgaben mit Cloud-APIs fuer komplexe Aufgaben kombinieren", correct: true }
{ text: "Sowohl GPUs als auch CPUs auf demselben Server verwenden", correct: false } feedback: Die Hybrid-Architektur leitet einfache und datenschutzsensible Aufgaben an lokale Modelle (kostenlos, privat) und sendet komplexe Aufgaben an Cloud-APIs (hoehere Qualitaet). Ein Gateway wie Model Prism verwaltet das Routing automatisch.