Wie LLMs wirklich funktionieren

Sie "denken" nicht -- sie sagen vorher. Dieses Verstaendnis aendert alles.

Die Token-Vorhersage-Schleife

Ein LLM macht eine einzige Sache, Milliarden Male:

Gegeben alle vorherigen Tokens → sage das wahrscheinlichste naechste Token vorher.

Input:  "Die Hauptstadt von Frankreich ist"
Schritt 1: P("Paris") = 0.92, P("Lyon") = 0.03, P("eine") = 0.01 ...
Schritt 2: Waehle "Paris"
Schritt 3: "Die Hauptstadt von Frankreich ist Paris"
Schritt 4: Sage naechstes Token nach "Paris" vorher → "." (0.87)

Das aehnelt der Autovervollstaendigung Ihres Smartphones -- aber mit ueber 175 Milliarden Parametern statt eines kleinen Woerterbuchs.

Zentrale Erkenntnis: Die KI "weiss" nicht, dass Paris die Hauptstadt von Frankreich ist. Sie hat gelernt, dass das Token "Paris" in ihren Trainingsdaten sehr haeufig auf "Hauptstadt von Frankreich ist" folgt.

Wie Neuronale Netze lernen

Stellen Sie sich einen Spam-Filter vor -- das einfachste neuronale Netz:

Merkmale → Gewichte → Entscheidung

E-Mail enthaelt "GRATIS GELD"   → Gewicht: +0.9 →
E-Mail von bekanntem Kontakt    → Gewicht: -0.7 → Spam-Score: 0.73
E-Mail hat Anhang               → Gewicht: +0.3 → → SPAM

Training = Gewichte anpassen, bis die Vorhersagen mit der Realitaet uebereinstimmen.

Ein LLM hat Milliarden dieser Gewichte und verarbeitet Text durch Hunderte von Schichten. Das Prinzip ist identisch -- nur in unfassbarem Massstab.

Tokenisierung & Embeddings

Bevor die KI Text verarbeiten kann, wandelt sie Woerter in Zahlen um:

Tokenisierung -- Text in Tokens aufteilen:

"Hello, how are you?" → ["Hello", ",", " how", " are", " you", "?"]
                       → [15339, 11, 1268, 527, 499, 30]

Embeddings -- Tokens auf hochdimensionale Vektoren abbilden:

"king"  → [0.2, 0.8, -0.1, 0.5, ...]  (768+ Dimensionen)
"queen" → [0.2, 0.8, -0.1, 0.9, ...]  (aehnlich, aber unterschiedlich!)

Beruemhtes Ergebnis: king - man + woman ≈ queen

Diese Vektorbeziehungen erfassen Bedeutung -- Woerter, die in aehnlichen Kontexten verwendet werden, landen im Vektorraum nahe beieinander.

Der Attention-Mechanismus

Der Durchbruch, der moderne KI moeglich machte (2017):

Self-Attention laesst jedes Token ALLE anderen Tokens betrachten, um den Kontext zu verstehen:

"Das Ufer am Fluss war steil"
           ↑
    "Ufer" beachtet "Fluss" → Bedeutung: Flussufer (nicht Bankhaus)

"Ich ging zur Bank, um Geld einzuzahlen"
               ↑
    "Bank" beachtet "einzuzahlen", "Geld" → Bedeutung: Geldinstitut

Ohne Attention wuerde das Modell "Bank/Ufer" in beiden Saetzen gleich behandeln. Mit Attention versteht es den Kontext -- der Schluessel zum Sprachverstaendnis.

Das Problem des gesunden Menschenverstands

KI kann ueber 90% bei IQ-Tests erzielen, scheitert aber am gesunden Menschenverstand:

Das Autowaschanlage-Problem:

"Ich brachte mein Auto in die Waschanlage. Nach dem Waschen war mein Auto sauber." KI: ✓ Versteht perfekt.

"Ich brachte meine Katze in die Waschanlage. Nach dem Waschen war meine Katze..." KI: "...sauber." (Korrekte Token-Vorhersage) Mensch: "...voellig veraechtigt, klatschnass und hat versucht zu fliehen."

Die KI sagt das statistisch wahrscheinlichste naechste Wort vorher. Sie simuliert nicht die Realitaet. Sie hat kein Weltmodell -- nur Mustererkennung in unfassbarem Massstab.

Das Blackbox-Problem

Warum koennen wir KI-Entscheidungen nicht debuggen?

Traditioneller Code: if (x > 5) return "gross" -- vollstaendig nachvollziehbar.

LLM: 175.000.000.000 Gewichte → irgendwie → "Paris" -- nicht nachvollziehbar.

Sie koennen nicht fragen "WARUM hast du das ausgegeben?" und eine sinnvolle Antwort erhalten. Das Modell weiss nicht warum -- es ist eine statistische Berechnung, keine Argumentationskette.

Deshalb ist Prompt Engineering wichtig: Sie koennen das Modell nicht reparieren, aber Sie koennen die Eingabe verbessern, um bessere Ausgaben zu erhalten.

---quiz question: Was macht ein LLM tatsaechlich bei jedem Schritt? options:

{ text: "Es durchsucht das Internet nach Antworten", correct: false }
{ text: "Es sagt das wahrscheinlichste naechste Token basierend auf allen vorherigen Tokens vorher", correct: true }
{ text: "Es fuehrt eine Datenbankabfrage gegen seine Trainingsdaten aus", correct: false }
{ text: "Es denkt ueber die Frage nach und formuliert eine Antwort", correct: false } feedback: LLMs sagen das naechste Token mittels Wahrscheinlichkeiten vorher. Sie suchen nicht, fragen nicht ab und denken nicht -- sie berechnen die statistisch wahrscheinlichste Fortsetzung.

---quiz question: Was war die zentrale Innovation im Paper "Attention Is All You Need" von 2017? options:

{ text: "Groessere Trainingsdatensaetze", correct: false }
{ text: "Self-Attention -- jedes Token kann alle anderen Tokens fuer den Kontext betrachten", correct: true }
{ text: "Schnellere GPUs fuer das Training", correct: false } feedback: Self-Attention ermoeglicht dem Modell, Kontext zu verstehen, indem jedes Token jedes andere Token in der Sequenz beachten kann. Das macht Transformer so leistungsfaehig beim Sprachverstaendnis.

---quiz question: Warum wird KI manchmal als "Blackbox" bezeichnet? options:

{ text: "Weil der Code proprietaer und nicht einsehbar ist", correct: false }
{ text: "Weil Milliarden von Gewichten Ausgaben erzeugen, die nicht auf bestimmte Argumentationsschritte zurueckgefuehrt werden koennen", correct: true }
{ text: "Weil sie nur im Dunkelmodus funktioniert", correct: false } feedback: Mit ueber 175 Milliarden Parametern gibt es keine Moeglichkeit nachzuvollziehen, WARUM eine bestimmte Ausgabe erzeugt wurde. Die Berechnung ist korrekt, aber nicht erklaerbar -- anders als traditioneller deterministischer Code.