v1-Lektion: Loss sieht gut aus, Ausgabe ist Müll
Eine warnende Geschichte
ANDREA-120M v1 erreichte EMA-Loss 3.43 bei Schritt 110K, deutlich unter Zufall (ln(8449) = 9.04). Die Zahl sah respektabel aus. Die Samples nicht.
Schritt 80K: region region region region region region region
Schritt 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
Schritt 140K: games, games, games, games, games, games
Schritt 165K: Budy Budy Budy Budy Budy Budy Budy Budy
v1 hatte keine Sample-Monitoring verkabelt. Das Modell produzierte Wiederholungs-Schleifen-Müll ab Schritt 80K & das Training lief weitere 85K Schritte, bevor jemand es bemerkte. 10+ Tage Rechenleistung verschwendet, weil niemand die Ausgabe gelesen hat.
Was Verlust verbirgt
Der Cross-Entropy-Verlust misst, wie überrascht das Modell vom nächsten Token ist. Ein Modell, das region region region region ausgibt, wirkt von seiner eigenen Ausgabe unüberrascht (es hat jedes Mal dasselbe Wort vorhergesagt). Der numerische Verlust kann niedrig bleiben, während die semantische Qualität zusammenbricht.
Die v2-Lösung
sample_every = 100 Schritte. Generiere 420 freie Token. Kohärenz-gesteuertes Early-Stopping bewertet jede Probe auf Bigram-Diversität, Trigram-Diversität, Englisch-Wort-Präsenz & Zeichen-Diversität (Skala 0-100). Automatischer Halt nach 5 aufeinanderfolgenden Proben unter 30. Rückgetestet auf v1: hätte bei Schritt 132K ausgelöst, 3,8 Tage gespart.
Das Lesen von Proben ist nicht optional. Das Lesen von Proben ist der Weg, wie wir wissen, dass Verlust etwas bedeutet.
Verlust vs. Probenqualität
ppl = exp(loss)
Die Umwandlung
Cross-Entropy-Verlust wird in Nats berichtet. Perplexity berichtet die äquivalente Anzahl gleichwahrscheinlicher Token, die das Modell in jedem Schritt berücksichtigt. Umwandlung: ppl = exp(loss).
Zufällig über ein 8449-Token-Vokabular: loss = ln(8449) = 9,04, ppl = 8449. Auswendig gelernte perfekte Vorhersage: loss = 0, ppl = 1.
Eine Referenztabelle
| loss | ppl | Lesbarkeit |
|---|---|---|
| 9,04 | 8449 | zufällig über volles Vokabular |
| 5.00 | 148 | frühes Training, grundlegende Struktur |
| 3.00 | 20 | Lernen der Vokabelverteilung |
| 2.00 | 7 | kenntnisreich, aber unpräzise |
| 1.00 | 2.7 | Einhalten von Einschränkungen entsteht |
| 0.70 | 2 | Lehrbuch-Einzelzeiler |
| 0.30 | 1 | faktenbasiertes Abrufen, meist gemerkt |
| 0.13 | 1 | ALERT: gemerkter Teilstring |
| 0.00 | 1 | perfekte Memorierung |
Verlust pro Sample vs. EMA-Verlust
EMA-Verlust (exponentieller gleitender Durchschnitt über viele Schritte) berichtet über die allgemeine Trainingsgesundheit. Verlust pro Sample berichtet über die Qualität eines spezifischen Samples. Die beiden weichen auseinander: EMA könnte bei 2.0 liegen, während einzelne Samples je nach ausgewähltem Prompt des Banditen überall zwischen 0.13 und 4.0 landen.
Das Lesen des Verlusts einzelner Samples ist, wie wir Ausreißer erkennen. EMA-Verlust sagt uns nichts darüber, ob ein Sample eine Repo-Docs-Substring auswendig gelernt hat; Verlust pro Sample schon.
Drei Verlustwerte lesen
Durch das Audit-Fenster laufen
Ein 700-Schritte-Fenster
Zwischen Schritt 111.996 & 112.668 produzierte ANDREA-120M Beispiele, die sechs unzusammenhängende Wissensdomänen abdecken. Jede landet in einer Loss-Stufe:
Tier 1: Faktenwiedergabe (loss 0.30, ppl 1)
step 112,584, biology
> [extinction prompt]
> < black spider montano is alive, carolina parakeet is extinct.
Zwei korrekte Fakten. Carolina Sittich 1939 für ausgestorben erklärt; Schwarzspinnenaffe noch existent. ppl 1 bedeutet, das Modell hat bei jedem Schritt das richtige Token gewählt. Externe Bewertung: 9.5/10.
Stufe 2: Lehrbuch-Einzeiler (Verlust 0.74, ppl 2)
Schritt 112,668, Signalverarbeitung
> [Fourier transform prompt]
> < Die Fourier-Transformation zerlegt Signale in Frequenzkomponenten auf, was die Analyse von Signalcharakteristika und das Filtern im Frequenzbereich ermöglicht.
Eine Lehrbuch-Ein-Satz-Definition. Zeit-zu-Frequenz-Zerlegung mit korrekten Anwendungsterminen. Externe Bewertung: 9.5/10.
Tier 3: Einhalten von Einschränkungen (loss 1.05, ppl 3)
Schritt 112,248, Poesie
> Schreibe ein Haiku über Regen mit drei Wörtern, die mit „r“ anfangen.
> < Regen’s rhythmischer Refrain, Rinnsale am Fenster, Ruhe vor Lebenspein.
Drei „r“-Wörter (Regen, Rinnsale, Ruhe), drei Zeilen, Haiku-Struktur erhalten, semantische Kohärenz um Regen. ppl 3 = das Modell hat bei jedem Schritt einige Kandidaten in Betracht gezogen, aber ist innerhalb der Einschränkung geblieben.
Tier 4: Kenntnisreich, aber ungenau (Verlust 1,94, ppl 7)
Schritt 112.500, Python-Tools
> Wie finde ich veraltete Pakete in einem Python-Projekt?
> < Verwende pip list --outdated Namen, um die pip-Pakete in deinem Projektmanagement zu sehen, oder sollte es über pyenv sein, um mehr automatische Pakete zu bekommen.
Richtiger Kernel-Befehl (pip list --outdated) entsteht aus Trainingsdaten. Flüssigkeit der Formulierung entwickelt sich noch. Geringe Verwechslung: pyenv verwaltet Python-Versionen, nicht Pakete. ppl 7 bedeutet, das Modell hielt ~7 plausible Fortsetzungen für jeden Schritt für möglich; nicht alle waren präzise korrekt.
Tier 5: ALERT, Auswendig gelernter Teilstring (loss 0.13, ppl 1)
step 112.080, anomal
Loss 0.13 liegt UNTER dem Lehrbuch-Tier. Das Modell ist bei dieser Probe zu selbstsicher. Diagnose: ein auswendig gelernter repo-docs-Teilstring, kein gelernter Chat. Der Bandit hat einen Zombie-repo-docstrings-Arm mit Gewicht 1.546 aus einem früheren Run-Zustand gezogen, & die Probe hat einen wörtlichen Chunk der Trainingsdaten reproduziert.
Anomal niedriger Loss ist eine Memorization-Warnung, kein Qualitätssignal. Unter 0.20 bedeutet: prüfen, ob das Modell generiert oder kopiert.
Sechs Domänen in 700 Schritten
Biologie (Wellensittich), Signalverarbeitung (Fourier), Poesie (Haiku), Python-Tools (pip), konversationeller Dialog, Ops-Dialog. Sechs unverbundene Domänen innerhalb von 700 Schritten zeigen uns, dass der Bandit vielfältige Arbeit leistet und nicht an einer Quelle feststeckt. Domänenbreite IST ein Qualitätsmetrik.
Diagnose von drei Proben
Warum Proben externen Blicken unterziehen
Was die externe Bewertung erfasst hat
Interne Probenprüfung sagte uns, dass das Modell Biologie, Signalverarbeitung, Poesie & Python auf Abruf produziert. Externe Chat-Qualitätsbewertung bewertete diese Proben mit '9.5/10' & 'über seinen Wissensaufgaben-Niveau hinausgehend bei dieser Skala'.
Interne Überprüfung beantwortet: Hat der Bandit vielfältige Arbeit geleistet? Externe Überprüfung beantwortet: Würde ein menschlicher Leser diese Ausgaben als gut bewerten?
Warum beide wichtig sind
Interne Prüfung erfasst strukturelle Fehler: Wiederholungskollaps, Memorierungsspitzen, niedrig-diverse Zombie-Arme. Loss-Stufen, n-gram-Diversität & Domänenbreite sind alle vom Proxy beobachtbar.
Externe Bewertung erfasst semantische Qualitätsmängel: selbstbewusst-falsche Fakten, holprige Formulierungen, verpasste Nuancen. Keine davon taucht in den Loss-Zahlen auf.
Methodik
ANDREA's Training-Dashboard unter training.ai.unturf.com/dashboard ist absichtlich öffentlich & schreibgeschützt. Jeder kann .loss.json, .samples.json & Bandit-Zustand in Echtzeit abfragen. Externe Gutachter hatten Zugriff auf dieselben Daten wie der Betreiber.
9,5/10 von einem unabhängigen Leser, bei Samples aus Schritt 112.584 von 200.000, mit vollständiger Herkunftsnachweis: dieses Ergebnis ist reproduzierbar, prüfbar & nicht manipulierbar. Dieselben Samples, dieselben Loss-Werte, derselbe Bandit-Zustand sind für jeden sichtbar, der hinsieht.
Zwei unabhängige Signale
Intern: niedriger Verlust + hohe Diversität + Multi-Domain-Abdeckung = Bandit gesund.
Extern: 9.5/10 von unabhängigem Rezensenten = Ausgabebewertungen gut.
Beide stimmen überein: Das Training konvergiert auf faktenbasiertes Abrufen, Einhaltung von Einschränkungen & Kohärenz über mehrere Absätze. Wenn sie auseinanderdriften würden (niedriger Verlust, aber extern 3/10), hätten wir ein Problem mit Metrik-Manipulation, das untersucht werden müsste.
Zwei Signale, eine Diagnose
Fünf Schritte pro Audit-Fenster
Ein Audit, fünf Überprüfungen
1. Lesen Sie die Loss-Stufe. ppl = exp(loss). Abgleichen mit der Fünf-Stufen-Tabelle.
2. Auf Ausreißer unter 0,20 prüfen. Memorierungs-Signal. Untersuchen, bevor als Qualitätsresultat behandelt.
3. Den tatsächlichen Beispieltext lesen. Loss-Zahlen können nicht sagen, was die Ausgabe enthält. Lesen Sie es.
4. Domänenbreite zählen. Sechs unverbundene Domänen in 700 Schritten = Bandit gesund. Eine Domäne 7-mal wiederholt = Bandit feststeckt.
5. Mit externer Bewertung vergleichen. Wenn Ihre Probe für Sie gut aussieht, bitten Sie jemanden außerhalb des Laufs, sie zu lesen. Ihre Uneinigkeit ist Information.
Worauf das Bezug nimmt
- Activity 22 (grow_a_language_model_checkpoints). sample_every-Kadenz stimmt mit Checkpoint-Kadenz überein; beide feuern alle 100 Schritte.
- Activity 21 (coherence-gated early stopping). Diversitätsmetriken, die das Training automatisch stoppen, wenn Proben kollabieren.
- Activity 24 (grow_a_language_model_microgpt_to_andrea). v1-Kollaps, v2.5-Kontamination, v3-Poliermittel alle erkannt (oder hätten erkannt werden können) durch Probe-Audit.
Eine Wahrheit
Loss ist eine Zahl. Das Lesen von Samples zeigt uns, was die Zahl bedeutet.