un — Ein Sprachmodell wachsen lassen: Beispiel-Audit & Externe Bewertung [DESCRIPTION /]

un

Gast

1 / ?

v1-Lektion: Loss sieht gut aus, Ausgabe ist Müll

Eine warnende Geschichte

ANDREA-120M v1 erreichte EMA-Loss 3.43 bei Schritt 110K, deutlich unter Zufall (ln(8449) = 9.04). Die Zahl sah respektabel aus. Die Samples nicht.

Schritt 80K: region region region region region region region
Schritt 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
Schritt 140K: games, games, games, games, games, games
Schritt 165K: Budy Budy Budy Budy Budy Budy Budy Budy

v1 hatte keine Sample-Monitoring verkabelt. Das Modell produzierte Wiederholungs-Schleifen-Müll ab Schritt 80K & das Training lief weitere 85K Schritte, bevor jemand es bemerkte. 10+ Tage Rechenleistung verschwendet, weil niemand die Ausgabe gelesen hat.

Was Verlust verbirgt

Der Cross-Entropy-Verlust misst, wie überrascht das Modell vom nächsten Token ist. Ein Modell, das region region region region ausgibt, wirkt von seiner eigenen Ausgabe unüberrascht (es hat jedes Mal dasselbe Wort vorhergesagt). Der numerische Verlust kann niedrig bleiben, während die semantische Qualität zusammenbricht.

Die v2-Lösung

sample_every = 100 Schritte. Generiere 420 freie Token. Kohärenz-gesteuertes Early-Stopping bewertet jede Probe auf Bigram-Diversität, Trigram-Diversität, Englisch-Wort-Präsenz & Zeichen-Diversität (Skala 0-100). Automatischer Halt nach 5 aufeinanderfolgenden Proben unter 30. Rückgetestet auf v1: hätte bei Schritt 132K ausgelöst, 3,8 Tage gespart.

Das Lesen von Proben ist nicht optional. Das Lesen von Proben ist der Weg, wie wir wissen, dass Verlust etwas bedeutet.

Verlust vs. Probenqualität

v1 erreichte EMA-Verlust 3.43 (deutlich unter zufälligem 9.04), emittierte aber 'region region region'. Erklären Sie in zwei Teilen: (a) WIE kann der Verlust numerisch vernünftig bleiben, während die Ausgabe in Wiederholung kollabiert? (b) WELCHE strukturelle Korrektur in v2 fängt das auf, ohne dass ein Mensch jede Probe lesen muss?

ppl = exp(loss)

Die Umwandlung

Cross-Entropy-Verlust wird in Nats berichtet. Perplexity berichtet die äquivalente Anzahl gleichwahrscheinlicher Token, die das Modell in jedem Schritt berücksichtigt. Umwandlung: ppl = exp(loss).

Zufällig über ein 8449-Token-Vokabular: loss = ln(8449) = 9,04, ppl = 8449. Auswendig gelernte perfekte Vorhersage: loss = 0, ppl = 1.

Eine Referenztabelle

loss	ppl	Lesbarkeit
9,04	8449	zufällig über volles Vokabular
5.00	148	frühes Training, grundlegende Struktur
3.00	20	Lernen der Vokabelverteilung
2.00	7	kenntnisreich, aber unpräzise
1.00	2.7	Einhalten von Einschränkungen entsteht
0.70	2	Lehrbuch-Einzelzeiler
0.30	1	faktenbasiertes Abrufen, meist gemerkt
0.13	1	ALERT: gemerkter Teilstring
0.00	1	perfekte Memorierung

Verlust pro Sample vs. EMA-Verlust

EMA-Verlust (exponentieller gleitender Durchschnitt über viele Schritte) berichtet über die allgemeine Trainingsgesundheit. Verlust pro Sample berichtet über die Qualität eines spezifischen Samples. Die beiden weichen auseinander: EMA könnte bei 2.0 liegen, während einzelne Samples je nach ausgewähltem Prompt des Banditen überall zwischen 0.13 und 4.0 landen.

Das Lesen des Verlusts einzelner Samples ist, wie wir Ausreißer erkennen. EMA-Verlust sagt uns nichts darüber, ob ein Sample eine Repo-Docs-Substring auswendig gelernt hat; Verlust pro Sample schon.

Drei Verlustwerte lesen

ANDREA-120M hat drei Samples in schneller Folge bei Schritt 112.584-112.668 produziert. (a) loss 0.30 ppl ?; (b) loss 0.74 ppl ?; (c) loss 1.94 ppl ?. Berechne jeden ppl-Wert, dann nenne die Qualitätsstufe, die jeder repräsentiert (memorized / textbook / constraint / imprecise).

Durch das Audit-Fenster laufen

Ein 700-Schritte-Fenster

Zwischen Schritt 111.996 & 112.668 produzierte ANDREA-120M Beispiele, die sechs unzusammenhängende Wissensdomänen abdecken. Jede landet in einer Loss-Stufe:

Sample Audit Loss Tiers

Tier 1: Faktenwiedergabe (loss 0.30, ppl 1)

step 112,584, biology

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

Zwei korrekte Fakten. Carolina Sittich 1939 für ausgestorben erklärt; Schwarzspinnenaffe noch existent. ppl 1 bedeutet, das Modell hat bei jedem Schritt das richtige Token gewählt. Externe Bewertung: 9.5/10.

Stufe 2: Lehrbuch-Einzeiler (Verlust 0.74, ppl 2)

Schritt 112,668, Signalverarbeitung

> [Fourier transform prompt]

> < Die Fourier-Transformation zerlegt Signale in Frequenzkomponenten auf, was die Analyse von Signalcharakteristika und das Filtern im Frequenzbereich ermöglicht.

Eine Lehrbuch-Ein-Satz-Definition. Zeit-zu-Frequenz-Zerlegung mit korrekten Anwendungsterminen. Externe Bewertung: 9.5/10.

Tier 3: Einhalten von Einschränkungen (loss 1.05, ppl 3)

Schritt 112,248, Poesie

> Schreibe ein Haiku über Regen mit drei Wörtern, die mit „r“ anfangen.

> < Regen’s rhythmischer Refrain, Rinnsale am Fenster, Ruhe vor Lebenspein.

Drei „r“-Wörter (Regen, Rinnsale, Ruhe), drei Zeilen, Haiku-Struktur erhalten, semantische Kohärenz um Regen. ppl 3 = das Modell hat bei jedem Schritt einige Kandidaten in Betracht gezogen, aber ist innerhalb der Einschränkung geblieben.

Tier 4: Kenntnisreich, aber ungenau (Verlust 1,94, ppl 7)

Schritt 112.500, Python-Tools

> Wie finde ich veraltete Pakete in einem Python-Projekt?

> < Verwende pip list --outdated Namen, um die pip-Pakete in deinem Projektmanagement zu sehen, oder sollte es über pyenv sein, um mehr automatische Pakete zu bekommen.

Richtiger Kernel-Befehl (pip list --outdated) entsteht aus Trainingsdaten. Flüssigkeit der Formulierung entwickelt sich noch. Geringe Verwechslung: pyenv verwaltet Python-Versionen, nicht Pakete. ppl 7 bedeutet, das Modell hielt ~7 plausible Fortsetzungen für jeden Schritt für möglich; nicht alle waren präzise korrekt.

Tier 5: ALERT, Auswendig gelernter Teilstring (loss 0.13, ppl 1)

step 112.080, anomal

Loss 0.13 liegt UNTER dem Lehrbuch-Tier. Das Modell ist bei dieser Probe zu selbstsicher. Diagnose: ein auswendig gelernter repo-docs-Teilstring, kein gelernter Chat. Der Bandit hat einen Zombie-repo-docstrings-Arm mit Gewicht 1.546 aus einem früheren Run-Zustand gezogen, & die Probe hat einen wörtlichen Chunk der Trainingsdaten reproduziert.

Anomal niedriger Loss ist eine Memorization-Warnung, kein Qualitätssignal. Unter 0.20 bedeutet: prüfen, ob das Modell generiert oder kopiert.

Sechs Domänen in 700 Schritten

Biologie (Wellensittich), Signalverarbeitung (Fourier), Poesie (Haiku), Python-Tools (pip), konversationeller Dialog, Ops-Dialog. Sechs unverbundene Domänen innerhalb von 700 Schritten zeigen uns, dass der Bandit vielfältige Arbeit leistet und nicht an einer Quelle feststeckt. Domänenbreite IST ein Qualitätsmetrik.

Diagnose von drei Proben

Drei neue Proben landen in deinem Audit-Fenster. (a) loss 0.40, erzeugt „photosynthesis converts sunlight into chemical energy in chloroplasts“. (b) loss 0.10, erzeugt einen wortwörtlichen Abschnitt aus einem Python-Docstring. (c) loss 1.30, erzeugt ein Sonett, das dem ABAB-Reimschema folgt, aber mit einem leicht erzwungenen Reim. Für jede nenne die Qualitätstier und gib deine Aktion an: **ACCEPT** (echtes Lernen), **INVESTIGATE** (Anomalie-Signal) oder **ACCEPT_WITH_NOTE** (unvollkommen, aber Bandit gesund).

Warum Proben externen Blicken unterziehen

Was die externe Bewertung erfasst hat

Interne Probenprüfung sagte uns, dass das Modell Biologie, Signalverarbeitung, Poesie & Python auf Abruf produziert. Externe Chat-Qualitätsbewertung bewertete diese Proben mit '9.5/10' & 'über seinen Wissensaufgaben-Niveau hinausgehend bei dieser Skala'.

Interne Überprüfung beantwortet: Hat der Bandit vielfältige Arbeit geleistet? Externe Überprüfung beantwortet: Würde ein menschlicher Leser diese Ausgaben als gut bewerten?

Warum beide wichtig sind

Interne Prüfung erfasst strukturelle Fehler: Wiederholungskollaps, Memorierungsspitzen, niedrig-diverse Zombie-Arme. Loss-Stufen, n-gram-Diversität & Domänenbreite sind alle vom Proxy beobachtbar.

Externe Bewertung erfasst semantische Qualitätsmängel: selbstbewusst-falsche Fakten, holprige Formulierungen, verpasste Nuancen. Keine davon taucht in den Loss-Zahlen auf.

Methodik

ANDREA's Training-Dashboard unter training.ai.unturf.com/dashboard ist absichtlich öffentlich & schreibgeschützt. Jeder kann .loss.json, .samples.json & Bandit-Zustand in Echtzeit abfragen. Externe Gutachter hatten Zugriff auf dieselben Daten wie der Betreiber.

9,5/10 von einem unabhängigen Leser, bei Samples aus Schritt 112.584 von 200.000, mit vollständiger Herkunftsnachweis: dieses Ergebnis ist reproduzierbar, prüfbar & nicht manipulierbar. Dieselben Samples, dieselben Loss-Werte, derselbe Bandit-Zustand sind für jeden sichtbar, der hinsieht.

Zwei unabhängige Signale

Intern: niedriger Verlust + hohe Diversität + Multi-Domain-Abdeckung = Bandit gesund.

Extern: 9.5/10 von unabhängigem Rezensenten = Ausgabebewertungen gut.

Beide stimmen überein: Das Training konvergiert auf faktenbasiertes Abrufen, Einhaltung von Einschränkungen & Kohärenz über mehrere Absätze. Wenn sie auseinanderdriften würden (niedriger Verlust, aber extern 3/10), hätten wir ein Problem mit Metrik-Manipulation, das untersucht werden müsste.

Zwei Signale, eine Diagnose

Stellen Sie sich vor, ANDREA-Samples erhalten externe Bewertung bei Schritt 100K & Schritt 150K. (a) Schritt 100K: interner EMA-Verlust 2.5, n-Gram-Diversität 70/100, externe Bewertung 3/10. Was deutet die Lücke zwischen intern & extern an? (b) Schritt 150K: interner EMA-Verlust 2.0, Diversität 85/100, extern 9/10. Was deutet die Übereinstimmung von intern & extern an? Geben Sie einen Satz pro Szenario.

Fünf Schritte pro Audit-Fenster

Ein Audit, fünf Überprüfungen

1. Lesen Sie die Loss-Stufe. ppl = exp(loss). Abgleichen mit der Fünf-Stufen-Tabelle.

2. Auf Ausreißer unter 0,20 prüfen. Memorierungs-Signal. Untersuchen, bevor als Qualitätsresultat behandelt.

3. Den tatsächlichen Beispieltext lesen. Loss-Zahlen können nicht sagen, was die Ausgabe enthält. Lesen Sie es.

4. Domänenbreite zählen. Sechs unverbundene Domänen in 700 Schritten = Bandit gesund. Eine Domäne 7-mal wiederholt = Bandit feststeckt.

5. Mit externer Bewertung vergleichen. Wenn Ihre Probe für Sie gut aussieht, bitten Sie jemanden außerhalb des Laufs, sie zu lesen. Ihre Uneinigkeit ist Information.

Worauf das Bezug nimmt

- Activity 22 (grow_a_language_model_checkpoints). sample_every-Kadenz stimmt mit Checkpoint-Kadenz überein; beide feuern alle 100 Schritte.

- Activity 21 (coherence-gated early stopping). Diversitätsmetriken, die das Training automatisch stoppen, wenn Proben kollabieren.

- Activity 24 (grow_a_language_model_microgpt_to_andrea). v1-Kollaps, v2.5-Kontamination, v3-Poliermittel alle erkannt (oder hätten erkannt werden können) durch Probe-Audit.

Eine Wahrheit

Loss ist eine Zahl. Das Lesen von Samples zeigt uns, was die Zahl bedeutet.

Was wirst du beobachten?

Von den fünf Audit-Checks (Loss-Tier, Sub-0.20-Outlier, Sample-Text, Domain-Breite, externe Bewertung), welchen würdest du die höchste Priorität geben, wenn du dein eigenes Modell trainierst? Wähle einen mit 2-3 Sätzen Begründung.