Les van v1: Loss Ziet Er Goed Uit, Output Is Afval
Een Waarschuwend Verhaal
ANDREA-120M v1 bereikte EMA loss 3.43 op stap 110K, ver onder random kans (ln(8449) = 9.04). Het getal zag er respectabel uit. De samples niet.
stap 80K: regio regio regio regio regio regio regio
stap 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
stap 140K: spellen, spellen, spellen, spellen, spellen, spellen
stap 165K: Buddy Buddy Buddy Buddy Buddy Buddy Buddy Buddy
v1 had geen sample monitoring aangesloten. Het model produceerde herhalingslus-vuilnis vanaf stap 80K & de training ging nog 85K stappen door voordat iemand het opmerkte. 10+ dagen rekenkracht verspild omdat niemand de output las.
Wat Verlies Verbergt
Cross-entropy verlies meet hoe verrast het model is door het volgende token. Een model dat region region region region uitzendt, lijkt niet verrast door zijn eigen output (het voorspelde hetzelfde woord elke keer). Numeriek verlies kan laag blijven terwijl semantische kwaliteit instort.
De v2 Oplossing
sample_every = 100 stappen. Genereer 420 vrije-vorm tokens. Coherentie-gegate vroege stopping scoort elk sample op bigram diversiteit, trigram diversiteit, aanwezigheid van Engelse woorden, & karakter diversiteit (schaal 0-100). Automatisch stoppen na 5 opeenvolgende samples met score onder 30. Teruggetest op v1: zou zijn geactiveerd op stap 132K, 3,8 dagen bespaard.
Samples lezen is niet optioneel. Samples lezen is hoe we weten dat verlies iets betekent.
Verlies vs Sample Kwaliteit
ppl = exp(verlies)
De Conversie
Cross-entropy verlies rapporteert in nats. Perplexity rapporteert het equivalente aantal even waarschijnlijke tokens dat het model op elke stap overweegt. Conversie: ppl = exp(verlies).
Willekeurig over een vocabulaire van 8449 tokens: loss = ln(8449) = 9.04, ppl = 8449. Perfecte voorspelling uit het hoofd geleerd: loss = 0, ppl = 1.
Een Referentietabel
| loss | ppl | Lezen |
|---|---|---|
| 9.04 | 8449 | willekeurig over volledig vocabulaire |
| 5.00 | 148 | vroege training, basisstructuur |
| 3.00 | 20 | leren van woordenschatverdeling |
| 2.00 | 7 | deskundig maar onnauwkeurig |
| 1.00 | 2.7 | opkomen van constraint-volging |
| 0.70 | 2 | tekstboek one-liner |
| 0.30 | 1 | feitelijke herinnering, grotendeels gememoriseerd |
| 0.13 | 1 | ALARM: gememoriseerde subreeks |
| 0.00 | 1 | perfecte memorisatie |
Per-Sample Loss vs EMA Loss
EMA loss (exponentieel gewogen voortschrijdend gemiddelde over vele stappen) rapporteert de algemene trainingsgezondheid. Per-sample loss rapporteert de kwaliteit van één specifiek sample. De twee wijken af: EMA kan op 2.0 blijven hangen terwijl individuele samples ergens tussen 0.13 en 4.0 landen afhankelijk van welke prompt de bandit selecteerde.
Het lezen van individuele sample loss is hoe we outliers opvangen. EMA loss vertelt ons niets over of één sample een repo-docs substring heeft gememoriseerd; per-sample loss wel.
Drie Loss Waarden Lezen
Door de Audit Window Lopen
Een 700-Stap Window
Tussen stap 111,996 & 112,668 produceerde ANDREA-120M samples die zes niet-gerelateerde kennisgebieden bespanden. Elke landt in een loss tier:
Tier 1: Feitelijke Herinnering (loss 0.30, ppl 1)
stap 112.584, biologie
> [extinction prompt]
> < black spider montano is alive, carolina parakeet is extinct.
Twee correcte feiten. Carolina parkiet uitgeroepen tot uitgestorven in 1939; black spider monkey nog in leven. ppl 1 betekent dat het model op elke stap het juiste token koos. Externe beoordeling: 9.5/10.
Tier 2: Textbook One-Liner (verlies 0.74, ppl 2)
stap 112.668, signaalverwerking
> [Fourier transform prompt]
> < De Fouriertransformatie ontleedt signalen in frequentiecomponenten, waardoor analyse van signaalkenmerken en filtering in het frequentiedomein mogelijk is.
Een tekstboekdefinitie in één zin. Ontleding van tijd naar frequentie met correcte toepassingsbegrippen. Externe beoordeling: 9.5/10.
Tier 3: Beperking Volgen (verlies 1.05, ppl 3)
stap 112,248, poëzie
> Schrijf een haiku over regen met drie woorden die beginnen met 'r'.
> < Regen’s ritmische refrein, Riviertjes op het raam, Rust van levenspijn.
Drie 'r'-woorden (Regen, Riviertjes, Rust), drie regels, haiku-structuur behouden, semantische samenhang rond regen. ppl 3 = het model overwoog een paar kandidaten per stap maar bleef binnen de beperking.
Tier 4: Deskundig maar Onnauwkeurig (verlies 1.94, ppl 7)
stap 112.500, python tools
> Hoe vind ik verouderde pakketten in een Python-project?
> < Gebruik pip list --outdated names om de pip-pakkettenlijst in je projectmanagement te zien, of zou het via pyenv moeten zijn om meer automatische pakketten te krijgen.
Juiste kernelopdracht (pip list --outdated) komt uit trainingsdata. Vloeiendheid van formulering ontwikkelt zich nog. Kleine verwarring: pyenv beheert Python-versies, niet pakketten. ppl 7 betekent dat het model ~7 plausibele voortzettingen overwoog op elke stap; niet allemaal waren precies correct.
Tier 5: ALERT, Geheugen Substring (loss 0.13, ppl 1)
stap 112.080, anomalistisch
Loss 0.13 ligt ONDER de textbook tier. Het model is te自信 op dit sample. Diagnose: een gememoriseerde repo-docs substring, geen geleerde chat. De bandit trok een zombie repo-docstrings arm met gewicht 1.546 uit een eerdere run state, & het sample reproduceerde een verbatim chunk van training data.
Anomalistisch lage loss is een memorisatie waarschuwing, geen kwaliteitsignaal. Onder 0.20 betekent: controleer of het model genereert of kopieert.
Zes Domeinen in 700 Stappen
Biologie (parkiet), signaalverwerking (Fourier), poëzie (haiku), python-tools (pip), conversationeel dialoog, ops-dialoog. Zes niet-gerelateerde domeinen binnen 700 stappen vertelt ons dat de bandit divers werk doet, niet vastzit op één bron. Domeinbreedte IS een kwaliteitsmetric.
Diagnose van Drie Voorbeelden
Waarom Monsters Indienen bij Buitenstaanders
Wat Externe Beoordeling Oppikte
Interne monstercontrole vertelde ons dat het model biologie, signaalverwerking, poëzie en python op verzoek produceerde. Externe chat-kwaliteitsbeoordeling gaf die monsters '9.5/10' en 'presteert boven zijn gewicht op kennisgerichte taken op deze schaal'.
Interne beoordeling beantwoordt: deed de bandit divers werk? Externe beoordeling beantwoordt: zou een menselijke lezer deze outputs als goed beoordelen?
Waarom Beide Belangrijk Zijn
Interne controle detecteert structurele falen: herhalingseffect, memorisatiesprongen, laag-diverse zombiearmen. Loss tiers, n-gram diversiteit en domeinbreedte zijn allemaal observeerbaar vanaf de proxy.
Externe beoordeling vangt semantische kwaliteitsfouten op: zelfverzekerd-foute feiten, onhandige formuleringen, gemiste nuances. Geen van die verschijnt in verliescijfers.
Methodologie
Het trainingdashboard van ANDREA op training.ai.unturf.com/dashboard is opzettelijk openbaar & alleen-lezen. Iedereen kan .loss.json, .samples.json en de bandit-staat in real time opvragen. Externe beoordelaars hadden toegang tot dezelfde data als de operator.
9.5/10 van een onafhankelijke lezer, op samples getrokken op stap 112.584 van 200.000, met volledige herkomst: dat resultaat is reproduceerbaar, controleerbaar & niet manipuleerbaar. Dezelfde samples, dezelfde verlieswaarden, dezelfde bandit-staat zijn zichtbaar voor iedereen die kijkt.
Twee Onafhankelijke Signalen
Intern: lage loss + hoge diversiteit + multi-domein dekking = bandit gezond.
Extern: 9.5/10 van onafhankelijke reviewer = outputkwaliteit als goed.
Beide komen overeen: training convergeert naar feitelijke recall, constraint-volging, & multi-paragraaf coherentie. Als ze uiteenlopen (lage loss maar extern beoordeeld 3/10), zouden we een metric-gaming probleem hebben om te onderzoeken.
Twee Signalen, Eén Diagnose
Vijf Stappen Per Audit Venster
Eén Audit, Vijf Controls
1. Lees de loss tier. ppl = exp(loss). Vergelijk met de vijf-tier tabel.
2. Controleer op sub-0.20 outliers. Memorization signaal. Onderzoek voordat je het als kwaliteitsresultaat behandelt.
3. Lees de daadwerkelijke sample tekst. Loss getallen kunnen niet vertellen wat de output zegt. Lees het.
4. Tel domeinbreedte. Zes niet-gerelateerde domeinen in 700 stappen = bandit gezond. Eén domein herhaald 7 keer = bandit vastgelopen.
5. Vergelijk met externe beoordeling. Als jouw sample er goed uitziet voor jou, vraag iemand buiten de run om het te lezen. Hun onenigheid is informatie.
Waar Dit Op Aansluit
- Activity 22 (grow_a_language_model_checkpoints). sample_every cadence sluit aan bij checkpoint cadence; beide activeren elke 100 stappen.
- Activity 21 (coherence-gated early stopping). Diversiteitsmetrics die training automatisch stoppen wanneer samples instorten.
- Activity 24 (grow_a_language_model_microgpt_to_andrea). v1 instorting, v2.5 contaminatie, v3 polijsten allemaal gevangen (of hadden kunnen worden gevangen) door sample audit.
Eén Waarheid
Verlies is een getal. Het lezen van samples is hoe we weten wat het getal betekent.