un — Groeie een Taalmodel: Voorbeeld Audit & Externe Beoordeling [DESCRIPTION /]

un

gast

1 / ?

terug naar lessen

Les van v1: Loss Ziet Er Goed Uit, Output Is Afval

Een Waarschuwend Verhaal

ANDREA-120M v1 bereikte EMA loss 3.43 op stap 110K, ver onder random kans (ln(8449) = 9.04). Het getal zag er respectabel uit. De samples niet.

stap 80K: regio regio regio regio regio regio regio
stap 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
stap 140K: spellen, spellen, spellen, spellen, spellen, spellen
stap 165K: Buddy Buddy Buddy Buddy Buddy Buddy Buddy Buddy

v1 had geen sample monitoring aangesloten. Het model produceerde herhalingslus-vuilnis vanaf stap 80K & de training ging nog 85K stappen door voordat iemand het opmerkte. 10+ dagen rekenkracht verspild omdat niemand de output las.

Wat Verlies Verbergt

Cross-entropy verlies meet hoe verrast het model is door het volgende token. Een model dat region region region region uitzendt, lijkt niet verrast door zijn eigen output (het voorspelde hetzelfde woord elke keer). Numeriek verlies kan laag blijven terwijl semantische kwaliteit instort.

De v2 Oplossing

sample_every = 100 stappen. Genereer 420 vrije-vorm tokens. Coherentie-gegate vroege stopping scoort elk sample op bigram diversiteit, trigram diversiteit, aanwezigheid van Engelse woorden, & karakter diversiteit (schaal 0-100). Automatisch stoppen na 5 opeenvolgende samples met score onder 30. Teruggetest op v1: zou zijn geactiveerd op stap 132K, 3,8 dagen bespaard.

Samples lezen is niet optioneel. Samples lezen is hoe we weten dat verlies iets betekent.

Verlies vs Sample Kwaliteit

v1 bereikte EMA-verlies 3.43 (ver onder willekeurig 9.04) maar gaf 'region region region' uit. Leg uit in twee delen: (a) HOE kan het verlies numeriek redelijk blijven terwijl de output instort tot herhaling? (b) WELKE structurele fix in v2 vangt dit op zonder dat een mens elke sample hoeft te lezen?

ppl = exp(verlies)

De Conversie

Cross-entropy verlies rapporteert in nats. Perplexity rapporteert het equivalente aantal even waarschijnlijke tokens dat het model op elke stap overweegt. Conversie: ppl = exp(verlies).

Willekeurig over een vocabulaire van 8449 tokens: loss = ln(8449) = 9.04, ppl = 8449. Perfecte voorspelling uit het hoofd geleerd: loss = 0, ppl = 1.

Een Referentietabel

loss	ppl	Lezen
9.04	8449	willekeurig over volledig vocabulaire
5.00	148	vroege training, basisstructuur
3.00	20	leren van woordenschatverdeling
2.00	7	deskundig maar onnauwkeurig
1.00	2.7	opkomen van constraint-volging
0.70	2	tekstboek one-liner
0.30	1	feitelijke herinnering, grotendeels gememoriseerd
0.13	1	ALARM: gememoriseerde subreeks
0.00	1	perfecte memorisatie

Per-Sample Loss vs EMA Loss

EMA loss (exponentieel gewogen voortschrijdend gemiddelde over vele stappen) rapporteert de algemene trainingsgezondheid. Per-sample loss rapporteert de kwaliteit van één specifiek sample. De twee wijken af: EMA kan op 2.0 blijven hangen terwijl individuele samples ergens tussen 0.13 en 4.0 landen afhankelijk van welke prompt de bandit selecteerde.

Het lezen van individuele sample loss is hoe we outliers opvangen. EMA loss vertelt ons niets over of één sample een repo-docs substring heeft gememoriseerd; per-sample loss wel.

Drie Loss Waarden Lezen

ANDREA-120M produceerde drie samples kort na elkaar op stap 112,584-112,668. (a) loss 0.30 ppl ?; (b) loss 0.74 ppl ?; (c) loss 1.94 ppl ?. Bereken elke ppl, en geef dan het kwaliteitsniveau aan dat elk vertegenwoordigt (memorized / textbook / constraint / imprecise).

Door de Audit Window Lopen

Een 700-Stap Window

Tussen stap 111,996 & 112,668 produceerde ANDREA-120M samples die zes niet-gerelateerde kennisgebieden bespanden. Elke landt in een loss tier:

Sample Audit Loss Tiers

Tier 1: Feitelijke Herinnering (loss 0.30, ppl 1)

stap 112.584, biologie

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

Twee correcte feiten. Carolina parkiet uitgeroepen tot uitgestorven in 1939; black spider monkey nog in leven. ppl 1 betekent dat het model op elke stap het juiste token koos. Externe beoordeling: 9.5/10.

Tier 2: Textbook One-Liner (verlies 0.74, ppl 2)

stap 112.668, signaalverwerking

> [Fourier transform prompt]

> < De Fouriertransformatie ontleedt signalen in frequentiecomponenten, waardoor analyse van signaalkenmerken en filtering in het frequentiedomein mogelijk is.

Een tekstboekdefinitie in één zin. Ontleding van tijd naar frequentie met correcte toepassingsbegrippen. Externe beoordeling: 9.5/10.

Tier 3: Beperking Volgen (verlies 1.05, ppl 3)

stap 112,248, poëzie

> Schrijf een haiku over regen met drie woorden die beginnen met 'r'.

> < Regen’s ritmische refrein, Riviertjes op het raam, Rust van levenspijn.

Drie 'r'-woorden (Regen, Riviertjes, Rust), drie regels, haiku-structuur behouden, semantische samenhang rond regen. ppl 3 = het model overwoog een paar kandidaten per stap maar bleef binnen de beperking.

Tier 4: Deskundig maar Onnauwkeurig (verlies 1.94, ppl 7)

stap 112.500, python tools

> Hoe vind ik verouderde pakketten in een Python-project?

> < Gebruik pip list --outdated names om de pip-pakkettenlijst in je projectmanagement te zien, of zou het via pyenv moeten zijn om meer automatische pakketten te krijgen.

Juiste kernelopdracht (pip list --outdated) komt uit trainingsdata. Vloeiendheid van formulering ontwikkelt zich nog. Kleine verwarring: pyenv beheert Python-versies, niet pakketten. ppl 7 betekent dat het model ~7 plausibele voortzettingen overwoog op elke stap; niet allemaal waren precies correct.

Tier 5: ALERT, Geheugen Substring (loss 0.13, ppl 1)

stap 112.080, anomalistisch

Loss 0.13 ligt ONDER de textbook tier. Het model is te自信 op dit sample. Diagnose: een gememoriseerde repo-docs substring, geen geleerde chat. De bandit trok een zombie repo-docstrings arm met gewicht 1.546 uit een eerdere run state, & het sample reproduceerde een verbatim chunk van training data.

Anomalistisch lage loss is een memorisatie waarschuwing, geen kwaliteitsignaal. Onder 0.20 betekent: controleer of het model genereert of kopieert.

Zes Domeinen in 700 Stappen

Biologie (parkiet), signaalverwerking (Fourier), poëzie (haiku), python-tools (pip), conversationeel dialoog, ops-dialoog. Zes niet-gerelateerde domeinen binnen 700 stappen vertelt ons dat de bandit divers werk doet, niet vastzit op één bron. Domeinbreedte IS een kwaliteitsmetric.

Diagnose van Drie Voorbeelden

Drie nieuwe voorbeelden landen in je auditvenster. (a) loss 0.40, genereert 'photosynthesis converts sunlight into chemical energy in chloroplasts'. (b) loss 0.10, genereert een verbatim chunk van een Python-docstring. (c) loss 1.30, genereert een sonnet dat ABAB-rijmschema volgt maar met één licht geforceerd rijm. Voor elk, noem het kwaliteitsniveau & geef je actie aan: ACCEPT (echte learning), INVESTIGATE (anomalie-signaal), of ACCEPT_WITH_NOTE (onvolmaakt maar bandit gezond).

Waarom Monsters Indienen bij Buitenstaanders

Wat Externe Beoordeling Oppikte

Interne monstercontrole vertelde ons dat het model biologie, signaalverwerking, poëzie en python op verzoek produceerde. Externe chat-kwaliteitsbeoordeling gaf die monsters '9.5/10' en 'presteert boven zijn gewicht op kennisgerichte taken op deze schaal'.

Interne beoordeling beantwoordt: deed de bandit divers werk? Externe beoordeling beantwoordt: zou een menselijke lezer deze outputs als goed beoordelen?

Waarom Beide Belangrijk Zijn

Interne controle detecteert structurele falen: herhalingseffect, memorisatiesprongen, laag-diverse zombiearmen. Loss tiers, n-gram diversiteit en domeinbreedte zijn allemaal observeerbaar vanaf de proxy.

Externe beoordeling vangt semantische kwaliteitsfouten op: zelfverzekerd-foute feiten, onhandige formuleringen, gemiste nuances. Geen van die verschijnt in verliescijfers.

Methodologie

Het trainingdashboard van ANDREA op training.ai.unturf.com/dashboard is opzettelijk openbaar & alleen-lezen. Iedereen kan .loss.json, .samples.json en de bandit-staat in real time opvragen. Externe beoordelaars hadden toegang tot dezelfde data als de operator.

9.5/10 van een onafhankelijke lezer, op samples getrokken op stap 112.584 van 200.000, met volledige herkomst: dat resultaat is reproduceerbaar, controleerbaar & niet manipuleerbaar. Dezelfde samples, dezelfde verlieswaarden, dezelfde bandit-staat zijn zichtbaar voor iedereen die kijkt.

Twee Onafhankelijke Signalen

Intern: lage loss + hoge diversiteit + multi-domein dekking = bandit gezond.

Extern: 9.5/10 van onafhankelijke reviewer = outputkwaliteit als goed.

Beide komen overeen: training convergeert naar feitelijke recall, constraint-volging, & multi-paragraaf coherentie. Als ze uiteenlopen (lage loss maar extern beoordeeld 3/10), zouden we een metric-gaming probleem hebben om te onderzoeken.

Twee Signalen, Eén Diagnose

Stel je voor dat ANDREA-samples externe beoordeling krijgen op stap 100K & stap 150K. (a) Stap 100K: interne EMA loss 2.5, n-gram diversiteit 70/100, externe beoordeling 3/10. Wat suggereert de kloof tussen intern & extern? (b) Stap 150K: interne EMA loss 2.0, diversiteit 85/100, extern 9/10. Wat suggereert de overeenstemming van intern & extern? Geef één zin per scenario.

Vijf Stappen Per Audit Venster

Eén Audit, Vijf Controls

1. Lees de loss tier. ppl = exp(loss). Vergelijk met de vijf-tier tabel.

2. Controleer op sub-0.20 outliers. Memorization signaal. Onderzoek voordat je het als kwaliteitsresultaat behandelt.

3. Lees de daadwerkelijke sample tekst. Loss getallen kunnen niet vertellen wat de output zegt. Lees het.

4. Tel domeinbreedte. Zes niet-gerelateerde domeinen in 700 stappen = bandit gezond. Eén domein herhaald 7 keer = bandit vastgelopen.

5. Vergelijk met externe beoordeling. Als jouw sample er goed uitziet voor jou, vraag iemand buiten de run om het te lezen. Hun onenigheid is informatie.

Waar Dit Op Aansluit

- Activity 22 (grow_a_language_model_checkpoints). sample_every cadence sluit aan bij checkpoint cadence; beide activeren elke 100 stappen.

- Activity 21 (coherence-gated early stopping). Diversiteitsmetrics die training automatisch stoppen wanneer samples instorten.

- Activity 24 (grow_a_language_model_microgpt_to_andrea). v1 instorting, v2.5 contaminatie, v3 polijsten allemaal gevangen (of hadden kunnen worden gevangen) door sample audit.

Eén Waarheid

Verlies is een getal. Het lezen van samples is hoe we weten wat het getal betekent.

Wat Ga Je Bekijken?

Van de vijf auditcontroles (verliesniveau, sub-0.20 uitschieters, sampletekst, domeinbreedte, externe beoordeling), welke zou je de hoogste prioriteit geven als je je eigen model trainde? Kies er één met 2-3 zinnen redenering.