un — Grow een Language Model: Curriculum Opwarming [DESCRIPTION /]

un

gast

1 / ?

terug naar lessen

Stappen 0-20K: Een Beperkt Dieet

Twee Fasen, Eén Run

Het v2 firehose-curriculum verloopt in twee fasen binnen een enkele 200K-stap training run:

Fase A (stappen 0 tot 20K). Bandit trekt alleen uit 7 chat- & proza-bronnen:

- hermes3-general

- hermes3-creative

- hermes3-roleplay

- chat

- smoltalk

- oasst

- gutenberg

Fase B (stappen 20K tot 200K). Bandit trekt uit de volledige mix, alle 16 bronnen, inclusief referentie (dictionary), technisch (repo-docs, repo-commits), & sociaal (irc, unweapon).

Curriculum warmup timeline

Wat de Beperkte Dieet Deelt

Zes van de zeven warmup-bronnen zijn conversationeel. Eén (gutenberg) is paragraafproza. Samen delen ze een gemeenschappelijke vorm: beurtstructuur (prompt dan response) of narratieve flow. Woordenschatdistributie over de 7 bronnen ziet er ruwweg normaal Engels uit; cross-entropy-doelen blijven in een stabiel bereik; gradientgrootte blijft voorspelbaar.

Config Field

"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

Identificeer de Warmup-fase

Een trainingrun heeft 18.400 stappen uitgevoerd. Zonder naar de bandit-staat te kijken, kan het model dan hebben gesampled uit `dictionary` of `repo-docs`? Leg uit waarom wel of niet & citeer de configuratiewaarde die dit bepaalt.

Hoe v1 Eruitzag Zonder Warmup

v1: Alle 16 Bronnen vanaf Stap 0

De eerste ANDREA-120M trainingrun (maart-april 2026) activeerde de volledige vuurstraal vanaf stap 0: 16 bronnen, inclusief dictionary (88K woorddefinities in > define X / < X is... vorm), repo-docs (markdown-documentatie), repo-docstrings (Python-docstrings), & repo-commits (git commit-berichten naast chat & proza).

Wat Ging Er Mis

Een pas geïnitialiseerd 120M-model met willekeurige gewichten kan niet tegelijkertijd 16 verschillende verdelingen modelleren. Elke batch van een structureel verschillende bron produceert een andere gradiënt richting. Bronovergangen elke 7-42 stappen veroorzaakten wilde schommelingen in gradiëntgroottes; het model sprong tussen attractoren sneller dan het representaties kon vormen.

Bij stap 80K produceerde v1: region region region region region region region. Hermes3-general teacher distillation rewards (gemiddelde 340-453) maakten repetitieve lijst-gestructureerde bronnen het hoogst scoren op cross-entropy, wat de bandit interpreteerde als 'deze armen zijn makkelijk.' De bandit voerde het model meer van wat het deed degenereren.

Waarom Beperken tot 7 Bronnen Helpt

1. Verdelingsovereenkomst. Alle 7 warmup-bronnen produceren tekst van vergelijkbare vorm (turn-structuur of narratief). Gradiënt richtingen over batches blijven ruwweg uitgelijnd.

2. Coherentie eerst. Het model leert woordfrequentie, syntactische patronen & gespreksstructuur voordat het definitielijsten, code of git-berichten tegenkomt.

3. Stabiel curriculum. Bandit-beloningsignalen over 7 chat/proza-bronnen blijven in een vergelijkbaar bereik; UCB1-selectie wordt niet gekaapt door een enkel anomalistisch-belonende bron.

Wanneer Fase B Activeert

Bij stap 20K heeft het model ~40-50 samples geproduceerd (één per 100 stappen), toont coherent Engels in samples, & heeft stabiele bigram- & trigram-distributies opgebouwd. Nu kan het het patroon > define X / < X is... van het woordenboek, codeblokken van repo-docs, & git-commitkoppen absorberen zonder de onderliggende chatstructuur te verliezen.

Diagnoseer het Mislukken van v1

Een vers geïnitialiseerde 120M transformer traint op 16 structureel verschillende bronnen vanaf stap 0. Bij stap 80K lezen samples `region region region region region`. Verbind de ontwerpmogelijkheid zonder opwarmfase met deze specifieke faalmodus: noem het mechanisme waardoor 16 bronnen bij stap 0 een model doet instorten in herhaling van een enkel token. Eén of twee zinnen.

v3 Polish Stelt curriculum_warmup_steps = 0 in

Een Ander Startpunt

De v3 polish-pivot op stap 112.619 hervatte de training vanaf step_112600.bin met curriculum_warmup_steps ingesteld op 0. Op het eerste gezicht lijkt dit een tegenstelling: als warmup v2 hielp, waarom het dan uitschakelen voor de polish-fase?

Omdat het Model Al Coherentie Heeft Geleerd

Fase A koopt tijd voor een pas geïnitialiseerd model om woordenschatfrequentie, beurtstructuur en alinea-coherentie te leren. Tegen stap 112K heeft het model dat allemaal al gedaan. Steekproefcontroles bij 112K toonden coherente gespreksbeurten, haiku, V&A en dialogen. Het oorspronkelijke doel van opwarmen (bescherming van een fragiel nieuw model tegen gradiëntchaos) is niet langer van toepassing.

Polish Herwicht, Start Niet Opnieuw

Polish is een curriculumverstoring, geen nieuwe run. Hetzelfde 200K-doel, dezelfde architectuur, dezelfde optimalisatorstatus, dezelfde verliesgeschiedenis. Wat verandert: bronplafonds en -vloeren worden herwogen om conversatie te bevoordelen boven kennisarmen. Met het model al coherent, is elke actieve bron vanaf stap 112.619 eerlijk spel.

Samenvattingstabel

Fase	curriculum_warmup_steps	Waarom
v1	(niet aanwezig)	Alle 16 bronnen vanaf stap 0 -> collaps
v2 (stappen 0-200K)	20.000	Bescherm nieuw geïnitialiseerde gewichten tegen gradiëntchaos
v3 base (stappen 0-112K)	20.000	Zelfde bescherming als v2
v3 polish (stappen 112K-200K)	0	Model al coherent; geen fragiele-init-fase om te beschermen

Waarom het uitschakelen van Warmup bij Polish veilig is

Leg uit (in 2-3 zinnen) waarom het instellen van curriculum_warmup_steps = 0 bij de v3 polish-pivot NIET de v1-collaps recreëert, ook al hebben beide runs 'alle bronnen actief vanaf de huidige stap.' Verwijs naar de modelstatus bij stap 112K.