Stappen 0-20K: Een Beperkt Dieet
Twee Fasen, Eén Run
Het v2 firehose-curriculum verloopt in twee fasen binnen een enkele 200K-stap training run:
Fase A (stappen 0 tot 20K). Bandit trekt alleen uit 7 chat- & proza-bronnen:
- hermes3-general
- hermes3-creative
- hermes3-roleplay
- chat
- smoltalk
- oasst
- gutenberg
Fase B (stappen 20K tot 200K). Bandit trekt uit de volledige mix, alle 16 bronnen, inclusief referentie (dictionary), technisch (repo-docs, repo-commits), & sociaal (irc, unweapon).
Wat de Beperkte Dieet Deelt
Zes van de zeven warmup-bronnen zijn conversationeel. Eén (gutenberg) is paragraafproza. Samen delen ze een gemeenschappelijke vorm: beurtstructuur (prompt dan response) of narratieve flow. Woordenschatdistributie over de 7 bronnen ziet er ruwweg normaal Engels uit; cross-entropy-doelen blijven in een stabiel bereik; gradientgrootte blijft voorspelbaar.
Config Field
"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]
Identificeer de Warmup-fase
Hoe v1 Eruitzag Zonder Warmup
v1: Alle 16 Bronnen vanaf Stap 0
De eerste ANDREA-120M trainingrun (maart-april 2026) activeerde de volledige vuurstraal vanaf stap 0: 16 bronnen, inclusief dictionary (88K woorddefinities in > define X / < X is... vorm), repo-docs (markdown-documentatie), repo-docstrings (Python-docstrings), & repo-commits (git commit-berichten naast chat & proza).
Wat Ging Er Mis
Een pas geïnitialiseerd 120M-model met willekeurige gewichten kan niet tegelijkertijd 16 verschillende verdelingen modelleren. Elke batch van een structureel verschillende bron produceert een andere gradiënt richting. Bronovergangen elke 7-42 stappen veroorzaakten wilde schommelingen in gradiëntgroottes; het model sprong tussen attractoren sneller dan het representaties kon vormen.
Bij stap 80K produceerde v1: region region region region region region region. Hermes3-general teacher distillation rewards (gemiddelde 340-453) maakten repetitieve lijst-gestructureerde bronnen het hoogst scoren op cross-entropy, wat de bandit interpreteerde als 'deze armen zijn makkelijk.' De bandit voerde het model meer van wat het deed degenereren.
Waarom Beperken tot 7 Bronnen Helpt
1. Verdelingsovereenkomst. Alle 7 warmup-bronnen produceren tekst van vergelijkbare vorm (turn-structuur of narratief). Gradiënt richtingen over batches blijven ruwweg uitgelijnd.
2. Coherentie eerst. Het model leert woordfrequentie, syntactische patronen & gespreksstructuur voordat het definitielijsten, code of git-berichten tegenkomt.
3. Stabiel curriculum. Bandit-beloningsignalen over 7 chat/proza-bronnen blijven in een vergelijkbaar bereik; UCB1-selectie wordt niet gekaapt door een enkel anomalistisch-belonende bron.
Wanneer Fase B Activeert
Bij stap 20K heeft het model ~40-50 samples geproduceerd (één per 100 stappen), toont coherent Engels in samples, & heeft stabiele bigram- & trigram-distributies opgebouwd. Nu kan het het patroon > define X / < X is... van het woordenboek, codeblokken van repo-docs, & git-commitkoppen absorberen zonder de onderliggende chatstructuur te verliezen.
Diagnoseer het Mislukken van v1
v3 Polish Stelt curriculum_warmup_steps = 0 in
Een Ander Startpunt
De v3 polish-pivot op stap 112.619 hervatte de training vanaf step_112600.bin met curriculum_warmup_steps ingesteld op 0. Op het eerste gezicht lijkt dit een tegenstelling: als warmup v2 hielp, waarom het dan uitschakelen voor de polish-fase?
Omdat het Model Al Coherentie Heeft Geleerd
Fase A koopt tijd voor een pas geïnitialiseerd model om woordenschatfrequentie, beurtstructuur en alinea-coherentie te leren. Tegen stap 112K heeft het model dat allemaal al gedaan. Steekproefcontroles bij 112K toonden coherente gespreksbeurten, haiku, V&A en dialogen. Het oorspronkelijke doel van opwarmen (bescherming van een fragiel nieuw model tegen gradiëntchaos) is niet langer van toepassing.
Polish Herwicht, Start Niet Opnieuw
Polish is een curriculumverstoring, geen nieuwe run. Hetzelfde 200K-doel, dezelfde architectuur, dezelfde optimalisatorstatus, dezelfde verliesgeschiedenis. Wat verandert: bronplafonds en -vloeren worden herwogen om conversatie te bevoordelen boven kennisarmen. Met het model al coherent, is elke actieve bron vanaf stap 112.619 eerlijk spel.
Samenvattingstabel
| Fase | curriculum_warmup_steps | Waarom |
|---|---|---|
| v1 | (niet aanwezig) | Alle 16 bronnen vanaf stap 0 -> collaps |
| v2 (stappen 0-200K) | 20.000 | Bescherm nieuw geïnitialiseerde gewichten tegen gradiëntchaos |
| v3 base (stappen 0-112K) | 20.000 | Zelfde bescherming als v2 |
| v3 polish (stappen 112K-200K) | 0 | Model al coherent; geen fragiele-init-fase om te beschermen |