Schritte 0-20K: Eine eingeschränkte Diät
Zwei Phasen, ein Lauf
Das v2 Firehose-Curriculum läuft in zwei Phasen innerhalb eines einzigen 200K-Schritte-Trainingslaufs:
Phase A (Schritte 0 bis 20K). Bandit zieht nur aus 7 Chat- & Prosa-Quellen:
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- hermes3-general
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- hermes3-creative
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- hermes3-roleplay
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- chat
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- smoltalk
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- oasst
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- gutenberg
Phase B (Schritte 20K bis 200K). Bandit zieht aus der vollständigen Mischung, allen 16 Quellen, einschließlich Referenz (dictionary), technisch (repo-docs, repo-commits) & sozial (irc, unweapon).
Was die Restricted Diet teilt
Sechs der sieben Warmup-Quellen sind konversationell. Eine (gutenberg) ist Absatzprosa. Zusammen teilen sie eine gemeinsame Form: Turn-Struktur (Prompt dann Response) oder narrativer Fluss. Vokabelverteilung über die 7 Quellen sieht ungefähr normalem Englisch ähnlich; Cross-Entropy-Ziele bleiben in einem stabilen Bereich; Gradientengrößen bleiben vorhersehbar.
Konfigurationsfeld
"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]
Identifizieren Sie die Warmup-Phase
Wie v1 ohne Warmup aussah
v1: Alle 16 Quellen ab Schritt 0
Der erste ANDREA-120M-Training-Lauf (März-April 2026) aktivierte den vollen Feuerwehrschlauch ab Schritt 0: 16 Quellen, einschließlich dictionary (88K Wortdefinitionen im > define X / < X is...-Format), repo-docs (Markdown-Dokumentation), repo-docstrings (Python-Docstrings) & repo-commits (Git-Commit-Nachrichten neben Chat & Prose).
Was ist schiefgelaufen
Ein frisch initialisiertes 120M-Modell mit zufälligen Gewichten kann 16 unterschiedliche Verteilungen nicht gleichzeitig modellieren. Jeder Batch aus einer strukturell unterschiedlichen Quelle erzeugt eine andere Gradientenrichtung. Quellenwechsel alle 7-42 Schritte schwankten die Gradientengrößen wild; das Modell sprang zwischen Attraktoren schneller, als es Repräsentationen bilden konnte.
Bis Schritt 80K produzierte v1: region region region region region region region. Hermes3-general-Lehrerdestillation-Belohnungen (Mittelwert 340-453) machten repetitive listenstrukturierte Quellen am höchsten im Kreuzentropie-Wert, was der Bandit als „diese Arme sind einfach“ interpretierte. Der Bandit fütterte das Modell mehr von dem, was es degenerieren ließ.
Warum die Einschränkung auf 7 Quellen hilft
1. Ähnlichkeit der Verteilungen. Alle 7 Warmup-Quellen produzieren Text ähnlicher Form (Turn-Struktur oder Erzählung). Gradientenrichtungen über Batches hinweg bleiben ungefähr ausgerichtet.
2. Kohärenz zuerst. Das Modell lernt Vokalfrequenz, syntaktische Muster & Gesprächsstruktur, bevor es auf Definitionslisten, Code oder Git-Nachrichten trifft.
3. Stabiles Curriculum. Bandit-Belohnungssignale aus 7 Chat-/Prosa-Quellen bleiben in einem vergleichbaren Bereich; UCB1-Auswahl wird nicht von einer einzelnen anomal belohnenden Quelle übernommen.
Wann Phase B aktiviert wird
Beim Schritt 20K hat das Modell ~40-50 Samples produziert (eines pro 100 Schritte), zeigt kohärentes Englisch in den Samples & hat stabile Bigram- & Trigram-Verteilungen aufgebaut. Nun kann es das Muster des Wörterbuchs > define X / < X is... , die Code-Blöcke der Repo-Docs & Git-Commit-Header aufnehmen, ohne die darunterliegende Chat-Struktur zu verlieren.
Diagnose des Fehlschlags von v1
v3 Polish setzt curriculum_warmup_steps = 0
Ein anderer Ausgangspunkt
Der v3-Polish-Pivot im Schritt 112.619 nahm das Training von step_112600.bin mit curriculum_warmup_steps auf 0 wieder auf. Auf den ersten Blick wirkt das wie ein Widerspruch: Wenn Warmup v2 geholfen hat, warum deaktiviert man es in der Polish-Phase?
Weil das Modell bereits Kohärenz gelernt hat
Phase A verschafft einem frisch initialisierten Modell Zeit, um Vokabelhäufigkeiten, Rundenstruktur und Absatz-Kohärenz zu lernen. Bis Schritt 112K hat das Modell das bereits alles erledigt. Stichproben-Audits bei 112K zeigten kohärente Gesprächsrunden, Haikus, Q&A und Dialoge. Der ursprüngliche Zweck des Warmups (Schutz eines fragilen neuen Modells vor Gradienten-Chaos) gilt nicht mehr.
Polish gewichtet neu, startet nicht neu
Polish ist eine Störung des Curriculums, kein frischer Lauf. Dasselbe 200K-Ziel, gleiche Architektur, gleicher Optimizer-Zustand, gleiche Verlustgeschichte. Was sich ändert: Quellen-Ober- und Untergrenzen werden neu gewichtet, um Gespräche gegenüber Wissensarmen zu bevorzugen. Mit dem bereits kohärenten Modell ist jede aktive Quelle ab Schritt 112.619 fair game.
Zusammenfassungstabelle
| Phase | curriculum_warmup_steps | Warum |
|---|---|---|
| v1 | (nicht vorhanden) | Alle 16 Quellen ab Schritt 0 -> Kollaps |
| v2 (steps 0-200K) | 20.000 | Schutz frisch initialisierter Gewichte vor Gradienten-Chaos |
| v3 base (steps 0-112K) | 20.000 | Gleicher Schutz wie v2 |
| v3 polish (steps 112K-200K) | 0 | Modell bereits kohärent; kein fragiles Init-Regime zu schützen |