un — Ein Sprachmodell trainieren: Curriculum-Warmup [DESCRIPTION /]

un

Gast

1 / ?

zurück zu den Lektionen

Schritte 0-20K: Eine eingeschränkte Diät

Zwei Phasen, ein Lauf

Das v2 Firehose-Curriculum läuft in zwei Phasen innerhalb eines einzigen 200K-Schritte-Trainingslaufs:

Phase A (Schritte 0 bis 20K). Bandit zieht nur aus 7 Chat- & Prosa-Quellen:

[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]

- hermes3-general [BLOCK_TYPE CONTENT/two_phase/what_warmup_does]

- hermes3-creative [BLOCK_TYPE CONTENT/two_phase/what_warmup_does]

- hermes3-roleplay [BLOCK_TYPE CONTENT/two_phase/what_warmup_does]

- chat [BLOCK_TYPE CONTENT/two_phase/what_warmup_does]

- smoltalk [BLOCK_TYPE CONTENT/two_phase/what_warmup_does]

- oasst [BLOCK_TYPE CONTENT/two_phase/what_warmup_does]

- gutenberg

Phase B (Schritte 20K bis 200K). Bandit zieht aus der vollständigen Mischung, allen 16 Quellen, einschließlich Referenz (dictionary), technisch (repo-docs, repo-commits) & sozial (irc, unweapon).

Curriculum warmup timeline

Was die Restricted Diet teilt

Sechs der sieben Warmup-Quellen sind konversationell. Eine (gutenberg) ist Absatzprosa. Zusammen teilen sie eine gemeinsame Form: Turn-Struktur (Prompt dann Response) oder narrativer Fluss. Vokabelverteilung über die 7 Quellen sieht ungefähr normalem Englisch ähnlich; Cross-Entropy-Ziele bleiben in einem stabilen Bereich; Gradientengrößen bleiben vorhersehbar.

Konfigurationsfeld

"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

Identifizieren Sie die Warmup-Phase

Ein Training-Lauf hat 18.400 Schritte durchlaufen. Ohne auf den Bandit-Zustand zu schauen, kann das Modell von `dictionary` oder `repo-docs` gesampelt haben? Erklären Sie warum oder warum nicht & nennen Sie den Konfigurationswert, der das bestimmt.

Wie v1 ohne Warmup aussah

v1: Alle 16 Quellen ab Schritt 0

Der erste ANDREA-120M-Training-Lauf (März-April 2026) aktivierte den vollen Feuerwehrschlauch ab Schritt 0: 16 Quellen, einschließlich dictionary (88K Wortdefinitionen im > define X / < X is...-Format), repo-docs (Markdown-Dokumentation), repo-docstrings (Python-Docstrings) & repo-commits (Git-Commit-Nachrichten neben Chat & Prose).

Was ist schiefgelaufen

Ein frisch initialisiertes 120M-Modell mit zufälligen Gewichten kann 16 unterschiedliche Verteilungen nicht gleichzeitig modellieren. Jeder Batch aus einer strukturell unterschiedlichen Quelle erzeugt eine andere Gradientenrichtung. Quellenwechsel alle 7-42 Schritte schwankten die Gradientengrößen wild; das Modell sprang zwischen Attraktoren schneller, als es Repräsentationen bilden konnte.

Bis Schritt 80K produzierte v1: region region region region region region region. Hermes3-general-Lehrerdestillation-Belohnungen (Mittelwert 340-453) machten repetitive listenstrukturierte Quellen am höchsten im Kreuzentropie-Wert, was der Bandit als „diese Arme sind einfach“ interpretierte. Der Bandit fütterte das Modell mehr von dem, was es degenerieren ließ.

Warum die Einschränkung auf 7 Quellen hilft

1. Ähnlichkeit der Verteilungen. Alle 7 Warmup-Quellen produzieren Text ähnlicher Form (Turn-Struktur oder Erzählung). Gradientenrichtungen über Batches hinweg bleiben ungefähr ausgerichtet.

2. Kohärenz zuerst. Das Modell lernt Vokalfrequenz, syntaktische Muster & Gesprächsstruktur, bevor es auf Definitionslisten, Code oder Git-Nachrichten trifft.

3. Stabiles Curriculum. Bandit-Belohnungssignale aus 7 Chat-/Prosa-Quellen bleiben in einem vergleichbaren Bereich; UCB1-Auswahl wird nicht von einer einzelnen anomal belohnenden Quelle übernommen.

Wann Phase B aktiviert wird

Beim Schritt 20K hat das Modell ~40-50 Samples produziert (eines pro 100 Schritte), zeigt kohärentes Englisch in den Samples & hat stabile Bigram- & Trigram-Verteilungen aufgebaut. Nun kann es das Muster des Wörterbuchs > define X / < X is... , die Code-Blöcke der Repo-Docs & Git-Commit-Header aufnehmen, ohne die darunterliegende Chat-Struktur zu verlieren.

Diagnose des Fehlschlags von v1

Ein frisch initialisiertes 120M-Transformer-Modell trainiert ab Schritt 0 auf 16 strukturell unterschiedlichen Quellen. Bis Schritt 80K lauten die Samples `region region region region region`. Verbinden Sie die Designentscheidung ohne Warmup mit diesem spezifischen Fehlmodus: Nennen Sie den Mechanismus, durch den 16 Quellen ab Schritt 0 ein Modell zum Kollabieren in Single-Token-Wiederholung führt. Ein oder zwei Sätze.

v3 Polish setzt curriculum_warmup_steps = 0

Ein anderer Ausgangspunkt

Der v3-Polish-Pivot im Schritt 112.619 nahm das Training von step_112600.bin mit curriculum_warmup_steps auf 0 wieder auf. Auf den ersten Blick wirkt das wie ein Widerspruch: Wenn Warmup v2 geholfen hat, warum deaktiviert man es in der Polish-Phase?

Weil das Modell bereits Kohärenz gelernt hat

Phase A verschafft einem frisch initialisierten Modell Zeit, um Vokabelhäufigkeiten, Rundenstruktur und Absatz-Kohärenz zu lernen. Bis Schritt 112K hat das Modell das bereits alles erledigt. Stichproben-Audits bei 112K zeigten kohärente Gesprächsrunden, Haikus, Q&A und Dialoge. Der ursprüngliche Zweck des Warmups (Schutz eines fragilen neuen Modells vor Gradienten-Chaos) gilt nicht mehr.

Polish gewichtet neu, startet nicht neu

Polish ist eine Störung des Curriculums, kein frischer Lauf. Dasselbe 200K-Ziel, gleiche Architektur, gleicher Optimizer-Zustand, gleiche Verlustgeschichte. Was sich ändert: Quellen-Ober- und Untergrenzen werden neu gewichtet, um Gespräche gegenüber Wissensarmen zu bevorzugen. Mit dem bereits kohärenten Modell ist jede aktive Quelle ab Schritt 112.619 fair game.

Zusammenfassungstabelle

Phase	curriculum_warmup_steps	Warum
v1	(nicht vorhanden)	Alle 16 Quellen ab Schritt 0 -> Kollaps
v2 (steps 0-200K)	20.000	Schutz frisch initialisierter Gewichte vor Gradienten-Chaos
v3 base (steps 0-112K)	20.000	Gleicher Schutz wie v2
v3 polish (steps 112K-200K)	0	Modell bereits kohärent; kein fragiles Init-Regime zu schützen

Warum das Deaktivieren des Warmups bei Polish sicher ist

Begründe (in 2-3 Sätzen), warum das Setzen von curriculum_warmup_steps = 0 am v3-Polish-Übergang den v1-Kollaps NICHT neu erzeugt, obwohl beide Läufe „alle Quellen ab dem aktuellen Schritt aktiv“ haben. Beziehe dich auf den Modellzustand bei Schritt 112K.