Kroki 0-20 tys.: Ograniczona Dieta
Dwie Fazy, Jeden Uruchomienie
Program nauki strumienia v2 działa w dwóch fazach wewnątrz pojedynczego uruchomienia treningowego 200 tys. kroków:
Faza A (kroki 0 do 20 tys.). Bandyt ciągnie tylko z 7 źródeł czatu i prozy:
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- hermes3-general
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- hermes3-creative
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- hermes3-roleplay
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- chat
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- smoltalk
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- oasst
[BLOCK_TYPE CONTENT/two_phase/what_warmup_does]
- gutenberg
Faza B (kroki 20K do 200K). Bandit ciągnie z pełnej mieszanki, wszystkie 16 źródeł, w tym referencyjne (dictionary), techniczne (repo-docs, repo-commits) oraz społeczne (irc, unweapon).
Co dzieli restrykcyjna dieta
Sześć z siedmiu źródeł rozgrzewkowych to rozmowy. Jedno (gutenberg) to proza paragrafowa. Razem dzielą wspólną strukturę: strukturę tury (prompt potem odpowiedź) lub narracyjny przepływ. Rozkład słownictwa w 7 źródłach wygląda mniej więcej jak normalna angielszczyzna; cele cross-entropy pozostają w stabilnym zakresie; amplitudy gradientów pozostają przewidywalne.
Pole konfiguracji
"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]
Zidentyfikuj fazę rozgrzewki
Jak Wyglądała v1 Bez Rozgrzewki
v1: Wszystkie 16 Źródeł od Kroku 0
Pierwszy trening ANDREA-120M (marzec-kwiecień 2026) aktywował pełny strumień od kroku 0: 16 źródeł, w tym dictionary (88K definicji słów w kształcie > define X / < X is...), repo-docs (dokumentacja markdown), repo-docstrings (docstringi Pythona) i repo-commits (komunikaty git commit obok chat i prose).
Co poszło nie tak
Świeży model 120M zainicjalizowany losowymi wagami nie jest w stanie modelować jednocześnie 16 różnych rozkładów. Każda partia z strukturalnie innego źródła produkuje inny kierunek gradientu. Przejścia między źródłami co 7-42 kroki powodowały gwałtowne wahania wielkości gradientu; model przeskakiwał między attractorami szybciej, niż mógł utworzyć reprezentacje.
Do kroku 80K, v1 wygenerował: region region region region region region region. Destylacja nauczyciela Hermes3-general nagradzała (średnia 340-453) powtarzalne źródła o strukturze listowej najwyższymi wynikami na entropii krzyżowej, co bandyta zinterpretował jako 'te ramiona są łatwe.' Bandyta karmił model więcej tego, co powodowało jego degenerację.
Dlaczego ograniczenie do 7 źródeł pomaga
1. Podobieństwo rozkładów. Wszystkie 7 źródeł rozgrzewkowych produkuje tekst o podobnym kształcie (struktura tury lub narracja). Kierunki gradientów w partiach pozostają w przybliżeniu wyrównane.
2. Spójność na pierwszym miejscu. Model uczy się częstotliwości słownictwa, wzorców syntaktycznych i struktury tur, zanim napotka listy definicji, kod lub komunikaty git.
3. Stabilny program nauczania. Sygnały nagród bandyty z 7 źródeł czatu/prozy utrzymują się w porównywalnym zakresie; selekcja UCB1 nie zostaje porwana przez pojedyncze źródło o anomalnie wysokiej nagrodzie.
Kiedy Aktywuje się Faza B
W kroku 20K model wygenerował ~40-50 próbek (jedna na 100 kroków), pokazuje spójny angielski w próbkach i zbudował stabilne rozkłady bigramów i trigramów. Teraz może przyswoić wzorzec słownika > define X / < X is..., bloki kodu z repo-docs oraz nagłówki commitów git bez utraty struktury czatu pod spodem.
Zdiagnozuj Porażkę v1
v3 Polish ustawia curriculum_warmup_steps = 0
Inny Punkt Startowy
Punkt zwrotny v3 polish w kroku 112,619 wznowił trening z step_112600.bin z curriculum_warmup_steps ustawionym na 0. Na pierwszy rzut oka wygląda to jak sprzeczność: jeśli rozgrzewka pomogła v2, dlaczego wyłączyć ją w fazie polish?
Ponieważ Model Już Nauczył Się Spójności
Faza A kupuje czas dla świeżo zainicjalizowanego modelu, aby nauczył się częstotliwości słownictwa, struktury tur oraz spójności akapitów. Do kroku 112K model już to wszystko zrobił. Próbki audytów w 112K pokazały spójne tury konwersacyjne, haiku, Q&A oraz dialogi. Pierwotny cel rozgrzewki (chronić delikatny nowy model przed chaosem gradientów) już nie ma zastosowania.
Polish Nie Restartuje, Tylko Przeważa
Polish to perturbacja programu nauczania, a nie nowy przebieg. Ten sam cel 200K, ta sama architektura, ten sam stan optymalizatora, ta sama historia strat. Co się zmienia: suwaki i dolne limity źródeł są przeważane, aby faworyzować konwersację zamiast ram wiedzy. Z modelem już spójnym, każde aktywne źródło jest dozwolone od kroku 112,619 wzwyż.
Tabela Podsumowująca
| Faza | curriculum_warmup_steps | Dlaczego |
|---|---|---|
| v1 | (nieobecny) | Wszystkie 16 źródeł z kroku 0 -> kolaps |
| v2 (kroki 0-200K) | 20,000 | Ochrona świeżo zainicjalizowanych wag przed chaosem gradientów |
| v3 base (kroki 0-112K) | 20,000 | Taka sama ochrona jak w v2 |
| v3 polish (kroki 112K-200K) | 0 | Model już spójny; nie ma kruchego reżimu inicjalizacji do ochrony |