Langkah 0-20K: Diet Terbatas
Dua Fase, Satu Pelatihan
Kurikulum firehose v2 berjalan dalam dua fase di dalam satu pelatihan 200K langkah:
Fase A (langkah 0 hingga 20K). Bandit hanya menarik dari 7 sumber obrolan & prosa:
- hermes3-general
- hermes3-creative
- hermes3-roleplay
- chat
- smoltalk
- oasst
- gutenberg
Fase B (langkah 20K hingga 200K). Bandit menarik dari campuran penuh, semua 16 sumber, termasuk referensi (dictionary), teknis (repo-docs, repo-commits), & sosial (irc, unweapon).
Apa yang Dibagikan oleh Diet Terbatas
Enam dari tujuh sumber pemanasan bersifat percakapan. Satu (gutenberg) adalah prosa paragraf. Bersama-sama mereka berbagi bentuk yang sama: struktur giliran (prompt kemudian respons) atau alur naratif. Distribusi kosa kata di seluruh 7 sumber terlihat kira-kira normal bahasa Inggris; target cross-entropy tetap dalam rentang stabil; magnitudo gradien tetap dapat diprediksi.
Kolom Konfigurasi
"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]
Identifikasi Fase Warmup
Bagaimana Tampilan v1 Tanpa Pemanasan
v1: Semua 16 Sumber dari Langkah 0
Pelatihan ANDREA-120M pertama (Maret-April 2026) mengaktifkan selang penuh sejak langkah 0: 16 sumber, termasuk dictionary (88K definisi kata dalam bentuk > define X / < X is...), repo-docs (dokumentasi markdown), repo-docstrings (docstring Python), & repo-commits (pesan commit git bersama chat & prosa).
Apa yang Salah
Model 120M yang baru diinisialisasi dengan bobot acak tidak dapat memodelkan 16 distribusi berbeda sekaligus. Setiap batch dari sumber yang secara struktural berbeda menghasilkan arah gradien yang berbeda. Transisi sumber setiap 7-42 langkah mengayunkan magnitudo gradien secara liar; model melompat di antara atraktor lebih cepat daripada kemampuannya membentuk representasi.
Pada langkah 80K, v1 menghasilkan: region region region region region region region. Distilasi guru Hermes3-general memberikan reward (rata-rata 340-453) yang membuat sumber berstruktur daftar repetitif mendapat skor tertinggi pada cross-entropy, yang diinterpretasikan bandit sebagai 'lengan-lengan ini mudah.' Bandit memberi model lebih banyak dari apa yang membuatnya merosot.
Mengapa Membatasi ke 7 Sumber Membantu
1. Kesamaan distribusi. Semua 7 sumber warmup menghasilkan teks dengan bentuk serupa (struktur giliran atau naratif). Arah gradien di seluruh batch tetap kira-kira sejajar.
2. Koherensi terlebih dahulu. Model mempelajari frekuensi kosa kata, pola sintaksis, & struktur giliran sebelum bertemu dengan daftar definisi, kode, atau pesan git.
3. Kurikulum stabil. Sinyal reward bandit dari 7 sumber chat/prosa tetap dalam rentang yang sebanding; seleksi UCB1 tidak dikuasai oleh satu sumber yang secara anomali memberikan reward tinggi.
Kapan Fase B Diaktifkan
Pada langkah 20K, model telah menghasilkan ~40-50 sampel (satu per 100 langkah), menunjukkan bahasa Inggris yang koheren dalam sampel, & telah membangun distribusi bigram & trigram yang stabil. Sekarang model dapat menyerap pola > define X / < X is... dari kamus, blok kode dari repo-docs, & header commit git tanpa kehilangan struktur chat di bawahnya.
Diagnosis Kegagalan v1
v3 Polish Mengatur curriculum_warmup_steps = 0
Titik Awal yang Berbeda
Pemivotan polish v3 pada langkah 112,619 melanjutkan pelatihan dari step_112600.bin dengan curriculum_warmup_steps diatur ke 0. Pada pandangan pertama, ini tampak seperti kontradiksi: jika pemanasan membantu v2, mengapa menonaktifkannya untuk fase polish?
Karena Model Sudah Belajar Koherensi
Fase A membeli waktu bagi model yang baru diinisialisasi untuk mempelajari frekuensi kosa kata, struktur giliran, & koherensi paragraf. Pada langkah 112K, model sudah melakukan semua itu. Audit sampel pada 112K menunjukkan giliran percakapan yang koheren, haiku, Q&A, & dialog. Tujuan asli pemanasan (melindungi model baru yang rapuh dari kekacauan gradien) tidak lagi berlaku.
Polish Menimbang Ulang, Tidak Memulai Ulang
Polish adalah gangguan kurikulum, bukan pelarian baru. Target 200K yang sama, arsitektur yang sama, status optimizer yang sama, riwayat loss yang sama. Yang berubah: batas atas & bawah sumber diimbangi ulang untuk mengutamakan percakapan daripada lengan pengetahuan. Dengan model sudah koheren, setiap sumber aktif menjadi target yang adil mulai dari langkah 112.619 ke depan.
Tabel Ringkasan
| Fase | curriculum_warmup_steps | Mengapa |
|---|---|---|
| v1 | (tidak ada) | Semua 16 sumber dari langkah 0 -> runtuh |
| v2 (langkah 0-200K) | 20.000 | Melindungi bobot yang baru diinisialisasi dari kekacauan gradien |
| v3 base (langkah 0-112K) | 20.000 | Perlindungan sama seperti v2 |
| v3 polish (langkah 112K-200K) | 0 | Model sudah koheren; tidak ada regime inisialisasi rapuh yang perlu dilindungi |