un — Kembangkan Model Bahasa: Pemanasan Kurikulum [DESCRIPTION /]

un

tamu

1 / ?

kembali ke pelajaran

Langkah 0-20K: Diet Terbatas

Dua Fase, Satu Pelatihan

Kurikulum firehose v2 berjalan dalam dua fase di dalam satu pelatihan 200K langkah:

Fase A (langkah 0 hingga 20K). Bandit hanya menarik dari 7 sumber obrolan & prosa:

- hermes3-general

- hermes3-creative

- hermes3-roleplay

- chat

- smoltalk

- oasst

- gutenberg

Fase B (langkah 20K hingga 200K). Bandit menarik dari campuran penuh, semua 16 sumber, termasuk referensi (dictionary), teknis (repo-docs, repo-commits), & sosial (irc, unweapon).

Curriculum warmup timeline

Apa yang Dibagikan oleh Diet Terbatas

Enam dari tujuh sumber pemanasan bersifat percakapan. Satu (gutenberg) adalah prosa paragraf. Bersama-sama mereka berbagi bentuk yang sama: struktur giliran (prompt kemudian respons) atau alur naratif. Distribusi kosa kata di seluruh 7 sumber terlihat kira-kira normal bahasa Inggris; target cross-entropy tetap dalam rentang stabil; magnitudo gradien tetap dapat diprediksi.

Kolom Konfigurasi

"curriculum_warmup_steps": 20000,
"curriculum_warmup_sources": ["hermes3-general", "hermes3-creative",
"hermes3-roleplay", "chat", "smoltalk", "oasst", "gutenberg"]

Identifikasi Fase Warmup

Sebuah pelatihan telah berjalan selama 18.400 langkah. Tanpa melihat status bandit, bisakah model telah mengambil sampel dari `dictionary` atau `repo-docs`? Jelaskan mengapa bisa atau tidak & kutip nilai konfigurasi yang menentukan ini.

Bagaimana Tampilan v1 Tanpa Pemanasan

v1: Semua 16 Sumber dari Langkah 0

Pelatihan ANDREA-120M pertama (Maret-April 2026) mengaktifkan selang penuh sejak langkah 0: 16 sumber, termasuk dictionary (88K definisi kata dalam bentuk > define X / < X is...), repo-docs (dokumentasi markdown), repo-docstrings (docstring Python), & repo-commits (pesan commit git bersama chat & prosa).

Apa yang Salah

Model 120M yang baru diinisialisasi dengan bobot acak tidak dapat memodelkan 16 distribusi berbeda sekaligus. Setiap batch dari sumber yang secara struktural berbeda menghasilkan arah gradien yang berbeda. Transisi sumber setiap 7-42 langkah mengayunkan magnitudo gradien secara liar; model melompat di antara atraktor lebih cepat daripada kemampuannya membentuk representasi.

Pada langkah 80K, v1 menghasilkan: region region region region region region region. Distilasi guru Hermes3-general memberikan reward (rata-rata 340-453) yang membuat sumber berstruktur daftar repetitif mendapat skor tertinggi pada cross-entropy, yang diinterpretasikan bandit sebagai 'lengan-lengan ini mudah.' Bandit memberi model lebih banyak dari apa yang membuatnya merosot.

Mengapa Membatasi ke 7 Sumber Membantu

1. Kesamaan distribusi. Semua 7 sumber warmup menghasilkan teks dengan bentuk serupa (struktur giliran atau naratif). Arah gradien di seluruh batch tetap kira-kira sejajar.

2. Koherensi terlebih dahulu. Model mempelajari frekuensi kosa kata, pola sintaksis, & struktur giliran sebelum bertemu dengan daftar definisi, kode, atau pesan git.

3. Kurikulum stabil. Sinyal reward bandit dari 7 sumber chat/prosa tetap dalam rentang yang sebanding; seleksi UCB1 tidak dikuasai oleh satu sumber yang secara anomali memberikan reward tinggi.

Kapan Fase B Diaktifkan

Pada langkah 20K, model telah menghasilkan ~40-50 sampel (satu per 100 langkah), menunjukkan bahasa Inggris yang koheren dalam sampel, & telah membangun distribusi bigram & trigram yang stabil. Sekarang model dapat menyerap pola > define X / < X is... dari kamus, blok kode dari repo-docs, & header commit git tanpa kehilangan struktur chat di bawahnya.

Diagnosis Kegagalan v1

Sebuah transformer 120M yang baru diinisialisasi dilatih pada 16 sumber yang berbeda secara struktural sejak langkah 0. Pada langkah 80K, sampel membaca `region region region region region`. Hubungkan pilihan desain tanpa-warmup dengan mode kegagalan spesifik ini: sebutkan mekanisme yang menyebabkan 16 sumber pada langkah 0 membuat model runtuh menjadi pengulangan token tunggal. Satu atau dua kalimat.

v3 Polish Mengatur curriculum_warmup_steps = 0

Titik Awal yang Berbeda

Pemivotan polish v3 pada langkah 112,619 melanjutkan pelatihan dari step_112600.bin dengan curriculum_warmup_steps diatur ke 0. Pada pandangan pertama, ini tampak seperti kontradiksi: jika pemanasan membantu v2, mengapa menonaktifkannya untuk fase polish?

Karena Model Sudah Belajar Koherensi

Fase A membeli waktu bagi model yang baru diinisialisasi untuk mempelajari frekuensi kosa kata, struktur giliran, & koherensi paragraf. Pada langkah 112K, model sudah melakukan semua itu. Audit sampel pada 112K menunjukkan giliran percakapan yang koheren, haiku, Q&A, & dialog. Tujuan asli pemanasan (melindungi model baru yang rapuh dari kekacauan gradien) tidak lagi berlaku.

Polish Menimbang Ulang, Tidak Memulai Ulang

Polish adalah gangguan kurikulum, bukan pelarian baru. Target 200K yang sama, arsitektur yang sama, status optimizer yang sama, riwayat loss yang sama. Yang berubah: batas atas & bawah sumber diimbangi ulang untuk mengutamakan percakapan daripada lengan pengetahuan. Dengan model sudah koheren, setiap sumber aktif menjadi target yang adil mulai dari langkah 112.619 ke depan.

Tabel Ringkasan

Fase	curriculum_warmup_steps	Mengapa
v1	(tidak ada)	Semua 16 sumber dari langkah 0 -> runtuh
v2 (langkah 0-200K)	20.000	Melindungi bobot yang baru diinisialisasi dari kekacauan gradien
v3 base (langkah 0-112K)	20.000	Perlindungan sama seperti v2
v3 polish (langkah 112K-200K)	0	Model sudah koheren; tidak ada regime inisialisasi rapuh yang perlu dilindungi

Mengapa Menonaktifkan Warmup pada Polish Aman

Argumenkan (dalam 2-3 kalimat) mengapa pengaturan curriculum_warmup_steps = 0 pada titik pivot v3 polish TIDAK menciptakan runtuhnya v1, meskipun kedua pelatihan menampilkan 'semua sumber aktif dari langkah saat ini.' Rujuk status model pada langkah 112K.