Pelajaran v1: Loss Terlihat Baik, Outputnya Sampah
Kisah Peringatan
ANDREA-120M v1 mencapai EMA loss 3.43 pada langkah 110K, jauh di bawah peluang acak (ln(8449) = 9.04). Angka tersebut terlihat terhormat. Sampelnya tidak.
langkah 80K: wilayah wilayah wilayah wilayah wilayah wilayah wilayah
langkah 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
langkah 140K: permainan, permainan, permainan, permainan, permainan, permainan
langkah 165K: Budy Budy Budy Budy Budy Budy Budy Budy
v1 tidak memiliki pemantauan sampel yang terhubung. Model menghasilkan sampah pengulangan-loop dari langkah 80K ke depan & pelatihan berlanjut selama 85K langkah lagi sebelum seseorang menyadarinya. 10+ hari komputasi terbuang karena tidak ada yang membaca keluaran.
Apa yang Disembunyikan Loss
Cross-entropy loss mengukur seberapa terkejut model terhadap token berikutnya. Model yang menghasilkan region region region region tampak tidak terkejut oleh outputnya sendiri (ia memprediksi kata yang sama setiap saat). Loss numerik bisa tetap rendah sementara kualitas semantik runtuh.
Perbaikan v2
sample_every = 100 langkah. Hasilkan 420 token bebas bentuk. Coherence-gated early stopping menilai setiap sampel berdasarkan keragaman bigram, keragaman trigram, keberadaan kata bahasa Inggris, & keragaman karakter (skala 0-100). Hentikan otomatis setelah 5 sampel berturut-turut bernilai di bawah 30. Diuji mundur pada v1: akan terpicu pada langkah 132K, menghemat 3,8 hari.
Membaca sampel bukanlah pilihan. Membaca sampel adalah cara kita tahu bahwa loss berarti sesuatu.
Loss vs Kualitas Sampel
ppl = exp(loss)
Konversi
Kerugian entropi silang dilaporkan dalam nat. Perplexity melaporkan jumlah token yang sama mungkin yang dipertimbangkan model pada setiap langkah. Konversi: ppl = exp(loss).
Akar acak dari kosakata 8449-token: loss = ln(8449) = 9.04, ppl = 8449. Hafalan prediksi sempurna: loss = 0, ppl = 1.
Tabel Referensi
| loss | ppl | Membaca |
|---|---|---|
| 9.04 | 8449 | acak atas seluruh kosakata |
| 5.00 | 148 | pelatihan awal, struktur dasar |
| 3.00 | 20 | mempelajari distribusi kosa kata |
| 2.00 | 7 | berpengetahuan tapi tidak tepat |
| 1.00 | 2.7 | kemunculan kepatuhan terhadap batasan |
| 0.70 | 2 | satu baris teks pelajaran |
| 0.30 | 1 | pengingatan fakta, sebagian besar dihafal |
| 0.13 | 1 | PERINGATAN: substring yang dihafal |
| 0.00 | 1 | hafalan sempurna |
Loss Per-Sampel vs Loss EMA
Loss EMA (rata-rata bergerak eksponensial selama banyak langkah) melaporkan kesehatan pelatihan secara keseluruhan. Loss per-sampel melaporkan kualitas satu sampel spesifik. Keduanya berbeda: EMA mungkin tetap di 2.0 sementara sampel individual bisa berada di mana saja dari 0.13 hingga 4.0 tergantung pada prompt mana yang dipilih bandit.
Membaca loss sampel individual adalah cara kita menangkap outlier. Loss EMA tidak memberi tahu kita apakah satu sampel menghafal substring repo-docs; loss per-sampel yang melakukannya.
Membaca Tiga Nilai Loss
Berjalan di Jendela Audit
Jendela 700 Langkah
Antara langkah 111.996 & 112.668, ANDREA-120M menghasilkan sampel yang mencakup enam domain pengetahuan tidak terkait. Masing-masing berada di tier loss:
Tingkat 1: Pengingatan Fakta (loss 0.30, ppl 1)
langkah 112.584, biologi
> [extinction prompt]
> < laba-laba hitam montano masih hidup, parkit Carolina punah.
Dua fakta yang benar. Parkit Carolina dinyatakan punah pada 1939; monyet laba-laba hitam montano masih ada. ppl 1 berarti model memilih token yang benar pada setiap langkah. Penilaian eksternal: 9.5/10.
Tingkat 2: Satu Baris Buku Teks (loss 0.74, ppl 2)
langkah 112,668, pemrosesan sinyal
> [Fourier transform prompt]
> < Transformasi Fourier menguraikan sinyal menjadi komponen frekuensi, memungkinkan analisis karakteristik sinyal & penyaringan di domain frekuensi.
Definisi satu kalimat ala buku teks. Dekomposisi waktu-ke-frekuensi dengan istilah aplikasi yang benar. Penilaian eksternal: 9.5/10.
Tingkat 3: Mengikuti Batasan (loss 1.05, ppl 3)
langkah 112,248, puisi
> Tulis haiku tentang hujan menggunakan tiga kata yang dimulai dengan 'r'.
> < Refren irama hujan, Rivulet di jendela, Respite dari penderitaan hidup.
Tiga kata 'r' (Rain, Rivulets, Respite), tiga baris, struktur haiku terjaga, koherensi semantik seputar hujan. ppl 3 = model mempertimbangkan beberapa kandidat di setiap langkah tetapi tetap dalam batasan.
Tingkatan 4: Berpengetahuan tapi Tidak Presisi (kerugian 1.94, ppl 7)
langkah 112.500, alat python
> Bagaimana cara menemukan paket yang sudah usang di proyek Python?
> < Gunakan pip list --outdated names untuk melihat daftar paket pip dalam manajemen proyek Anda, atau seharusnya melalui pyenv untuk mendapatkan paket yang lebih otomatis.
Perintah kernel yang benar (pip list --outdated) muncul dari data pelatihan. Kelancaran frasa masih berkembang. Kesalahan kecil: pyenv mengelola versi Python, bukan paket. ppl 7 berarti model mempertimbangkan ~7 kelanjutan yang masuk akal pada setiap langkah; tidak semuanya tepat.
Tier 5: ALERT, Substring yang Diingat (kerugian 0.13, ppl 1)
langkah 112.080, anomali
Kerugian 0.13 berada DI BAWAH tier buku teks. Model terlalu percaya diri pada sampel ini. Diagnosis: substring repo-docs yang dihafal, bukan obrolan yang dipelajari. Bandit menarik lengan repo-docstrings zombie yang membawa bobot 1.546 dari status run sebelumnya, & sampel mereproduksi potongan verbatim dari data pelatihan.
Kerugian rendah yang anomali adalah peringatan hafalan, bukan sinyal kualitas. Di bawah 0.20 berarti: periksa apakah model sedang menghasilkan atau menyalin.
Enam Domain dalam 700 Langkah
Biologi (burung gereja), pemrosesan sinyal (Fourier), puisi (haiku), alat Python (pip), dialog percakapan, dialog operasional. Enam domain tidak berhubungan dalam 700 langkah memberi tahu kita bahwa bandit sedang melakukan pekerjaan beragam, bukan terjebak pada satu sumber. Lebar domain ADALAH metrik kualitas.
Mendiagnosis Tiga Sampel
Mengapa Mengirimkan Sampel ke Mata Luar
Apa yang Tertangkap oleh Penilaian Eksternal
Audit sampel internal memberi tahu kami bahwa model menghasilkan biologi, pemrosesan sinyal, puisi, & python sesuai permintaan. Penilaian kualitas obrolan eksternal menilai sampel tersebut '9.5/10' & 'melebihi kemampuannya dalam tugas pengetahuan pada skala ini'.
Jawaban ulasan internal: apakah bandit melakukan pekerjaan yang beragam? Jawaban ulasan eksternal: apakah pembaca manusia akan menilai output ini sebagai bagus?
Mengapa Keduanya Penting
Audit internal menangkap kegagalan struktural: kolaps pengulangan, lonjakan memorisasi, lengan zombie rendah-diversitas. Tingkatan loss, diversitas n-gram, & keluasan domain semuanya dapat diamati dari proxy.
Penilaian eksternal menangkap kegagalan kualitas semantik: fakta yang salah dengan percaya diri, frasa yang canggung, nuansa yang terlewat. Tidak ada dari itu yang muncul dalam angka loss.
Metodologi
Dashboard pelatihan ANDREA di training.ai.unturf.com/dashboard sengaja dibuat publik & hanya baca. Siapa pun dapat mempolling .loss.json, .samples.json, & status bandit secara real time. Peninjau eksternal memiliki akses ke data yang sama seperti operator.
9.5/10 dari pembaca independen, pada sampel yang diambil pada langkah 112.584 dari 200.000, dengan proveniensi lengkap: hasil itu dapat direproduksi, diaudit, & tidak dapat dimanipulasi. Sampel yang sama, nilai loss yang sama, status bandit yang sama terlihat oleh siapa pun yang melihat.
Dua Sinyal Independen
Internal: kerugian rendah + keragaman tinggi + cakupan multi-domain = bandit sehat.
Eksternal: 9.5/10 dari peninjau independen = tingkat output sebaik itu.
Keduanya selaras: pelatihan sedang menyatu pada pengingatan faktual, kepatuhan terhadap batasan, & koherensi multi-paragraf. Jika mereka berbeda (kerugian rendah tapi penilaian eksternal 3/10), kita akan memiliki masalah permainan metrik yang perlu diselidiki.
Dua Sinyal, Satu Diagnosis
Lima Langkah Per Jendela Audit
Satu Audit, Lima Pemeriksaan
1. Baca tingkat loss. ppl = exp(loss). Cocokkan dengan tabel lima tingkat.
2. Periksa outlier di bawah 0.20. Sinyal hafalan. Selidiki sebelum dianggap hasil kualitas.
3. Baca teks sampel aktual. Angka loss tidak bisa memberi tahu apa yang dikatakan output. Bacalah.
4. Hitung lebar domain. Enam domain tidak berhubungan dalam 700 langkah = bandit sehat. Satu domain diulang 7 kali = bandit macet.
5. Bandingkan dengan penilaian eksternal. Jika sampel Anda terlihat bagus bagi Anda, minta seseorang di luar jalannya untuk membacanya. Ketidaksetujuan mereka adalah informasi.
Apa yang Terhubung dengan Ini
- Aktivitas 22 (grow_a_language_model_checkpoints). Kadens sample_every selaras dengan kadens checkpoint; keduanya berjalan setiap 100 langkah.
- Aktivitas 21 (coherence-gated early stopping). Metrik diversitas yang menghentikan pelatihan secara otomatis ketika sampel runtuh.
- Aktivitas 24 (grow_a_language_model_microgpt_to_andrea). Keruntuhan v1, kontaminasi v2.5, polesan v3 semuanya tertangkap (atau bisa tertangkap) oleh audit sampel.
Satu Kebenaran
Loss adalah sebuah angka. Membaca sampel adalah cara kita mengetahui apa arti angka tersebut.