un — Kembangkan Model Bahasa: Sampel Audit & Penilaian Eksternal [DESCRIPTION /]

un

tamu

1 / ?

kembali ke pelajaran

Pelajaran v1: Loss Terlihat Baik, Outputnya Sampah

Kisah Peringatan

ANDREA-120M v1 mencapai EMA loss 3.43 pada langkah 110K, jauh di bawah peluang acak (ln(8449) = 9.04). Angka tersebut terlihat terhormat. Sampelnya tidak.

langkah 80K:  wilayah wilayah wilayah wilayah wilayah wilayah wilayah
langkah 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
langkah 140K: permainan, permainan, permainan, permainan, permainan, permainan
langkah 165K: Budy Budy Budy Budy Budy Budy Budy Budy

v1 tidak memiliki pemantauan sampel yang terhubung. Model menghasilkan sampah pengulangan-loop dari langkah 80K ke depan & pelatihan berlanjut selama 85K langkah lagi sebelum seseorang menyadarinya. 10+ hari komputasi terbuang karena tidak ada yang membaca keluaran.

Apa yang Disembunyikan Loss

Cross-entropy loss mengukur seberapa terkejut model terhadap token berikutnya. Model yang menghasilkan region region region region tampak tidak terkejut oleh outputnya sendiri (ia memprediksi kata yang sama setiap saat). Loss numerik bisa tetap rendah sementara kualitas semantik runtuh.

Perbaikan v2

sample_every = 100 langkah. Hasilkan 420 token bebas bentuk. Coherence-gated early stopping menilai setiap sampel berdasarkan keragaman bigram, keragaman trigram, keberadaan kata bahasa Inggris, & keragaman karakter (skala 0-100). Hentikan otomatis setelah 5 sampel berturut-turut bernilai di bawah 30. Diuji mundur pada v1: akan terpicu pada langkah 132K, menghemat 3,8 hari.

Membaca sampel bukanlah pilihan. Membaca sampel adalah cara kita tahu bahwa loss berarti sesuatu.

Loss vs Kualitas Sampel

v1 mencapai kerugian EMA 3.43 (jauh di bawah acak 9.04) tetapi menghasilkan 'region region region'. Jelaskan dalam dua bagian: (a) BAGAIMANA kerugian bisa tetap secara numerik wajar sementara output runtuh menjadi pengulangan? (b) APA perbaikan struktural di v2 yang menangkap ini tanpa bergantung pada manusia membaca setiap sampel?

ppl = exp(loss)

Konversi

Kerugian entropi silang dilaporkan dalam nat. Perplexity melaporkan jumlah token yang sama mungkin yang dipertimbangkan model pada setiap langkah. Konversi: ppl = exp(loss).

Akar acak dari kosakata 8449-token: loss = ln(8449) = 9.04, ppl = 8449. Hafalan prediksi sempurna: loss = 0, ppl = 1.

Tabel Referensi

loss	ppl	Membaca
9.04	8449	acak atas seluruh kosakata
5.00	148	pelatihan awal, struktur dasar
3.00	20	mempelajari distribusi kosa kata
2.00	7	berpengetahuan tapi tidak tepat
1.00	2.7	kemunculan kepatuhan terhadap batasan
0.70	2	satu baris teks pelajaran
0.30	1	pengingatan fakta, sebagian besar dihafal
0.13	1	PERINGATAN: substring yang dihafal
0.00	1	hafalan sempurna

Loss Per-Sampel vs Loss EMA

Loss EMA (rata-rata bergerak eksponensial selama banyak langkah) melaporkan kesehatan pelatihan secara keseluruhan. Loss per-sampel melaporkan kualitas satu sampel spesifik. Keduanya berbeda: EMA mungkin tetap di 2.0 sementara sampel individual bisa berada di mana saja dari 0.13 hingga 4.0 tergantung pada prompt mana yang dipilih bandit.

Membaca loss sampel individual adalah cara kita menangkap outlier. Loss EMA tidak memberi tahu kita apakah satu sampel menghafal substring repo-docs; loss per-sampel yang melakukannya.

Membaca Tiga Nilai Loss

ANDREA-120M menghasilkan tiga sampel secara berurutan pada langkah 112.584-112.668. (a) loss 0.30 ppl ?; (b) loss 0.74 ppl ?; (c) loss 1.94 ppl ?. Hitung setiap ppl, kemudian nyatakan tingkat kualitas yang diwakili masing-masing (memorized / textbook / constraint / imprecise).

Berjalan di Jendela Audit

Jendela 700 Langkah

Antara langkah 111.996 & 112.668, ANDREA-120M menghasilkan sampel yang mencakup enam domain pengetahuan tidak terkait. Masing-masing berada di tier loss:

Sample Audit Loss Tiers

Tingkat 1: Pengingatan Fakta (loss 0.30, ppl 1)

langkah 112.584, biologi

> [extinction prompt]

> < laba-laba hitam montano masih hidup, parkit Carolina punah.

Dua fakta yang benar. Parkit Carolina dinyatakan punah pada 1939; monyet laba-laba hitam montano masih ada. ppl 1 berarti model memilih token yang benar pada setiap langkah. Penilaian eksternal: 9.5/10.

Tingkat 2: Satu Baris Buku Teks (loss 0.74, ppl 2)

langkah 112,668, pemrosesan sinyal

> [Fourier transform prompt]

> < Transformasi Fourier menguraikan sinyal menjadi komponen frekuensi, memungkinkan analisis karakteristik sinyal & penyaringan di domain frekuensi.

Definisi satu kalimat ala buku teks. Dekomposisi waktu-ke-frekuensi dengan istilah aplikasi yang benar. Penilaian eksternal: 9.5/10.

Tingkat 3: Mengikuti Batasan (loss 1.05, ppl 3)

langkah 112,248, puisi

> Tulis haiku tentang hujan menggunakan tiga kata yang dimulai dengan 'r'.

> < Refren irama hujan, Rivulet di jendela, Respite dari penderitaan hidup.

Tiga kata 'r' (Rain, Rivulets, Respite), tiga baris, struktur haiku terjaga, koherensi semantik seputar hujan. ppl 3 = model mempertimbangkan beberapa kandidat di setiap langkah tetapi tetap dalam batasan.

Tingkatan 4: Berpengetahuan tapi Tidak Presisi (kerugian 1.94, ppl 7)

langkah 112.500, alat python

> Bagaimana cara menemukan paket yang sudah usang di proyek Python?

> < Gunakan pip list --outdated names untuk melihat daftar paket pip dalam manajemen proyek Anda, atau seharusnya melalui pyenv untuk mendapatkan paket yang lebih otomatis.

Perintah kernel yang benar (pip list --outdated) muncul dari data pelatihan. Kelancaran frasa masih berkembang. Kesalahan kecil: pyenv mengelola versi Python, bukan paket. ppl 7 berarti model mempertimbangkan ~7 kelanjutan yang masuk akal pada setiap langkah; tidak semuanya tepat.

Tier 5: ALERT, Substring yang Diingat (kerugian 0.13, ppl 1)

langkah 112.080, anomali

Kerugian 0.13 berada DI BAWAH tier buku teks. Model terlalu percaya diri pada sampel ini. Diagnosis: substring repo-docs yang dihafal, bukan obrolan yang dipelajari. Bandit menarik lengan repo-docstrings zombie yang membawa bobot 1.546 dari status run sebelumnya, & sampel mereproduksi potongan verbatim dari data pelatihan.

Kerugian rendah yang anomali adalah peringatan hafalan, bukan sinyal kualitas. Di bawah 0.20 berarti: periksa apakah model sedang menghasilkan atau menyalin.

Enam Domain dalam 700 Langkah

Biologi (burung gereja), pemrosesan sinyal (Fourier), puisi (haiku), alat Python (pip), dialog percakapan, dialog operasional. Enam domain tidak berhubungan dalam 700 langkah memberi tahu kita bahwa bandit sedang melakukan pekerjaan beragam, bukan terjebak pada satu sumber. Lebar domain ADALAH metrik kualitas.

Mendiagnosis Tiga Sampel

Tiga sampel baru mendarat di jendela audit Anda. (a) loss 0.40, menghasilkan 'fotosintesis mengubah sinar matahari menjadi energi kimia di kloroplas'. (b) loss 0.10, menghasilkan potongan verbatim dari docstring Python. (c) loss 1.30, menghasilkan soneta yang mengikuti skema rima ABAB tetapi dengan satu rima yang sedikit dipaksakan. Untuk masing-masing, sebutkan tingkat kualitas & nyatakan tindakan Anda: ACCEPT (pembelajaran asli), INVESTIGATE (sinyal anomali), atau ACCEPT_WITH_NOTE (tidak sempurna tapi bandit sehat).

Mengapa Mengirimkan Sampel ke Mata Luar

Apa yang Tertangkap oleh Penilaian Eksternal

Audit sampel internal memberi tahu kami bahwa model menghasilkan biologi, pemrosesan sinyal, puisi, & python sesuai permintaan. Penilaian kualitas obrolan eksternal menilai sampel tersebut '9.5/10' & 'melebihi kemampuannya dalam tugas pengetahuan pada skala ini'.

Jawaban ulasan internal: apakah bandit melakukan pekerjaan yang beragam? Jawaban ulasan eksternal: apakah pembaca manusia akan menilai output ini sebagai bagus?

Mengapa Keduanya Penting

Audit internal menangkap kegagalan struktural: kolaps pengulangan, lonjakan memorisasi, lengan zombie rendah-diversitas. Tingkatan loss, diversitas n-gram, & keluasan domain semuanya dapat diamati dari proxy.

Penilaian eksternal menangkap kegagalan kualitas semantik: fakta yang salah dengan percaya diri, frasa yang canggung, nuansa yang terlewat. Tidak ada dari itu yang muncul dalam angka loss.

Metodologi

Dashboard pelatihan ANDREA di training.ai.unturf.com/dashboard sengaja dibuat publik & hanya baca. Siapa pun dapat mempolling .loss.json, .samples.json, & status bandit secara real time. Peninjau eksternal memiliki akses ke data yang sama seperti operator.

9.5/10 dari pembaca independen, pada sampel yang diambil pada langkah 112.584 dari 200.000, dengan proveniensi lengkap: hasil itu dapat direproduksi, diaudit, & tidak dapat dimanipulasi. Sampel yang sama, nilai loss yang sama, status bandit yang sama terlihat oleh siapa pun yang melihat.

Dua Sinyal Independen

Internal: kerugian rendah + keragaman tinggi + cakupan multi-domain = bandit sehat.

Eksternal: 9.5/10 dari peninjau independen = tingkat output sebaik itu.

Keduanya selaras: pelatihan sedang menyatu pada pengingatan faktual, kepatuhan terhadap batasan, & koherensi multi-paragraf. Jika mereka berbeda (kerugian rendah tapi penilaian eksternal 3/10), kita akan memiliki masalah permainan metrik yang perlu diselidiki.

Dua Sinyal, Satu Diagnosis

Bayangkan sampel ANDREA mendapatkan penilaian eksternal pada langkah 100K & langkah 150K. (a) Langkah 100K: kerugian EMA internal 2.5, keragaman n-gram 70/100, penilaian eksternal 3/10. Apa yang disarankan oleh kesenjangan antara internal & eksternal? (b) Langkah 150K: kerugian EMA internal 2.0, keragaman 85/100, eksternal 9/10. Apa yang disarankan oleh keselarasan internal & eksternal? Berikan satu kalimat per skenario.

Lima Langkah Per Jendela Audit

Satu Audit, Lima Pemeriksaan

1. Baca tingkat loss. ppl = exp(loss). Cocokkan dengan tabel lima tingkat.

2. Periksa outlier di bawah 0.20. Sinyal hafalan. Selidiki sebelum dianggap hasil kualitas.

3. Baca teks sampel aktual. Angka loss tidak bisa memberi tahu apa yang dikatakan output. Bacalah.

4. Hitung lebar domain. Enam domain tidak berhubungan dalam 700 langkah = bandit sehat. Satu domain diulang 7 kali = bandit macet.

5. Bandingkan dengan penilaian eksternal. Jika sampel Anda terlihat bagus bagi Anda, minta seseorang di luar jalannya untuk membacanya. Ketidaksetujuan mereka adalah informasi.

Apa yang Terhubung dengan Ini

- Aktivitas 22 (grow_a_language_model_checkpoints). Kadens sample_every selaras dengan kadens checkpoint; keduanya berjalan setiap 100 langkah.

- Aktivitas 21 (coherence-gated early stopping). Metrik diversitas yang menghentikan pelatihan secara otomatis ketika sampel runtuh.

- Aktivitas 24 (grow_a_language_model_microgpt_to_andrea). Keruntuhan v1, kontaminasi v2.5, polesan v3 semuanya tertangkap (atau bisa tertangkap) oleh audit sampel.

Satu Kebenaran

Loss adalah sebuah angka. Membaca sampel adalah cara kita mengetahui apa arti angka tersebut.

Apa yang Akan Anda Amati?

Dari lima pemeriksaan audit (tingkat loss, outlier di bawah 0.20, teks sampel, lebar domain, penilaian eksternal), mana yang akan Anda prioritaskan paling tinggi jika melatih model Anda sendiri? Pilih satu dengan 2-3 kalimat penjelasan.