un — Bir Dil Modeli Yetiştirin: Örnek Denetim & Dış Derecelendirme [DESCRIPTION /]

un

konuk

1 / ?

derslere geri dön

v1'in Dersi: Kayıp İyi Görünüyor, Çıktı Çöp

Uyarıcı Bir Hikaye

ANDREA-120M v1, 110K adımda EMA kaybı 3.43'e ulaştı, rastgele şansın çok altında (ln(8449) = 9.04). Sayı saygın görünüyordu. Örnekler öyle değildi.

adım 80K: bölge bölge bölge bölge bölge bölge bölge
adım 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
adım 140K: oyunlar, oyunlar, oyunlar, oyunlar, oyunlar, oyunlar
adım 165K: Budy Budy Budy Budy Budy Budy Budy Budy

v1'de örnek izleme kablolu değildi. Model 80K adımdan itibaren tekrar-döngüsü çöpü üretti ve biri fark edene kadar eğitim 85K adım daha devam etti. Kimse çıktıyı okumadığı için 10+ gün hesaplama boşa harcandı.

Kayıp Ne Saklar

Çapraz entropi kaybı, modelin bir sonraki token karşısında ne kadar şaşırdığını ölçer. region region region region üreten bir model, kendi çıktısına şaşırmaz görünür (her seferinde aynı kelimeyi tahmin etmiştir). Sayısal kayıp düşük kalırken anlamsal kalite çökebilir.

v2 Düzeltmesi

sample_every = 100 adımda. 420 serbest biçim token üret. Tutarlılık kapılı erken durdurma, her örneği bigram çeşitliliği, trigram çeşitliliği, İngilizce kelime varlığı ve karakter çeşitliliği (0-100 ölçeği) açısından puanlar. 5 ardışık örnek 30'un altında puan alırsa otomatik dur. v1'de geriye dönük test: 132K adımda tetiklenir, 3.8 gün tasarruf.

Örnekleri okumak isteğe bağlı değildir. Örnekleri okumak, kaybın bir anlam ifade ettiğini bilmemizin yoludur.

Kayıp vs Örnek Kalitesi

v1, EMA kaybı 3.43'e ulaştı (rastgele 9.04'ün oldukça altında) ancak 'region region region' üretti. İki kısımda açıklayın: (a) Kayıp sayısal olarak makul kalırken çıktı nasıl tekrarlamaya çökebilir? (b) v2'de her örneği insan okuyarak kontrol etmeden bunu yakalayan yapısal düzeltme nedir?

ppl = exp(kayıp)

Dönüşüm

Çapraz-entropi kaybı nat cinsinden raporlanır. Perplexity, modelin her adımda dikkate aldığı eşit olasılıklı token sayısının eşdeğerini raporlar. Dönüşüm: ppl = exp(kayıp).

8449-token'lik kelime dağarcığı üzerinde rastgele: loss = ln(8449) = 9.04, ppl = 8449. Mükemmel ezberlenmiş tahmin: loss = 0, ppl = 1.

Bir Referans Tablosu

loss	ppl	Okuma
9.04	8449	tam kelime dağarcığı üzerinde rastgele
5.00	148	erken eğitim, temel yapı
3.00	20	kelime dağılımını öğrenme
2.00	7	bilgili ama kesin olmayan
1.00	2.7	kısıtlama izleme ortaya çıkıyor
0.70	2	ders kitabı tek satırlık
0.30	1	gerçekçi hatırlama, çoğunlukla ezberlenmiş
0.13	1	UYARI: ezberlenmiş alt dize
0.00	1	mükemmel ezberleme

Örnek Başına Kayıp vs EMA Kaybı

EMA kaybı (birçok adım üzerindeki üstel hareketli ortalama) genel eğitim sağlığını bildirir. Örnek başına kayıp, belirli bir örneğin kalitesini bildirir. İkisi ayrışır: EMA 2.0'da kalırken, bireysel örnekler haydutun seçtiği istemeye bağlı olarak 0.13 ile 4.0 arasında herhangi bir yerde olabilir.

Bireysel örnek kaybını okumak, aykırı değerleri yakalamamızın yoludur. EMA kaybı, bir örneğin repo-docs alt dizisini ezberleyip ezberlemediğini söylemez; örnek başına kayıp söyler.

Üç Kayıp Değerini Okuma

ANDREA-120M, 112,584-112,668. adımında birbirine yakın üç örnek üretti. (a) kayıp 0.30 ppl ?; (b) kayıp 0.74 ppl ?; (c) kayıp 1.94 ppl ?. Her bir ppl'yi hesaplayın, ardından her birinin temsil ettiği kalite katmanını belirtin (ezberlenmiş / ders kitabı / kısıt / belirsiz).

Denetim Penceresinde Yürüyüş

700 Adımlık Pencere

111.996 ile 112.668 adımlar arasında, ANDREA-120M altı ilgisiz bilgi alanını kapsayan örnekler üretti. Her biri bir kayıp katmanına düşer:

Sample Audit Loss Tiers

Katman 1: Gerçek Hatırlama (kayıp 0.30, ppl 1)

adım 112,584, biyoloji

> [extinction prompt]

> < black spider montano is alive, carolina parakeet is extinct.

İki doğru gerçek. Carolina parakeet 1939'da nesli tükenmiş olarak ilan edildi; black spider monkey mevcut. ppl 1, modelin her adımda doğru token'ı seçtiği anlamına gelir. Dış değerlendirme: 9.5/10.

Seviye 2: Ders Kitabı Tek Cümle (kayıp 0.74, ppl 2)

adım 112,668, sinyal işleme

> [Fourier transform prompt]

> < Fourier dönüşümü, sinyalleri frekans bileşenlerine ayırır, sinyal özelliklerinin analizine ve frekans alanında filtrelemeye olanak tanır.

Ders kitabı tek cümlelik tanım. Zaman-frekans ayrıştırması doğru uygulama terimleriyle. Dış değerlendirme: 9.5/10.

Katman 3: Kısıtlamalara Uyma (kayıp 1.05, ppl 3)

adım 112,248, şiir

> Yağmur hakkında bir haiku yazın, 'r' ile başlayan üç kelime kullanarak.

> < Yağmurun ritmik nakaratı, Pencerede sızan sular, Hayatın acısından soluk.

Üç 'r' kelimesi (Yağmur, Sızan sular, Soluk), üç satır, haiku yapısı korunmuş, yağmur etrafında semantik tutarlılık. ppl 3 = model her adımda birkaç aday düşündü ama kısıtlama içinde kaldı.

Katman 4: Bilgili ama Kesin Olmayan (kayıp 1.94, ppl 7)

adım 112.500, python araçları

> Bir Python projesinde güncel olmayan paketleri nasıl bulurum?

> < Projenizdeki pip paketleri listesini görmek için pip list --outdated names kullanın, ya da daha otomatik paketler için pyenv aracılığıyla olmalı.

Doğru çekirdek komut (pip list --outdated) eğitim verilerinden ortaya çıkıyor. İfade akıcılığı hala gelişiyor. Küçük karışıklık: pyenv Python sürümlerini yönetir, paketleri değil. ppl 7, modelin her adımda ~7 olası devamı değerlendirdiği anlamına gelir; hepsi tam doğru değildi.

Katman 5: UYARI, Ezberlenmiş Alt Dize (kayıp 0.13, ppl 1)

adım 112,080, anomali

Kayıp 0.13, ders kitabı katmanının ALTINDA yer alıyor. Model bu örnekte fazla emin. Teşhis: öğrenilmiş sohbet değil, ezberlenmiş bir repo-docs alt dizisi. Bandit, önceki bir çalıştırma durumundan ağırlığı 1.546 olan bir repo-docstrings kolu çekti ve örnek, eğitim verisinin birebir bir parçasını yeniden üretti.

Anormallik düşük kayıp, kalite sinyali değil, ezberleme uyarısıdır. 0.20'nin altı demek: modelin üretip üretmediğini yoksa kopyalayıp kopyalamadığını kontrol et.

700 Adımda Altı Alan

Biyoloji (muhabbet kuşu), sinyal işleme (Fourier), şiir (haiku), python araçları (pip), konuşma diyaloğu, operasyon diyaloğu. 700 adım içinde altı ilgisiz alan, haydutun çeşitli işler yaptığını, tek bir kaynaktan takılı kalmadığını söyler. Alan genişliği BİR kalite ölçütüdür.

Üç Örnek Teşhis Etme

Denetim pencerenize üç yeni örnek düşer. (a) kayıp 0.40, 'fotosentez güneş ışığını kloroplastlarda kimyasal enerjiye dönüştürür' üretir. (b) kayıp 0.10, bir Python docstring'inin birebir bir parçasını üretir. (c) kayıp 1.30, ABAB kafiye şemasını takip eden ama bir hafif zorlama kafiyeli bir sonnet üretir. Her biri için kalite katmanını adlandırın & eyleminizi belirtin: ACCEPT (gerçek öğrenme), INVESTIGATE (anormallik sinyali), veya ACCEPT_WITH_NOTE (kusurlu ama haydut sağlıklı).

Dış Gözlere Örnekler Neden Gönderilir

Dış Değerlendirmenin Yakaladığı Şeyler

İç örnek denetimi, modelin biyoloji, sinyal işleme, şiir ve python'ı talep üzerine ürettiğini söylüyordu. Dış sohbet kalitesi değerlendirmesi bu örnekleri '9.5/10' ve 'bu ölçekte bilgi görevlerinde ağırlığının üstünde' olarak derecelendirdi.

İç inceleme sorusu: bandit çeşitli işler yaptı mı? Dış inceleme sorusu: bir insan okuyucu bu çıktıları iyi olarak değerlendirir mi?

İkisinin Neden Önemli Olduğu

İç denetim yapısal arızaları yakalar: tekrar çöküşü, ezberleme pikleri, düşük çeşitlilik zombi kolları. Kayıp katmanları, n-gram çeşitliliği ve alan genişliği hepsi vekilden gözlemlenebilir.

Dış değerlendirme, anlamsal kalite hatalarını yakalar: kendinden emin şekilde yanlış bilgiler, garip ifadeler, kaçırılmış nüanslar. Bunların hiçbiri kayıp sayılarına yansımaz.

Yöntem

ANDREA'nın eğitim panosu training.ai.unturf.com/dashboard adresinde kasıtlı olarak herkese açık ve salt okunur. Herkes .loss.json, .samples.json ve bandit durumunu gerçek zamanlı olarak sorgulayabilir. Dış inceleyiciler, operatörün eriştiği aynı verilere sahipti.

200.000 adımın 112.584'ünde çekilen örneklerde, tam izlenebilirlik ile bağımsız bir okuyucudan 9.5/10: bu sonuç yeniden üretilebilir, denetlenebilir ve manipüle edilemez. Aynı örnekler, aynı kayıp değerleri, aynı bandit durumu bakan herkes tarafından görülebilir.

İki Bağımsız Sinyal

İçsel: düşük kayıp + yüksek çeşitlilik + çoklu alan kapsama = bandit sağlıklı.

Dışsal: bağımsız inceleyici'den 9.5/10 = çıktı oranları iyi.

Her ikisi de uyumlu: eğitim gerçekçi hatırlama, kısıtlara uyma ve çok paragraflı tutarlılık üzerinde yakınsıyor. Eğer ayrışsalardı (düşük kayıp ama dışsal 3/10), incelememiz gereken bir metrik-oynama sorunu olurdu.

İki Sinyal, Tek Teşhis

ANDREA örneklerinin 100K adımında ve 150K adımında dışsal derecelendirme aldığını hayal edin. (a) 100K adım: içsel EMA kaybı 2.5, n-gram çeşitliliği 70/100, dışsal derecelendirme 3/10. İçsel ve dışsal arasındaki fark neyi önerir? (b) 150K adım: içsel EMA kaybı 2.0, çeşitlilik 85/100, dışsal 9/10. İçsel ve dışsalın uyumu neyi önerir? Her senaryo için bir cümle verin.

Her Denetim Penceresi İçin Beş Adım

Bir Denetim, Beş Kontrol

1. Kayıp katmanını oku. ppl = exp(loss). Beş katman tablosuyla eşleştir.

2. 0.20'nin altındaki aykırı değerleri kontrol et. Ezberleme sinyali. Kalite sonucu olarak tedavi etmeden önce araştır.

3. Gerçek örnek metnini oku. Kayıp sayıları çıktının ne dediğini söyleyemez. Onu oku.

4. Alan genişliğini sayın. 700 adımda altı ilgisiz alan = bandit sağlıklı. Bir alan 7 kez tekrarlanmış = bandit takılmış.

5. Dış değerlendirme ile karşılaştırın. Örnek size iyi görünüyorsa, çalışmanın dışından birine okutun. Onların disagreement'ı bilgi.

Bu Neye Bağlanıyor

- Activity 22 (grow_a_language_model_checkpoints). sample_every cadence, checkpoint cadence ile uyumlu; her ikisi de her 100 adımda ateşler.

- Activity 21 (coherence-gated early stopping). Örnekler çöktüğünde eğitimi otomatik durduran çeşitlilik metrikleri.

- Activity 24 (grow_a_language_model_microgpt_to_andrea). v1 çöküşü, v2.5 kontaminasyonu, v3 cilası örnek denetimi ile yakalanmış (veya yakalanabilirdi).

Tek Gerçek

Kayıp bir sayıdır. Örnekleri okumak, bu sayının ne anlama geldiğini bilmemizi sağlar.

Neyi İzleyeceksin?

Beş denetim kontrolünden (kayıp katmanı, 0.20'nin altındaki aykırı değerler, örnek metin, alan genişliği, harici derecelendirme) hangisine kendi modelini eğittiğinde en yüksek önceliği verirsin? 2-3 cümlelik gerekçeyle birini seç.