un — ANDREA'nın Geometrisi: Dil Modeli Eğitiminin Beş Mekânsal Görünümü [DESCRIPTION /]

un

konuk

1 / ?

derslere geri dön

Anlamsal Mesafe Olarak Öklid Mesafesi

Yüksek Boyutlu Bir Vektör Uzayı

ANDREA-120M'in 8449-token'lık kelime dağarcığındaki her token, R^768 içinde bir noktaya eşlenir. Token gömme matrisi 8449 x 768 şeklinde: 8449 satır, her biri bir kelime dağarcığı token'ına karşılık; 768 sütun, her biri bir gömme boyutuna karşılık.

ANDREA Geometrisi Panelleri

Bu Bir Vektör Uzayı Yapan Üç Özellik

1. Toplama. v_a + v_b, R^768 içinde kalır. İki gömme vektörünün toplamı geçerli bir vektördür.

2. Skaler çarpma. Herhangi bir gerçek sayı alpha için alpha * v, R^768 içinde kalır. Aynı doğrultuda uzatma veya kısaltma.

3. Doğrusallık. alpha v_a + beta v_b, R^768 içinde kalır. Doğrusal kombinasyonlar uzay içinde kalır.

Bu özellikler bize geometrik araçlar sağlar: uzaklık, açı, izdüşüm, taban, diklik.

Anlamsal Benzerlik Olarak Mesafe

İki gömme vektörünün kosinüs benzerliği, aralarındaki açıyı ölçer: cos(theta) = (v_a . v_b) / (||v_a|| * ||v_b||). Aralık: -1 (zıt) ile +1 (paralel) arasındadır.

Eğitim sonrası gözlenen desen: benzer bağlamlara sahip token'lar yüksek kosinüs benzerliğine sahip gömme vektörleri üretir. ANDREA-120M, parakeet ve monkey kelimelerini birbirine yakın yerleştirir (her ikisi de biyolojik, her ikisi de tür, her ikisi de var olan veya soyu tükenmiş kategoriler). Fourier ve transform kelimelerini birbirine yakın yerleştirir (sinyal işleme bağlamı). parakeet ve Fourier kelimelerini birbirinden uzak yerleştirir (alanlar arası ortogonallik).

Neden R^768 Değil de R^384

ANDREA-12M, d_model = 384 kullanmıştır. ANDREA-120M bunu 768'e çıkarmıştır. Bu ikiye katlama önemlidir: 384 boyutlu bir uzayda mevcut 'açı' sayısı daha azdır ve alanlar arası ayrım zorlaşır. Kapasitenin ikiye katlanması, modelin bank (nehir) ile bank (finansal) gibi kelimeleri gömme uzayında farklı havzalara ayırmasına olanak tanır, böylece birinin diğerine çökmesi önlenir.

Gömme Güncellemeleri Vektör Çevirisi Olarak

Her gradyan adımı, v_token'a delta_v ekler. Geometrik olarak: R^768 uzayındaki küçük çeviriler, her token'ın konumunu kaybı azaltan komşu bölgelere doğru iter. 200K adım boyunca her token, rastgele başlangıç konumundan öğrenilmiş bir konuma göç eder.

Bir Mesafe Hesaplama

Üç eğitilmiş gömme (aritmetik için R^3'e basitleştirilmiş):

- v(parakeet) = (1.0, 0.5, 0.0)

- v(monkey) = (1.2, 0.3, 0.1)

- v(Fourier) = (0.0, 0.0, 1.5)

(a) ||v(parakeet) - v(monkey)|| Öklid uzaklığını hesaplayın. (b) ||v(parakeet) - v(Fourier)|| Öklid uzaklığını hesaplayın. (c) Hangi iki token’ın kümeleştiğini belirtin ve gerçek sayıları belirterek geometrik bir gerekçe verin.

Sorgu Altuzayına Projeksiyon

Dikkat Mekanizmasının Hesapladığı Şey

t konumundaki bir token için dikkat mekanizması hesaplar:

softmax(Q K^T / sqrt(d_k)) V

Burada Q sorgu (bu token'ın sorusu), K anahtarlar (her geçmiş token'ın tanımlayıcısı), V değerler (her geçmiş token'ın içeriği) anlamına gelir. Çıktı, sorgunun her anahtarla ne kadar ilişkili olduğuna göre ağırlıklandırılmış V'leri karıştırır.

Geometrik Yorum

K'yi R^d_k uzayındaki vektörlerin bir listesi olarak düşünün. Her satır, bir geçmiş token'ın anahtarını temsil eder. Q ise R^d_k uzayında tek bir vektördür: bu token'ın sorusu.

Q K^T, her anahtarı Q üzerine yansıtır. q . k_i nokta çarpımı, k_i'nin q yönü boyunca ne kadar uzandığını ölçer. Uzun izdüşüm = anahtarın sorguya güçlü şekilde ilgili olduğu anlamına gelir. Kısa izdüşüm = anahtarın sorguya neredeyse hiç ilgili olmadığı anlamına gelir.

softmax, izdüşümleri toplamı 1 olan ağırlıklara dönüştürür. V'nin ağırlıklı toplamı tek bir vektördür: geçmiş içeriğin, mevcut sorguya olan ilgiye göre ağırlıklandırılmış bir karışımı.

Çok Başlı Dikkat Mekanizması: Çoklu Alt-Uzay İzdüşümü

ANDREA-120M, 12 dikkat başı kullanır. d_model = 768; d_k = 768 / 12 = 64. Her baş, R^768 uzayının farklı bir 64-boyutlu alt-uzayına yansıtır. On iki baş, aynı diziye on iki bağımsız bakış açısı sağlar: bir baş dilbilgisel rolü izleyebilir, diğeri anlamsal benzerliği, bir diğeri ise uzun menzilli referansları takip edebilir.

Geometrik olarak: her baş, geçmişe baktığı 64-boyutlu yönelimli bir alt-uzay ('pencere') tanımlar.

Nedensel Maske

Decoder-only modeller, bir nedensel maske ekler: Q K^T matrisindeki köşegen üstü girdiler softmax’tan önce -sonsuz olarak ayarlanır. Geometrik olarak: gelecekteki herhangi bir tokene yapılan projeksiyon sıfır ağırlık alır. Token t yalnızca 0’dan t’ye kadar olan token’ları görebilir.

Bunun önemi: eğitim ve çıkarım simetrik hale gelir. Aynı ileri geçiş, aynı maskelenmiş projeksiyonlar, özel bir üretim mantığına gerek kalmaz.

sqrt(d_k) Ölçekleme

Ölçekleme yapılmazsa, nokta çarpımları d_k ile birlikte büyür. Büyük nokta çarpımları softmax’i tek-sıcak bölgelerine iter (bir ağırlık 1’e yakın, diğerleri 0’a yakın). sqrt(d_k) ile bölmek, projeksiyonları birim-varyans ölçeğinde tutar ve softmax’in keskinliğini geniş bir d_k aralığında korur.

Geometrik olarak: sqrt(d_k), projeksiyonların uzunluklarını normalize eder, böylece softmax altuzay boyutundan bağımsız olarak karşılaştırılabilir büyüklükler görür.

Bir Projeksiyonu Okuma

R^4 içinde üç anahtar ve bir sorgu (aritmetik için basitleştirilmiş):

- q = (1, 0, 1, 0)

- k_1 = (1, 0, 0, 0) [geçmiş token 1]

- k_2 = (0, 0, 1, 0) [geçmiş token 2]

- k_3 = (0, 1, 0, 1) [past token 3]

d_k = 4, yani sqrt(d_k) = 2.

(a) i = 1, 2, 3 için q . k_i değerlerini hesaplayın (nokta çarpımları). (b) Her birini sqrt(d_k) = 2'ye bölerek ölçeklenmiş skorları elde edin. (c) Softmax'ı açıkça hesaplamadan, hangi anahtarın EN BÜYÜK dikkat ağırlığını alacağını belirtin ve geometrik bir neden verin.

Gradient Descent as Path on Terrain

120M+1 Boyutlu Bir Yüzey

ANDREA-120M'in her ağırlık konfigürasyonu, R^120,000,000 uzayında bir noktadır. Kayıp L(w), her noktayı bir gerçel sayıya eşler: bu konfigürasyondaki eğitim kaybı. Birlikte, kayıp değerleri parametre uzayının üzerinde (120M+1)-boyutlu bir yüzey oluşturur.

Doğrudan görselleştirmek geometrik olarak imkânsızdır. Kavramsal olarak: bir arazi. Dağlar (yüksek kayıp), vadiler (düşük kayıp), eyer noktaları, platolar, sırtlar, havzalar.

Gradyan Yerel Eğim Olarak

grad L(w), R^120M içinde bir vektördür ve L'nin en dik ARTIS yönünü gösterir. Negatifini almak: -grad L(w) en dik yokuş aşağı yönü gösterir.

Bir AdamW adımı, w'yi negatif gradyan yönünde iter (m ve v'den gelen uyarlanabilir ölçeklendirme ile). Geometrik olarak: yüzey boyunca küçük bir adım, aşağı yönde, adım boyutu lr tarafından kontrol edilir.

v1'in Kötü Havzası

v1, ilk adımını LR = tepe (0.0003) ile taze başlatılmış ağırlıklar üzerinde attı. Geometrik görünüm: w_0 vahşice eğrilmiş bir bölgede duruyor (rastgele başlatma birçok yönde yüksek eğrilik içerir) ve tepe-LR adımı yanlış havzaya iniyor. Sonraki adımlar kaçamaz. Model, indiği yerden bulabildiği en düşük kayba sahip olduğu için 'bölge bölge bölge' üretmeye takılı kalır.

v2'nin Isınma Yolu

v2, LR'nin 0'dan tepeye yükseldiği 2000 küçük adım atar. Geometrik görünüm: w_0 önce eğriliğin düşük olduğu düzgün yönler boyunca nazikçe göç eder. 2000. adıma gelindiğinde w daha yönetilebilir bir bölgeye taşınmıştır; tepe LR artık onu daha iyi bir havzaya doğru aşırı atlamadan yönlendirebilir.

Warmup, geometriye duyarlı bir başlatma protokolüdür: modeli zorlamadan önce güvenli bir yerel komşuluğu bulmasını sağlar.

Geniş vs Dar Havzalar

Adım 112K'da ANDREA-120M bir havzada yer alıyor. Soru: havza ne kadar geniş?

Geniş havza = birçok komşu ağırlık konfigürasyonu da düşük eğitim kaybı elde eder. Genelleme genellikle iyidir (havza genişliği test performansını öngörür; PAC-Bayes dersi, Bölüm 3'e bakın).

Dar havza = yalnızca dar bir ağırlık kümesi düşük kayıp sağlar. Genelleme genellikle zarar görür.

Adım 112.619'daki v3 cilası, modeli müfredat pertürbasyonu yoluyla daha geniş bir havzaya (sıfırlamadan) kaydırdı: kayıp fonksiyonunu değiştir (farklı bandit, farklı eğitim karışımı), SGD'nin yeni politika altında yakın düz bir bölgeyi bulmasını sağla.

Zombi Uçurumu

Adım 112.080'deki anomali kayıp 0.13 bir UÇURUM idi: belirli bir giriş deseninin (ezberlenmiş repo-docs alt dizgesi) neredeyse sıfır kayba ulaştığı keskin, dar bir bölge. Model daha geniş havzadan dar bir vadiye düştü. Polish-pivot'un repo-docs'u sert dışlaması bu vadiyi doldurdu, böylece SGD artık onu bulamadı.

Arazinin Okunması

Bir polish pivot sonrası üç ağırlık konfigürasyonu. (a) Konfigürasyon A: eğitim kaybı 2.0 ve 0.1 mesafesindeki küçük pertürbasyonların %95'i hâlâ < 2.2 kayıp üretir. (b) Konfigürasyon B: eğitim kaybı 2.0 ve 0.1 mesafesindeki küçük pertürbasyonların %5'i hâlâ < 2.2 kayıp üretir. (c) Konfigürasyon C: belirli bir girdide eğitim kaybı 0.13 ancak diğer girdilerde ortalama kayıp 8.0. Her birini WIDE BASIN, NARROW BASIN veya CLIFF olarak sınıflandırın ve bir cümlelik geometrik gerekçe verin.

Müfredat Karışımı, Ayrık Bir Simpleks Üzerinde Yürüyüş Olarak

Simpleks Nedir

n-boyutlu bir simpleks (özellikle standart (n-1)-simpleks), her w_i >= 0 ve sum(w_i) = 1 koşulunu sağlayan n'li (w_1, w_2, ..., w_n) kümesidir.

n = 2 için: (1, 0) ile (0, 1) arasındaki doğru parçası. n = 3 için: köşeleri (1, 0, 0), (0, 1, 0), (0, 0, 1) olan üçgen. n = 16 (ANDREA'nın tam kaynak listesi) için: R^16 içinde yer alan 15-boyutlu simpleks.

Bandit Ağırlıkları Simpleks Koordinatları Olarak

ANDREA'nın bandit'i her fazda veri kaynakları üzerinde bir ağırlık vektörü w üretir. Her bileşen w_i, i kaynağını örnekleme olasılığıdır. Olasılıklar negatif değildir ve 1'e eşittir: her ağırlık vektörü simpleks üzerinde yer alır.

Köşeler = saf stratejiler (yalnızca tek bir kaynağı örnekle). İç = karışık stratejiler (birden fazla kaynağı, her birini pozitif olasılıkla örnekle). Kenarlar = yalnızca iki kaynağın karışımları.

Kaynak Tabanları Kısıtlı Bölge Olarak

ANDREA minimum ağırlıklar uygular: hermes3-general için taban 0.7 (parlatma sonrası). Bu, simpleks içinde bir alt-bölge oluşturur: yalnızca w_hermes3-general >= 0.7 olan ağırlık vektörleri erişilebilir.

Geometrik olarak: taban, simpleksi bir hiperdüzlemle keser. Erişilebilir bölge, her taban hiperdüzleminin doğru tarafındaki simpleks kısmıdır.

Sınırlar Diğer Kısıtlama Olarak

ANDREA ayrıca maksimum ağırlıklar da uygular: dictionary için sınır 0.25 (parlatma sonrası). Her sınır başka bir hiperdüzlemdir ve erişilebilir bölge her sınır hiperdüzleminin de doğru tarafında yer almalıdır.

Bir kaynağı tamamen dışlamak (sınır = 0.0) en güçlü sınırdır: koordinat sıfıra sabitlenir ve etkin simpleks bir boyut azalır.

Faz Geçişleri Simplex Yürüyüşleri Olarak

Her faz geçişi (her 7-42 adımda bir) yeni bir ağırlık vektörü üretir. Her yeni vektör, simplex üzerinde bir noktadır. 200K adım boyunca bandit, simplex'in erişilebilir bölgesinde uzun bir yol izler.

Rastgele fazlar = erişilebilir bölgenin içinde tekdüze-rastgele bir noktaya ışınlanma.

Bandit-kontrollü fazlar = tabanlar ve tavanlarla uyumlu UCB-en iyi köşeye doğru adım atma.

Polish pivot = erişilebilir bölgeyi yeniden çiz (yeni tabanlar, yeni tavanlar, bazı kaynaklar hariç tutulur) ve yürüyüş yeni başlangıç noktasından devam eder.

Neden Köşeler Tehlikelidir

Saf-kaynak fazları (bir w_i = 1, diğerleri = 0) simpleks köşelerinde yer alır. Çeşitlilik sıfırdır. Model yalnızca tek bir dağılım üzerinde eğitilir. v1'in çöküşü kısmen banditin repo-docs köşesine yakın kamp kurmasıyla ilişkilendirilir; örnekler yalnızca o kaynağın dağılımını yeniden üretmiştir.

Tabanlar köşe-kamp kurmayı önler: 0.7'lik bir taban, 'hiçbir kaynağın ağırlığının 0.7'nin altına düşmesine izin verme' der (veya öncelikli kaynaklar için taban ne ise).

Ulaşılabilir Bölgeyi Yürümek

Üç kaynak: hermes3-general (H), gutenberg (G), dictionary (D). Kısıtlar: H tabanı = 0.5, D üst sınırı = 0.25. (Örtük: tüm ağırlıklar >= 0, toplamı 1, başka kısıt yok.)

(a) Bandit (H=1.0, G=0, D=0) seçebilir mi? Neden ya da neden değil? (b) (H=0.5, G=0.5, D=0) seçebilir mi? (c) (H=0.5, G=0.25, D=0.25) seçebilir mi? (d) Bu 3-kaynaklı simplekste ulaşılabilir bölgenin geometrik olarak nasıl göründüğünü tanımlayın.

İlk 20K Adım İçin Boyutları Kısıtlama

v2'nin Müfredat Isınma Adımının Yaptığı

v2, curriculum_warmup_sources değerini yedi kaynağa ayarladı: hermes3-general, hermes3-creative, hermes3-roleplay, chat, smoltalk, oasst, gutenberg. İlk 20K adım boyunca SADECE bu yedi kaynak katkıda bulundu. 20K adımdan sonra tam 16-kaynaklı veri akışı devreye girdi.

Geometrik Yorum

Tam 16-kaynaklı simpleks R^16 içinde yer alır. 7 kaynağa kısıtlamak, 16 koordinattan 9'unu sıfıra düşürür. Bandit'in yürüyüşü, kaynak sayısından bir eksik olan 6-boyutlu bir alt-simpleks içinde gerçekleşir (toplam-1 kısıtı nedeniyle).

Geometrik olarak: tam simpleksin bir ALTÇEŞİDİ. Daha düşük boyutlu, daha düzgün, daha kolay gezilebilir.

Bu Erken Eğitimde Neden Yardımcı Olur

Eğitimin erken aşamalarında model henüz tutarlı bir dil öğrenmemiştir. Çeşitli kaynaklar onu karıştırır: her kaynağın kendi tarzı, kendi kelime dağarcığı dağılımı ve kendi örüntüsü vardır. Rastgele başlangıçta 16 kaynağı karıştırmak, modelin uyduramayacağı çok geniş bir hedef dağılımı oluşturur.

7 konuşma/düzyazı kaynağına kısıtlamak daha tekdüze bir hedef sağlar. Model önce kararlı bir temsil öğrenir, sonra genişletir.

Eğitim Sırasında Geometrik Yol

1. Adım 0 ile 20K (warmup). Yürüyüş 6-Boyutlu alt-simpleks üzerinde gerçekleşir. Modelde kararlı dil kalıpları ortaya çıkar.

2. Adım 20K ile 112K (tam firehose). Yürüyüş 15-Boyutlu tam simplekse genişler. Alan genişliği ortaya çıkar.

3. Adım 112K ve sonrası (polish). Yürüyüş tekrar kısıtlanır: repo-docs ve repo-docstrings dışlanır, konuşma tabanları yükseltilir. Tam simpleks içinde daha küçük bir çokgen; konuşma kalitesi pekiştirilir.

Neden Polish curriculum_warmup_steps = 0 Ayarlıyor

Polish, adım 112K’da devreye girer. Model zaten tutarlı dil konuşmaktadır. Şimdi bir alt-simplekse kısıtlamak genişliği kaybetmekten başka bir şey kazandırmaz (warmup faydası yalnızca taze-init modeller içindir). warmup_steps = 0 ayarlamak şunu söyler: tam simpleks üzerinde kal, ancak yeni üst ve alt sınırlarla.

Üç Geometri, Tek Eğitim Çalıştırması

v2 ısınma: düşük boyutlu alt-simpleks.

v2 hortum: tam 15-D simpleks.

v3 cilalama: daha küçük çokgen ile tam simpleks (daha fazla kısıtlama).

Aynı 200K-adımlı çalıştırma, üç farklı geometrik rejim. Her biri model olgunluğunun farklı bir aşaması için ayarlandı.

Altmanifoldu Okumak

(a) v2 warmup, 16 kaynaklı tam kümeden 7 kaynak kullanır. Warmup alt-simpleksinin boyutu nedir? Hesaplayın ve belirtin. (b) ANDREA-120M v3 polish, repo-docs ve repo-docstrings kaynaklarını hard-exclude eder (cap 0.0), ancak kalan 14 kaynağa izin verir. Polish alt-simpleksinin boyutu nedir? (c) Polish yapılandırmasında curriculum_warmup_steps = 0 ayarlamak geometrik olarak ne anlama gelir?