un — Geometri Pembelajaran PAC

un

tamu

1 / ?

kembali ke pelajaran

PAC sebagai Bidang Dua Sumbu

Dua Sumbu, Satu Permukaan Penghitungan Sampel

Plot ε pada sumbu horizontal (toleransi kesalahan, rentang 0 hingga 1). Plot δ pada sumbu vertikal (probabilitas kegagalan, rentang 0 hingga 1). Setiap titik dalam persegi satuan ini sesuai dengan sepasang permintaan (ε, δ).

PAC ε δ Budget Plane

Di atas setiap titik ada nilai penghitungan sampel m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). Bersama-sama, nilai m tersebut melacak permukaan melengkung di atas persegi kami. Permintaan yang lebih ketat (ε lebih kecil, δ lebih kecil) menarik permukaan kami ke atas; permintaan yang lebih longgar meratakan itu.

Garis Kontur Iso-Sampel

Proyeksikan permukaan kami kembali ke bidang kami sebagai kontur iso-m. Setiap pasangan (ε, δ) pada satu kontur memerlukan anggaran sampel kami yang sama. Bergerak sepanjang kontur untuk menukar toleransi kesalahan dengan kepercayaan pada biaya tetap.

Membagi Dua Sumbu

Membagi dua ε di sepanjang horizontal kami memindahkan m naik dengan faktor 2 (linear dalam 1/ε). Membagi dua δ di sepanjang vertikal kami memindahkan m naik dengan ln(2) ≈ 0,69 (logaritmik dalam 1/δ). Geometri memberitahu kami: toleransi kesalahan membawa biaya yang lebih curam daripada kepercayaan.

Membaca Permukaan Anggaran

Kami berada di titik (ε = 0,05, δ = 0,05) untuk kelas hipotesis |H| = 10⁶. Persyaratan sampel m₀ = (1/0,05)(ln(10⁶) + ln(20)) = 20 × (13,8 + 3,0) = 336.

(a) Hitung persyaratan sampel baru m₁ pada (ε = 0,025, δ = 0,05) — separuh kesalahan, kepercayaan sama. (b) Hitung m₂ pada (ε = 0,05, δ = 0,025) — kesalahan sama, separuh probabilitas kegagalan. (c) Sumbu mana yang membawa biaya sampel yang lebih curam, & dengan rasio berapa?

Dikotomi pada Awan Titik

Apa Shattering Terlihat Seperti

Tempatkan n titik di bidang kami. Pilih kelas hipotesis (pengklasif linear = garis lurus). Hitung berapa banyak cara berbeda kelas kami dapat memberi label titik-titik tersebut (+/− di setiap sisi garis). Sebut hitungan ini Π_H(n).

VC Shattering Three Points

Jika Π_H(n) = 2ⁿ, kelas kami shatters set titik tersebut — dapat menghasilkan setiap kemungkinan pelabelan. Jika Π_H(n) < 2ⁿ, beberapa pelabelan tidak dapat terjadi.

Tiga Titik dalam Posisi Umum

Pengklasif linear dalam ℝ² shatters titik 3 yang tidak kolinear. 2³ = 8 pelabelan; semua 8 dapat dicapai oleh beberapa garis. Pilih titik apa pun 3; untuk setiap ±/± pelabelan, gambar garis yang memisahkan positif dari negatif.

Empat Titik Menolak Shattering

Tempatkan 4 titik di sudut persegi. Coba beri label pasangan diagonal sebagai positif & pasangan anti-diagonal sebagai negatif (pelabelan XOR). Tidak ada garis lurus yang memisahkan mereka. Jadi Π_H(4) ≤ 14 < 16 = 2⁴.

Dimensi VC sebagai Ukuran Shattering Maksimum

VC(linear ℝ²) = 3. Kami dapat shattering 3 titik; kami tidak dapat shattering 4. VC menghitung kapasitas dikotomi maksimum dari kelas hipotesis kami.

Intuisi Geometris

VC lebih tinggi = kelas kami menggambar batas keputusan yang lebih rumit. Linear (VC = d+1 dalam d dimensi) menggambar hiperplane. Polinomial menggambar kurva. Jaringan neural menggambar manifold yang sangat terlipat. Lipatan lebih = lebih banyak dikotomi = VC lebih tinggi = persyaratan sampel lebih tinggi.

Menghitung Dikotomi

Pertimbangkan pengklasif linear dalam ℝ² (garis). Kami memiliki 5 titik yang ditempatkan dalam posisi umum (tidak ada 3 kolinear, tidak ada yang berlebihan).

(a) Hitung 2⁵ = jumlah semua pelabelan ±/± yang mungkin. (b) Lemma Sauer-Shelah membatasi Π_H(n) ≤ Σ_{i=0}^{d} C(n, i) di mana d = VC(H). Terapkan ini dengan d = 3, n = 5: hitung C(5,0) + C(5,1) + C(5,2) + C(5,3). (c) Nyatakan dengan faktor berapa garis jatuh pendek dari shattering penuh.

Massa Probabilitas pada Manifold Hipotesis

Membayangkan PAC-Bayes

Bayangkan ruang hipotesis kami sebagai manifold berdimensi tinggi. Setiap titik pada manifold ini sesuai dengan satu konfigurasi bobot jaringan neural. Prior P menetapkan distribusi probabilitas di seluruh manifold kami (sering Gaussian yang berpusat pada inisialisasi). Posterior Q memusatkan massa probabilitas di mana data pelatihan mendorong bobot kami.

PAC Bayes Posterior over Hypothesis Space

Perbedaan KL sebagai Jarak Geometris

KL(Q‖P) mengukur seberapa jauh Q bergerak dari P. Bacaan geometris: seberapa jauh awan posterior kami bergerak dari awan prior, diboboti oleh seberapa tidak mungkin setiap wilayah posterior di bawah prior kami.

KL kecil = Q tumpang tindih P banyak. Posterior hampir tidak bergerak. Celah generalisasi tetap kecil.

KL besar = Q terkonsentrasi dalam wilayah yang P berikan sedikit massa ke. Posterior bergerak banyak. Celah generalisasi tumbuh.

Mengapa Geometri Ini Penting

Bayangkan SGD sebagai lintasan pencarian di seluruh manifold hipotesis kami. Lintasan berakhir di cekungan kehilangan pelatihan rendah. PAC-Bayes bertanya: seberapa lebar cekungan ini?

Cekungan lebar = banyak konfigurasi bobot tetangga juga mencapai kehilangan pelatihan rendah. Posterior Q dapat menyebar di wilayah lebar & masih memiliki risiko rendah. KL(Q‖P) tetap terbatas. Celah generalisasi kecil.

Cekungan sempit = hanya set bobot tipis yang mencapai kehilangan rendah. Posterior harus berkonsentrasi tajam. KL tumbuh. Celah generalisasi melebar.

Ini menghubungkan secara langsung ke diskursus minima datar-vs-tajam (Hochreiter & Schmidhuber 1997, Keskar et al 2017). Minima datar menggeneralisasi lebih baik karena mendukung posterior yang lebih lebar dengan KL lebih kecil.

Membaca Lebar Cekungan

Dua model terlatih mencapai kehilangan pelatihan identik tetapi tinggal di cekungan berbeda:

- Model A: cekungan datar, posterior menyebar di wilayah dengan KL(Q_A‖P) = 50 nats.

- Model B: cekungan tajam, posterior berkonsentrasi dengan KL(Q_B‖P) = 500 nats.

Keduanya dilatih pada n = 10.000 contoh dengan risiko empiris 0,05, δ = 0,05.

Hitung celah generalisasi PAC-Bayes √[(KL + ln(2√n/δ)) / 2n] untuk setiap model. Kemudian nyatakan model mana yang menggeneralisasi lebih baik & berikan alasan geometrisnya.

Kurva yang Jatuh Di Mana Teori Memprediksi Naik

Kurva U Klasik

Plot kapasitas model pada sumbu horizontal. Plot risiko tes pada sumbu vertikal. Teori bias-varians klasik memprediksi:

- Kapasitas rendah: bias tinggi, risiko tes tinggi (underfitting)

- Kapasitas menengah: bias rendah + varians rendah, risiko tes rendah (sweet spot)

- Kapasitas tinggi: bias rendah, varians tinggi, risiko tes tinggi (overfitting)

Hasil: kurva berbentuk U. Pilih kapasitas di bagian bawah kami.

Double Descent Curve

Apa yang Belkin et al (2019) Amati

Melewati ambang interpolasi (kapasitas di mana model cocok dengan data pelatihan dengan kesalahan nol), risiko tes JATUH lagi. Kurva membaca: descent → puncak pada interpolasi → descent kedua. Dua descent, satu kurva.

Bacaan Geometris Descent Kedua

Pada ambang interpolasi, model memiliki cukup kapasitas untuk menyesuaikan data pelatihan — hanya satu (atau sedikit) solusi yang menginterpolasi ada & mereka cenderung bergerigi. Generalisasi menderita karena solusi yang dipilih dipaksa.

Melewati ambang interpolasi, BANYAK solusi yang menginterpolasi ada. SGD memiliki kebebasan untuk memilih yang halus (norma minimum, kurva rendah). Gambar geometris: manifold solusi menjadi lebih lebar & lebih datar. Bias implisit SGD memilih solusi jinak dari manifold datar ini. Risiko tes jatuh.

Mengapa Teori Klasik Melewatkan Ini

Dimensi VC menghitung kapasitas set solusi tetapi mengabaikan solusi mana yang dipilih. Batas klasik mengasumsikan minimizer risiko empiris kasus terburuk. Realitas: SGD secara andal memilih solusi interpolasi paling datar & paling halus kami. Setelah kami menghitung solusi YANG DIPILIH-SOLVER daripada semua solusi, descent kedua masuk akal.

Pengambilan Geometri

Kapasitas penting lebih sedikit daripada geometri cekungan. Cekungan datar lebar (post-interpolasi) menggeneralisasi lebih baik daripada yang sempit tajam (pada interpolasi). Teori modern mencoba membatasi generalisasi dengan lebar cekungan, bukan dengan jumlah parameter.

Menemukan Dua Descent

Pada kurva double descent, tiga wilayah penting: (1) rezim under-parameterized, (2) puncak interpolasi, (3) rezim over-parameterized.

Jelaskan secara geometris apa yang terjadi pada (a) lebar manifold solusi, (b) kurva cekungan pada minimum yang dipilih, & (c) peran regularisasi implisit di setiap dari tiga wilayah. Nyatakan region mana yang dioperasikan pelatihan modern (misalnya model GPT-class) & mengapa PAC klasik gagal memprediksi kesuksesannya.

Permukaan Hukum Pangkat dalam Ruang Parameter-Token

Permukaan 3D

Plot parameter N pada sumbu horizontal satu. Plot token D pada sumbu horizontal kedua. Plot kehilangan L pada vertikal. Kehilangan empiris mengukir permukaan hukum pangkat di seluruh bidang (N, D):

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

Compute Optimal Training Surface

Permukaan miring ke bawah saat N atau D tumbuh. Kemiringan mengikuti hukum pangkat log-linear (garis lurus dalam plot log-log). Asimptot L∞ tetap positif — kehilangan yang tidak dapat direduksi model kami tidak dapat menyusut melewatinya.

Ridge Compute-Optimal

Perbaiki anggaran compute total C ∝ N × D (parameter × token, kira-kira). Potong permukaan kami sepanjang batasan ini. Trace potongan memotong kurva 2D melalui permukaan 3D. Bagian bawah kurva ini = titik compute-optimal.

Chinchilla (Hoffmann et al 2022) menghitung bagian bawah ini secara analitik: D_opt ≈ 20 × N. Kurva sepanjang anggaran compute = ridge. Berjalan di sepanjang ridge: compute sama, kehilangan berkurang. Berjalan mati ridge (lebih banyak parameter daripada 20× token, atau lebih sedikit): compute terbuang.

Bacaan Geometris GPT-3 vs Chinchilla

GPT-3: 175B params, 300B tokens. Chinchilla-optimal ingin 175B × 20 = 3500B tokens. GPT-3 duduk jauh dari ridge compute-optimal dalam arah parameter-berat kami. Chinchilla itu sendiri: 70B params dilatih pada 1400B tokens. 1400 / 70 = 20 — persis di ridge. Chinchilla mengalahkan GPT-3 dengan kurang dari setengah jumlah parameternya dengan duduk di optimum geometris.

Dinding Data sebagai Bidang Vertikal

Web publik ~10¹³ token yang dapat digunakan. Ini plot sebagai dinding vertikal pada D = 10¹³ di bidang parameter-token kami. Melampaui dinding ini, pelatihan compute-optimal memerlukan N ≤ D / 20 = 5 × 10¹¹ params. Dinding melampaui N = 5 × 10¹¹ baik menjalankan under-trained (off-ridge) atau memerlukan data sintetis / multimodal / RL untuk mendorong dinding ke luar.

Berjalan di Ridge Compute-Optimal

Kami duduk di koordinat GPT-3: N = 175B params, D = 300B tokens. Proxy compute C = N × D = 5,25 × 10²² param-tokens.

(a) Hitung Chinchilla-optimal (N*, D*) untuk anggaran compute kami yang sama dengan menyelesaikan D* = 20 × N* dengan N* × D* = 5,25 × 10²². (b) Nyatakan dengan faktor berapa N* berbeda dari 175B GPT-3. (c) Jelaskan secara geometris apa yang 'berjalan dari titik GPT-3 ke (N*, D*) sepanjang kurva compute-konstan' terlihat pada permukaan parameter-token.

Beta Posterior Mengencil Menjadi Jarum

Kepadatan Probabilitas pada [0, 1]

Beta(α, β) adalah kepadatan probabilitas di seluruh interval satuan [0, 1]. Variabel: ε = tingkat kesalahan benar. Bentuk: α mengontrol massa di sisi ε tinggi; β mengontrol massa di sisi ε rendah.

Beta Posterior Tightening

Beta(1, 1): uniform — tidak ada informasi, kepadatan datar di seluruh [0, 1].

Beta(α, β) dengan α + β besar: puncak terkonsentrasi pada α / (α + β).

Lebar puncak Beta menyusut sebagai 1/√(α+β). Menambahkan 100 pengamatan ke prior kami mengencilkan puncak dengan faktor √100 = 10. Menambahkan 10000 pengamatan mengencilkan dengan √10000 = 100.

Bacaan Geometris dari Jalannya Audit

Mulai: Beta(1, 1) = persegi panjang datar pada [0, 1]. Ketidakpastian maksimum tentang ε.

Setelah 200 kueri dengan 8 falsifikasi: Beta(9, 193). Rata-rata = 9/202 ≈ 0,045. Kepadatan sekarang bernyanyi tajam di dekat 0,045 dengan lebar karakteristik σ ≈ 0,014.

Setelah 2000 kueri dengan 80 falsifikasi: Beta(81, 1921). Rata-rata masih ≈ 0,045, tetapi lebar σ ≈ 0,0046. Bernyanyi tiga kali lebih tajam.

Setelah 200.000 kueri dengan 8000 falsifikasi: Beta(8001, 192.001). Rata-rata ≈ 0,040, lebar σ ≈ 0,0004. Bernyanyi menjadi jarum.

Konvergensi Geometris ke Massa Titik

Saat n → ∞, posterior Beta runtuh ke delta Dirac pada ε benar. Geometri: persegi panjang → bernyanyi lebar → bernyanyi sempit → jarum → titik. Setiap kueri mengencilkan distribusi kami dengan 1/√n.

Mengapa Ini Mengalahkan Batas PAC Teoretis

Batas PAC teoretis memberikan estimasi ε STATIS berdasarkan ukuran kelas hipotesis. Posterior Beta memberikan estimasi ε DINAMIS yang mengencil dengan setiap pengamatan, dikalibrasi terhadap distribusi dunia nyata Anda. Batas teoretis = jaminan dalam asumsi kasus terburuk. Audit empiris = pengukuran realitas aktual.

Berapa Banyak Kueri untuk Mengurangi Setengah Interval Kredibel?

Kami saat ini duduk di Beta(9, 193) setelah 200 kueri: rata-rata ε ≈ 0,045, σ ≈ 0,014. Kami ingin mengurangi setengah lebar interval kredibel menjadi σ ≈ 0,007.

(a) Ingat σ skala sebagai 1/√(α+β). Untuk mengurangi setengah σ, dengan faktor berapa (α + β) harus tumbuh? (b) Saat ini α + β = 202. Hitung target α + β. (c) Hitung kueri tambahan yang diperlukan (dengan asumsi tingkat falsifikasi konstan ~4%). (d) Jelaskan secara geometris apa yang mengurangi setengah σ lakukan ke bentuk kepadatan Beta.