un — Meetkunde van PAC-leren

un

gast

1 / ?

terug naar lessen

PAC als een twee-assenvlak

Twee assen, één steekproefteloppervlak

Zet ε op de horizontale as (foutstolerantie, bereik 0 tot 1). Zet δ op de verticale as (faalwaarschijnlijkheid, bereik 0 tot 1). Elk punt in dit eenheidsvierkant komt overeen met een (ε, δ) vraagpaar.

PAC ε δ budgetvlak

Boven elk punt ligt een steekproeftelwaarde m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). Samen traceren die m-waarden een gebogen oppervlak boven ons vierkant. Strengere vereisten (kleinere ε, kleinere δ) trekken ons oppervlak omhoog; losser vereisten vlakken het af.

Iso-steekproeftelcontourlijnen

Project ons oppervlak terug naar het vlak als iso-m-contourlijnen. Elk (ε, δ) paar op één contourlijn vereist dezelfde steekproeftelbudget. Beweeg langs een contourlijn om foutstolerantie in te wisselen voor betrouwbaarheid tegen vaste kosten.

Een as halveren

Halvering van ε langs onze horizontale beweegt m omhoog met factor 2 (lineair in 1/ε). Halvering van δ langs onze verticale beweegt m omhoog met ln(2) ≈ 0,69 (logaritmisch in 1/δ). Meetkunde vertelt ons: foutstolerantie draagt een steilere kost dan betrouwbaarheid.

Het budgetoppervlak aflezen

We zitten op punt (ε = 0,05, δ = 0,05) voor hypotheseklasse |H| = 10⁶. Steekproefvereiste m₀ = (1/0,05)(ln(10⁶) + ln(20)) = 20 × (13,8 + 3,0) = 336.

(a) Bereken nieuwe steekproefvereiste m₁ op (ε = 0,025, δ = 0,05) — halve fout, dezelfde betrouwbaarheid. (b) Bereken m₂ op (ε = 0,05, δ = 0,025) — dezelfde fout, halve faalwaarschijnlijkheid. (c) Welke as draagt de steilere steekproefkost, & met welke verhouding?

Dichotomieën op puntenwolken

Wat splintering eruit ziet

Plaats n punten in ons vlak. Kies een hypotheseklasse (lineaire classifiers = rechte lijnen). Tel hoeveel verschillende manieren onze klasse die n punten kan labelen (+/− aan elke kant van een lijn). Noem dit getal Π_H(n).

VC splintering drie punten

Als Π_H(n) = 2ⁿ, splintert onze klasse die puntenverzameling — ze kan elke mogelijke labeling produceren. Als Π_H(n) < 2ⁿ, kunnen sommige labelingen niet voorkomen.

Drie punten in algemene positie

Lineaire classifiers in ℝ² splinteren elk 3 niet-collineair punten. 2³ = 8 labelingen; alle 8 bereikbaar door een bepaalde lijn. Kies willekeurig 3 punten; voor elk +/− labeling, teken een lijn die positieven van negatieven scheidt.

Vier punten weigeren te splinteren

Plaats 4 punten op hoeken van een vierkant. Probeer het diagonale paar als positief & anti-diagonale paar als negatief te labelen (XOR-labeling). Geen rechte lijn scheidt hen. Dus Π_H(4) ≤ 14 < 16 = 2⁴.

VC-dimensie als maximale splintermaat

VC(lineair ℝ²) = 3. We kunnen 3 punten splinteren; we kunnen 4 niet splinteren. VC telt maximale dichotomiecapaciteit van onze hypotheseklasse.

Geometrische intuïtie

Hogere VC = onze klasse tekent uitwerkere beslissingsgrenzen. Lineair (VC = d+1 in d dimensies) tekent hypervlakken. Polynomen tekenen curven. Neurale netwerken tekenen zeer gevouwen variëteiten. Meer plooibaarheid = meer dichotomieën = hogere VC = hogere steekproefvereiste.

Dichotomieën tellen

Beschouw lineaire classifiers in ℝ² (lijnen). We hebben 5 punten in algemene positie (geen 3 collineair, geen redundant).

(a) Bereken 2⁵ = aantal van alle mogelijke +/− labelingen. (b) Sauer-Shelah-lemma begrenst Π_H(n) ≤ Σ_{i=0}^{d} C(n, i) waarbij d = VC(H). Pas dit toe met d = 3, n = 5: bereken C(5,0) + C(5,1) + C(5,2) + C(5,3). (c) Zeg met welke factor lijnen volledig splinteren missen.

Waarschijnlijkheidsmassa op hypothesevariëteit

PAC-Bayes pictureren

Pictureer onze hypotheseruimte als een hoog-dimensionale variëteit. Elk punt op deze variëteit komt overeen met één gewichtsconfiguratie van een neuraal netwerk. Voorafgaand P wijst een waarschijnlijkheidsverdeling over de variëteit toe (vaak Gaussiaans gecentreerd bij initialisatie). Posterieure Q concentreert waarschijnlijkheidsmassa waar trainingsdata onze gewichten dreef.

PAC Bayes posterieure over hypotheseruimte

KL-divergentie als geometrische afstand

KL(Q‖P) meet hoe ver Q van P afdreef. Geometrische lezing: hoever onze posterieure wolk van voorafgaande wolk bewegde, gewogen door hoe onwaarschijnlijk elke posterieuregebied onder onze voorafgaande was.

Klein KL = Q overlapt P zwaar. Posterieure nauwelijks verplaatst. Generaliseringsgat klein.

Groot KL = Q geconcentreerd in regio's waaraan P weinig massa toewijst. Posterieure veel verplaatst. Generaliseringsgat groeit.

Waarom deze meetkunde er toe doet

Stel SGD voor als een zoektraject over onze hypothesevariëteit. Traject eindigt in een kom van lage trainingsverlies. PAC-Bayes vraagt: hoe breed is deze kom?

Brede kom = veel nabijgelegen gewichtsconfiguraties bereiken ook lage trainingsverlies. Posterieure Q kan zich uitspreiden over brede regio & nog steeds lage risico hebben. KL(Q‖P) blijft begrensd. Generaliseringsgat klein.

Smalle kom = slechts dunne gewichtenverzameling bereikt lage verlies. Posterieure moet scherp concentreren. KL groeit. Generaliseringsgat verbreed.

Dit verbindt direct met vlak-versus-scherp minima-discourse (Hochreiter & Schmidhuber 1997, Keskar et al 2017). Vlakke minima generaliseren beter omdat ze bredere posterioren met kleinere KL ondersteunen.

Een komdynamiek aflezen

Twee getrainde modellen bereiken identieke trainingsverlies maar leven in verschillende komma:

- Model A: brede kom, posterieure spreidt over regio met KL(Q_A‖P) = 50 nats.

- Model B: scherpe kom, posterieure concentreert met KL(Q_B‖P) = 500 nats.

Beide getraind op n = 10.000 voorbeelden met empirisch risico 0,05, δ = 0,05.

Bereken de PAC-Bayes generaliseringsgat √[(KL + ln(2√n/δ)) / 2n] voor elk model. Zeg dan welke beter generaliseert & geef de geometrische reden.

Een curve die daalt waar theorie voorspelde te stijgen

Klassieke U-curve

Zet modelcapaciteit op horizontale as. Zet tesrisico op verticale as. Klassieke bias-variantietheorie voorspelt:

- Lage capaciteit: hoge bias, hoog tesrisico (onderfit)

- Middencapaciteit: lage bias + lage variantie, laag tesrisico (zoet plek)

- Hoge capaciteit: lage bias, hoge variantie, hoog tesrisico (overfit)

Resultaat: U-vormige curve. Kies capaciteit aan onze bodem.

Dubbele afdaling curve

Wat Belkin et al (2019) observeerden

Past interpolatiedrempel (capaciteit waar model trainingsgegevens exact aanpast met nulverlies), tesrisico DAALT opnieuw. Curve leest: afdaling → piek bij interpolatie → tweede afdaling. Twee afdalingen, één curve.

Geometrische lezing van tweede afdaling

Bij interpolatiedrempel heeft model juist genoeg capaciteit om trainingsgegevens aan te passen — slechts één (of weinige) interpolatieoplossing bestaat & ze neigen naar gehavend te zijn. Generalisering lijdt omdat gekozen oplossing gedwongen is.

Past interpolatiedrempel, VEEL interpolatieoplossingen bestaan. SGD heeft vrijheid om gladde te kiezen (minimale norm, laag-kromming). Geometrische beeld: oplossingsveelvould wordt breder & vlakker. SGD's impliciete regularisatie kiest goeie oplossingen uit deze vlakke veelvould. Tesrisico daalt.

Waarom klassieke theorie dit mist

VC-dimensie telt oplossingsverzamelingcapaciteit maar negeert welke oplossing gekozen wordt. Klassieke gat aanneemt ergste-geval empirische risicominimaalgever. Werkelijkheid: SGD kiest consistent onze vlakste, gladste interpolatieoplossing. Zodra we OPLOSSER-GEKOZEN oplossingen tellen in plaats van alle oplossingen, tweede afdaling maakt zin.

Geometrische afhaalmededeling

Capaciteit doet minder ertoe dan komgeometrie. Brede vlakke komma (na-interpolatie) generaliseren beter dan smalle scherpe ene (bij interpolatie). Moderne theorie probeert generalisering te begrenzen met komwidten, niet met parametertelling.

De twee afdalingen lokaliserend

Op een dubbel-afdalingscurve, drie regio's belang: (1) onderparameterized regime, (2) interpolatiepiek, (3) overparameterized regime.

Beschrijf geometrisch wat gebeurt met (a) oplossingsvariëteitbreedte, (b) komsturing op gekozen minimum, & (c) impliciete regularisatierol op elk van drie regio's. Zeg welke regio moderne training (bijv. GPT-klasse modellen) in opereert & waarom klassieke PAC zijn succes niet voorspelt.

Machtswet-oppervlak in parameter-tokenruimte

Een 3D-oppervlak

Zet parameters N op één horizontale as. Zet tokens D op tweede horizontale as. Zet verlies L op verticale. Empirisch verlies snijdt machtswet-oppervlak over deze (N, D) vlak:

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

Bereken optimaal trainingoppervlak

Oppervlak hellingen afwaarts naarmate N of D groeit. Hellingen volgen log-lineaire machtswetten (rechte lijnen in log-log plot). Asymptote L∞ blijft positief — onherleidbaar verlies ons model kan niet voorbij krimpen.

Bereken-optimale bergkam

Fixeer totaal berekenbudget C ∝ N × D (parameters × tokens, ruwweg). Snijd ons oppervlak langs deze beperking. Snijdtrace snijdt 2D curve door 3D oppervlak. Onderkant van deze curve = bereken-optimal punt.

Chinchilla (Hoffmann et al 2022) berekeninged dit onderkant analytisch: D_opt ≈ 20 × N. Curve langs berekenbudget = bergkam. Wandelen langs bergkam: gelijk bereiken, afnemend verlies. Wandelen van bergkam (meer parameters dan 20× tokens, of minder): verkwist bereiken.

Geometrische lezing van GPT-3 versus Chinchilla

GPT-3: 175B params, 300B tokens. Chinchilla-optimaal zou 175B × 20 = 3500B tokens willen. GPT-3 zit ver van bereken-optimale bergkam in onze parameter-zware richting. Chinchilla zelf: 70B params getraind op 1400B tokens. 1400 / 70 = 20 — precies op bergkam. Chinchilla versloeg GPT-3 met minder dan helft zijn parametertelling door op geometrische optimum te zitten.

Datamuur als verticaal vlak

Openbare web ~10¹³ bruikbare tokens. Dit zet als verticale muur op D = 10¹³ op ons parameter-token vlak. Voorbij deze muur, bereken-optimale training vereist N ≤ D / 20 = 5 × 10¹¹ params. Muren voorbij N = 5 × 10¹¹ opereert óf ondertraind (van-bergkam) óf vereist synthetisch / multimodaal / RL-gegevens om muur naar buiten te duwen.

Wandelen de bereken-optimale bergkam

We zitten op GPT-3-coördinaten: N = 175B params, D = 300B tokens. Bereken proxy C = N × D = 5,25 × 10²² param-tokens.

(a) Bereken Chinchilla-optimaal (N*, D*) voor ons zelfde berekenbudget door D* = 20 × N* op te lossen met N* × D* = 5,25 × 10²². (b) Zeg met welke factor N* verschilt van GPT-3's 175B. (c) Beschrijf geometrisch wat 'wandelen van GPT-3's punt naar (N*, D*) langs constant-bereken curve' op het parameter-token oppervlak eruit ziet.

Beta posterieure vernauwing in naald

Een waarschijnlijkheidsdichtheid op [0, 1]

Beta(α, β) is waarschijnlijkheidsdichtheid over de eenheidsinterval [0, 1]. Variabel: ε = waar foutsnelheid. Vorm: α beheerst massa op hoog-ε kant; β beheerst massa op laag-ε kant.

Beta posterieure vernauwing

Beta(1, 1): uniform — geen informatie, vlakke dichtheid over [0, 1].

Beta(α, β) met α + β groot: geconcentreerde piek op α / (α + β).

Breedte van Beta piek krimp als 1/√(α+β). Toevoeging 100 observaties tot voorafgaande strakker piek door factor √100 = 10. Toevoeging 10000 observaties strakker door √10000 = 100.

Geometrische lezing van een auditrun

Begin: Beta(1, 1) = vlak rechthoek op [0, 1]. Maximum onzekerheid over ε.

Na 200 vragen met 8 vervalsingen: Beta(9, 193). Gemiddelde = 9/202 ≈ 0,045. Dichtheid nu scherpe bult gecentreerd dicht bij 0,045 met karakteristieke breedte σ ≈ 0,014.

Na 2000 vragen met 80 vervalsingen: Beta(81, 1921). Gemiddelde nog steeds ≈ 0,045, maar breedte σ ≈ 0,0046. Bult driemaal scherper.

Na 200.000 vragen met 8000 vervalsingen: Beta(8001, 192.001). Gemiddelde ≈ 0,040, breedte σ ≈ 0,0004. Bult wordt naald.

Geometrische convergentie naar puntmassa

Naarmate n → ∞, Beta posterieure instort naar Dirac delta op waar ε. Meetkunde: rechthoek → brede bult → smalle bult → naald → punt. Elke vraag strakker onze verdeling door 1/√n.

Waarom dit theoretische PAC-grenzen versloept

Theoretische PAC-grenzen geven STATISCHE ε-schatting op basis van hypotheseklassegrootte. Beta posterieure geeft DYNAMISCHE ε-schatting die strakker met elke observatie, gekalibreerd tegen uw werkelijke verdeling. Theoretische gat = garantie onder ergste-geval aannames. Empirische audit = meting van werkelijke werkelijkheid.

Hoeveel vragen om geloofwaardig-interval halveert?

We zitten op Beta(9, 193) na 200 vragen: gemiddelde ε ≈ 0,045, σ ≈ 0,014. We willen geloofwaardig-interval-breedte tot σ ≈ 0,007 halveert.

(a) Terugroeping σ schalen als 1/√(α+β). Om σ te halveert, met welke factor moet (α + β) groeien? (b) Momenteel α + β = 202. Bereken doel α + β. (c) Bereken extra vragen nodig (aannemend constant ~4% vervalsingssnelheid). (d) Geometrisch beschrijv wat σ halveert doet aan vorm van Beta dichtheid.