PAC als een twee-assenvlak
Twee assen, één steekproefteloppervlak
Zet ε op de horizontale as (foutstolerantie, bereik 0 tot 1). Zet δ op de verticale as (faalwaarschijnlijkheid, bereik 0 tot 1). Elk punt in dit eenheidsvierkant komt overeen met een (ε, δ) vraagpaar.
Boven elk punt ligt een steekproeftelwaarde m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). Samen traceren die m-waarden een gebogen oppervlak boven ons vierkant. Strengere vereisten (kleinere ε, kleinere δ) trekken ons oppervlak omhoog; losser vereisten vlakken het af.
Iso-steekproeftelcontourlijnen
Project ons oppervlak terug naar het vlak als iso-m-contourlijnen. Elk (ε, δ) paar op één contourlijn vereist dezelfde steekproeftelbudget. Beweeg langs een contourlijn om foutstolerantie in te wisselen voor betrouwbaarheid tegen vaste kosten.
Een as halveren
Halvering van ε langs onze horizontale beweegt m omhoog met factor 2 (lineair in 1/ε). Halvering van δ langs onze verticale beweegt m omhoog met ln(2) ≈ 0,69 (logaritmisch in 1/δ). Meetkunde vertelt ons: foutstolerantie draagt een steilere kost dan betrouwbaarheid.
Het budgetoppervlak aflezen
We zitten op punt (ε = 0,05, δ = 0,05) voor hypotheseklasse |H| = 10⁶. Steekproefvereiste m₀ = (1/0,05)(ln(10⁶) + ln(20)) = 20 × (13,8 + 3,0) = 336.
Dichotomieën op puntenwolken
Wat splintering eruit ziet
Plaats n punten in ons vlak. Kies een hypotheseklasse (lineaire classifiers = rechte lijnen). Tel hoeveel verschillende manieren onze klasse die n punten kan labelen (+/− aan elke kant van een lijn). Noem dit getal Π_H(n).
Als Π_H(n) = 2ⁿ, splintert onze klasse die puntenverzameling — ze kan elke mogelijke labeling produceren. Als Π_H(n) < 2ⁿ, kunnen sommige labelingen niet voorkomen.
Drie punten in algemene positie
Lineaire classifiers in ℝ² splinteren elk 3 niet-collineair punten. 2³ = 8 labelingen; alle 8 bereikbaar door een bepaalde lijn. Kies willekeurig 3 punten; voor elk +/− labeling, teken een lijn die positieven van negatieven scheidt.
Vier punten weigeren te splinteren
Plaats 4 punten op hoeken van een vierkant. Probeer het diagonale paar als positief & anti-diagonale paar als negatief te labelen (XOR-labeling). Geen rechte lijn scheidt hen. Dus Π_H(4) ≤ 14 < 16 = 2⁴.
VC-dimensie als maximale splintermaat
VC(lineair ℝ²) = 3. We kunnen 3 punten splinteren; we kunnen 4 niet splinteren. VC telt maximale dichotomiecapaciteit van onze hypotheseklasse.
Geometrische intuïtie
Hogere VC = onze klasse tekent uitwerkere beslissingsgrenzen. Lineair (VC = d+1 in d dimensies) tekent hypervlakken. Polynomen tekenen curven. Neurale netwerken tekenen zeer gevouwen variëteiten. Meer plooibaarheid = meer dichotomieën = hogere VC = hogere steekproefvereiste.
Dichotomieën tellen
Beschouw lineaire classifiers in ℝ² (lijnen). We hebben 5 punten in algemene positie (geen 3 collineair, geen redundant).
Waarschijnlijkheidsmassa op hypothesevariëteit
PAC-Bayes pictureren
Pictureer onze hypotheseruimte als een hoog-dimensionale variëteit. Elk punt op deze variëteit komt overeen met één gewichtsconfiguratie van een neuraal netwerk. Voorafgaand P wijst een waarschijnlijkheidsverdeling over de variëteit toe (vaak Gaussiaans gecentreerd bij initialisatie). Posterieure Q concentreert waarschijnlijkheidsmassa waar trainingsdata onze gewichten dreef.
KL-divergentie als geometrische afstand
KL(Q‖P) meet hoe ver Q van P afdreef. Geometrische lezing: hoever onze posterieure wolk van voorafgaande wolk bewegde, gewogen door hoe onwaarschijnlijk elke posterieuregebied onder onze voorafgaande was.
Klein KL = Q overlapt P zwaar. Posterieure nauwelijks verplaatst. Generaliseringsgat klein.
Groot KL = Q geconcentreerd in regio's waaraan P weinig massa toewijst. Posterieure veel verplaatst. Generaliseringsgat groeit.
Waarom deze meetkunde er toe doet
Stel SGD voor als een zoektraject over onze hypothesevariëteit. Traject eindigt in een kom van lage trainingsverlies. PAC-Bayes vraagt: hoe breed is deze kom?
Brede kom = veel nabijgelegen gewichtsconfiguraties bereiken ook lage trainingsverlies. Posterieure Q kan zich uitspreiden over brede regio & nog steeds lage risico hebben. KL(Q‖P) blijft begrensd. Generaliseringsgat klein.
Smalle kom = slechts dunne gewichtenverzameling bereikt lage verlies. Posterieure moet scherp concentreren. KL groeit. Generaliseringsgat verbreed.
Dit verbindt direct met vlak-versus-scherp minima-discourse (Hochreiter & Schmidhuber 1997, Keskar et al 2017). Vlakke minima generaliseren beter omdat ze bredere posterioren met kleinere KL ondersteunen.
Een komdynamiek aflezen
Twee getrainde modellen bereiken identieke trainingsverlies maar leven in verschillende komma:
- Model A: brede kom, posterieure spreidt over regio met KL(Q_A‖P) = 50 nats.
- Model B: scherpe kom, posterieure concentreert met KL(Q_B‖P) = 500 nats.
Beide getraind op n = 10.000 voorbeelden met empirisch risico 0,05, δ = 0,05.
Een curve die daalt waar theorie voorspelde te stijgen
Klassieke U-curve
Zet modelcapaciteit op horizontale as. Zet tesrisico op verticale as. Klassieke bias-variantietheorie voorspelt:
- Lage capaciteit: hoge bias, hoog tesrisico (onderfit)
- Middencapaciteit: lage bias + lage variantie, laag tesrisico (zoet plek)
- Hoge capaciteit: lage bias, hoge variantie, hoog tesrisico (overfit)
Resultaat: U-vormige curve. Kies capaciteit aan onze bodem.
Wat Belkin et al (2019) observeerden
Past interpolatiedrempel (capaciteit waar model trainingsgegevens exact aanpast met nulverlies), tesrisico DAALT opnieuw. Curve leest: afdaling → piek bij interpolatie → tweede afdaling. Twee afdalingen, één curve.
Geometrische lezing van tweede afdaling
Bij interpolatiedrempel heeft model juist genoeg capaciteit om trainingsgegevens aan te passen — slechts één (of weinige) interpolatieoplossing bestaat & ze neigen naar gehavend te zijn. Generalisering lijdt omdat gekozen oplossing gedwongen is.
Past interpolatiedrempel, VEEL interpolatieoplossingen bestaan. SGD heeft vrijheid om gladde te kiezen (minimale norm, laag-kromming). Geometrische beeld: oplossingsveelvould wordt breder & vlakker. SGD's impliciete regularisatie kiest goeie oplossingen uit deze vlakke veelvould. Tesrisico daalt.
Waarom klassieke theorie dit mist
VC-dimensie telt oplossingsverzamelingcapaciteit maar negeert welke oplossing gekozen wordt. Klassieke gat aanneemt ergste-geval empirische risicominimaalgever. Werkelijkheid: SGD kiest consistent onze vlakste, gladste interpolatieoplossing. Zodra we OPLOSSER-GEKOZEN oplossingen tellen in plaats van alle oplossingen, tweede afdaling maakt zin.
Geometrische afhaalmededeling
Capaciteit doet minder ertoe dan komgeometrie. Brede vlakke komma (na-interpolatie) generaliseren beter dan smalle scherpe ene (bij interpolatie). Moderne theorie probeert generalisering te begrenzen met komwidten, niet met parametertelling.
De twee afdalingen lokaliserend
Op een dubbel-afdalingscurve, drie regio's belang: (1) onderparameterized regime, (2) interpolatiepiek, (3) overparameterized regime.
Machtswet-oppervlak in parameter-tokenruimte
Een 3D-oppervlak
Zet parameters N op één horizontale as. Zet tokens D op tweede horizontale as. Zet verlies L op verticale. Empirisch verlies snijdt machtswet-oppervlak over deze (N, D) vlak:
L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞
Oppervlak hellingen afwaarts naarmate N of D groeit. Hellingen volgen log-lineaire machtswetten (rechte lijnen in log-log plot). Asymptote L∞ blijft positief — onherleidbaar verlies ons model kan niet voorbij krimpen.
Bereken-optimale bergkam
Fixeer totaal berekenbudget C ∝ N × D (parameters × tokens, ruwweg). Snijd ons oppervlak langs deze beperking. Snijdtrace snijdt 2D curve door 3D oppervlak. Onderkant van deze curve = bereken-optimal punt.
Chinchilla (Hoffmann et al 2022) berekeninged dit onderkant analytisch: D_opt ≈ 20 × N. Curve langs berekenbudget = bergkam. Wandelen langs bergkam: gelijk bereiken, afnemend verlies. Wandelen van bergkam (meer parameters dan 20× tokens, of minder): verkwist bereiken.
Geometrische lezing van GPT-3 versus Chinchilla
GPT-3: 175B params, 300B tokens. Chinchilla-optimaal zou 175B × 20 = 3500B tokens willen. GPT-3 zit ver van bereken-optimale bergkam in onze parameter-zware richting. Chinchilla zelf: 70B params getraind op 1400B tokens. 1400 / 70 = 20 — precies op bergkam. Chinchilla versloeg GPT-3 met minder dan helft zijn parametertelling door op geometrische optimum te zitten.
Datamuur als verticaal vlak
Openbare web ~10¹³ bruikbare tokens. Dit zet als verticale muur op D = 10¹³ op ons parameter-token vlak. Voorbij deze muur, bereken-optimale training vereist N ≤ D / 20 = 5 × 10¹¹ params. Muren voorbij N = 5 × 10¹¹ opereert óf ondertraind (van-bergkam) óf vereist synthetisch / multimodaal / RL-gegevens om muur naar buiten te duwen.
Wandelen de bereken-optimale bergkam
We zitten op GPT-3-coördinaten: N = 175B params, D = 300B tokens. Bereken proxy C = N × D = 5,25 × 10²² param-tokens.
Beta posterieure vernauwing in naald
Een waarschijnlijkheidsdichtheid op [0, 1]
Beta(α, β) is waarschijnlijkheidsdichtheid over de eenheidsinterval [0, 1]. Variabel: ε = waar foutsnelheid. Vorm: α beheerst massa op hoog-ε kant; β beheerst massa op laag-ε kant.
Beta(1, 1): uniform — geen informatie, vlakke dichtheid over [0, 1].
Beta(α, β) met α + β groot: geconcentreerde piek op α / (α + β).
Breedte van Beta piek krimp als 1/√(α+β). Toevoeging 100 observaties tot voorafgaande strakker piek door factor √100 = 10. Toevoeging 10000 observaties strakker door √10000 = 100.
Geometrische lezing van een auditrun
Begin: Beta(1, 1) = vlak rechthoek op [0, 1]. Maximum onzekerheid over ε.
Na 200 vragen met 8 vervalsingen: Beta(9, 193). Gemiddelde = 9/202 ≈ 0,045. Dichtheid nu scherpe bult gecentreerd dicht bij 0,045 met karakteristieke breedte σ ≈ 0,014.
Na 2000 vragen met 80 vervalsingen: Beta(81, 1921). Gemiddelde nog steeds ≈ 0,045, maar breedte σ ≈ 0,0046. Bult driemaal scherper.
Na 200.000 vragen met 8000 vervalsingen: Beta(8001, 192.001). Gemiddelde ≈ 0,040, breedte σ ≈ 0,0004. Bult wordt naald.
Geometrische convergentie naar puntmassa
Naarmate n → ∞, Beta posterieure instort naar Dirac delta op waar ε. Meetkunde: rechthoek → brede bult → smalle bult → naald → punt. Elke vraag strakker onze verdeling door 1/√n.
Waarom dit theoretische PAC-grenzen versloept
Theoretische PAC-grenzen geven STATISCHE ε-schatting op basis van hypotheseklassegrootte. Beta posterieure geeft DYNAMISCHE ε-schatting die strakker met elke observatie, gekalibreerd tegen uw werkelijke verdeling. Theoretische gat = garantie onder ergste-geval aannames. Empirische audit = meting van werkelijke werkelijkheid.
Hoeveel vragen om geloofwaardig-interval halveert?
We zitten op Beta(9, 193) na 200 vragen: gemiddelde ε ≈ 0,045, σ ≈ 0,014. We willen geloofwaardig-interval-breedte tot σ ≈ 0,007 halveert.