un — PAC Learning: Van theorie tot productie-audit [DESCRIPTION /]

un

gast

1 / ?

terug naar lessen

Probably Approximately Correct

Valiants vraag (1984)

Leslie Valiant stelde een bedrieglijk eenvoudige vraag: wat betekent het voor een machine om te leren? Niet 'kan het memoriseren?' Niet 'kan het perfect voorspellen?' In plaats daarvan: kan het ongeveer goed leren, met hoge waarschijnlijkheid, uit een eindige steekproef, in polynomiale tijd?

Dat kader leverde hem in 2010 een Turing Award op en legde de basis voor de computationele leertheorie.

PAC ε δ Budget Plane

Twee Knoppen

ε (epsilon) — fouttolerantie. Ongeveer correct betekent fout ≤ ε. Kleinere ε = strengere leerconditie.

δ (delta) — betrouwbaarheidsparameter. Waarschijnlijk betekent kans op succes ≥ 1 − δ. Kleinere δ = meer vereiste zekerheid.

[BLOCK_TYPE SECTION/STEP]

Definitie

[BLOCK_TYPE SECTION/STEP]

Een conceptklasse C wordt PAC-leerbaar genoemd als er een algoritme bestaat dat, voor elke datadistributie D en elk doelconcept c ∈ C, gegeven m steekproeven getrokken uit D en gelabeld door c, een hypothese h teruggeeft die voldoet aan: [BLOCK_TYPE SECTION/STEP]

[BLOCK_TYPE SECTION/STEP]

P[error(h) ≤ ε] ≥ 1 − δ [BLOCK_TYPE SECTION/STEP]

[BLOCK_TYPE SECTION/STEP]

met m polynomiaal in 1/ε, 1/δ en de grootte van het concept. [BLOCK_TYPE SECTION/STEP]

In het Nederlands: geef het genoeg voorbeelden en het komt vaak genoeg dicht genoeg in de buurt, en 'genoeg' groeit niet exponentieel.

Samplecomplexiteit voor eindige hypothesenruimten

Als onze hypothesenruimte H een eindig aantal kandidaathypothesen bevat, geeft de klassieke analyse:

m ≥ (1/ε)(ln|H| + ln(1/δ))

Lees die formule als een budget. Halveer je ε en je hebt twee keer zoveel voorbeelden nodig. Halveer je δ en je voegt alleen een constante toe. Verdubbel je |H| en je voegt ln(2) voorbeelden toe — logaritmische schaling, een prachtig beheersbare groei.

Een steekproefgrootte bepalen voor een hypotheseklasse

Een spamfilter kiest uit |H| = 1.000.000 kandidaat-regelsets. We willen een fout ε ≤ 0,05 met betrouwbaarheid 1 − δ = 0,99 (dus δ = 0,01).

Pas de eindige-klasse PAC-steekproefcomplexiteitsgrens m ≥ (1/ε)(ln|H| + ln(1/δ)) toe om een voldoende steekproefgrootte m te berekenen. Toon de substitutie van alle drie de waarden (ε, |H|, δ) en benader ln-waarden tot één decimaal. Rond m naar boven af tot een geheel getal.

Shatteren & VC-dimensie

Wanneer hypotheseruimten oneindig worden

De bound m ≥ (1/ε)(ln|H| + ln(1/δ)) breekt wanneer |H| = ∞. De meeste nuttige hypotheseklassen (lineaire classifier in ℝᵈ, decision trees, neurale netwerken) bevatten oneindig veel kandidaten. Vapnik & Chervonenkis losten dit rond 1971 op met een rijkere complexiteitsmaat: VC-dimensie.

VC Shattering Three Points

Shatteren

Een hypotheseklasse H shattert een verzameling van n punten als H elk mogelijk labelen van die n punten kan produceren (alle 2ⁿ dichotomieën). Lineaire classifier in ℝ² shattert elke 3 punten in algemene positie: voor elk van de 8 mogelijke +/−-labelingen van die 3 punten, scheidt een of andere lijn ze correct.

Maar lineaire classifiers in ℝ² kunnen 4 punten in een XOR-configuratie niet shatteren. Geen rechte lijn scheidt het diagonaal paar van het antidiagonaal paar.

VC-dimensie

VC(H) = de grootste n zodanig dat H een willekeurige n-puntenverzameling shattert. Voor 2D lineaire classifiers: VC = 3. Voor as-uitgelijnde rechthoeken in 2D: VC = 4. Voor neurale netwerken met W gewichten: VC ≤ O(W² log W) (Bartlett & Anthony 1999).

Sample-complexiteit met VC-dimensie

Vervang ln|H| in onze PAC-bound door VC-dimensie d:

m = O((d/ε) log(1/ε) + (1/ε) log(1/δ))

VC-dimensie fungeert als onze 'effectieve complexiteit' van een oneindige klasse. Een hypotheseklasse met lage VC-dimensie generaliseert vanuit weinig voorbeelden; een klasse met hoge VC-dimensie vereist meer data.

VC-dimensie als effectief hypothese-aantal

Een neuraal netwerk heeft W = 10⁹ gewichten. Volgens de Bartlett-Anthony-bound geldt VC ≤ O(W² log W). Benader VC ≈ W² log₂ W.

Schat VC voor W = 10⁹. Vul daarna de VC-sample-bound in: m ≈ (d/ε) (negeer log-factoren), met ε = 0.01. Vergelijk m met de hoeveelheid tekst op het publieke internet (~10¹³ tokens). Geef aan of klassieke PAC voorspelt dat onze hypotheseklasse PAC-geleerd kan worden uit data op internet-schaal.

Realiseerbaarheid laten vallen, Posterioren over Hypothesen

Twee Belangrijke Generalisaties

Klassieke PAC gaat ervan uit dat ons doelconcept c zich binnen onze hypotheseklasse H bevindt. Echte data bevat ruis, verkeerde labels en concepten die onze klasse niet kan representeren. Twee uitbreidingen pakken dit aan.

PAC Bayes Posterior over Hypothesis Space

Agnostic PAC

Laat onze aanname varen dat c ∈ H. We concurreren nu met onze best-in-class hypothese h* = argmin_{h ∈ H} risk(h). De vorm van de bound verandert: in plaats van dicht bij perfect te komen, komen we dicht bij het best-mogelijke binnen H.

Agnostische bound: P[risk(h) ≤ risk(h*) + ε] ≥ 1 − δ met sample complexity m = O(1/ε² × (VC(H) + log(1/δ))). Let op ε² in plaats van ε in de noemer: agnostisch leren vereist meer samples voor dezelfde precisie.

PAC-Bayes (McAllester 1999)

We gaan van het kiezen van één hypothese naar het kiezen van een verdeling over hypotheses. Begin met een prior P. Observeer data. Leid de posterior Q af. PAC-Bayes bounds de verwachte risk onder Q:

𝔼_{h~Q}[risk(h)] ≤ 𝔼_{h~Q}[empirical_risk(h)] + √[(KL(Q‖P) + ln(2√n/δ)) / 2n]

KL(Q‖P) meet hoe ver onze posterior zich heeft verwijderd van onze prior. Twee interpretaties:

1. Compressie-view. Een posterior die dicht bij zijn prior ligt (kleine KL) generaliseert goed — kleine informatiekost = kleine generalisatiekloof.

2. Bayesiaanse view. Sterke prior + zwakke data-update = strakke bound; zwakke prior + zware data-update = lossere bound.

Waarom PAC-Bayes belangrijk is. Empirische PAC-Bayes-bounds (Catoni 2007, Dziugaite & Roy 2017) geven numeriek betekenisvolle generalisatiegaranties voor echte neurale netwerken waar klassieke PAC-bounds vacueus zijn. Ze blijven onze strakste theoretische greep op generalisatie bij overparameteriseerde modellen.

Reading a PAC-Bayes Bound

Stel dat we een netwerk trainen op n = 50.000 gelabelde voorbeelden. Na training heeft onze posterior Q over de gewichten KL(Q‖P) = 200 nats ten opzichte van een Gaussische prior P. Het empirische risico onder Q bedraagt 0,10. Stel δ = 0,05.

Bereken de PAC-Bayes bovengrens voor het verwachte risico. Toon de substitutie in √[(KL + ln(2√n/δ)) / 2n]. Rond ln(2√n/δ) af op een geheel getal. Geef aan of onze bovengrens betekenisvol is (d.w.z. voorspelt dat het ware risico < 0,5).

Overparameterisatie & dubbele afdaling

Klassieke PAC voorspelt een ramp

Klassieke PAC voorspelt: meer parameters dan samples = catastrofale overfitting. Perfect leren op trainingsdata, willekeurig generaliseren op testdata. VC-bound voorspelt memorisatie zonder leren.

Moderne neurale netwerken hebben routinematig 10× tot 1000× meer parameters dan trainingsvoorbeelden en generaliseren toch. Dit zou volgens de klassieke theorie niet mogen gebeuren. Het gebeurt toch.

Double Descent Curve

De U-curve die ons werd geleerd

Klassieke bias-variance: naarmate de modelcapaciteit groeit, daalt de trainingsfout monotoon; de testfout daalt eerst (minder underfit), bereikt een minimum en stijgt daarna (overfit). U-vorm voorspeld door VC-theorie.

Wat er werkelijk gebeurt — Double Descent

Belkin et al (2019) toonden aan dat de testfout de klassieke U-curve volgt tot aan de interpolatiedrempel (capaciteit = #samples), en daarna opnieuw daalt voorbij die drempel. Sterk overparameteriseerde modellen generaliseren beter dan net-groot-genoeg modellen.

Waarom klassieke PAC dit mist

1. Distribution-free aanname is te pessimistisch. Echte data heeft structuur (lage intrinsieke dimensie, manifold-geometrie). PAC-bounds gelden voor worst-case distributies; echte distributies benutten structuur die SGD ook benut.

2. Impliciete regularisatie. SGD op overparameteriseerde netwerken vindt interpolerende oplossingen met minimale norm of minimale complexiteit, niet willekeurige oplossingen. Klassieke theorie gaat uit van de worst-case empirical risk minimizer; echte algoritmen kiezen goedaardige oplossingen.

3. Definitie van de hypotheseklasse is onjuist. De effectieve hypotheseklasse die door SGD wordt verkend is veel kleiner dan de nominale gewichtruimte. PAC-Bayes posterior-verdelingen vangen dit; VC-dimensie niet.

Modern theoretisch werk (Bartlett, Long, Lugosi, Tsigler 2020 over benign overfitting; Nakkiran et al 2020 over double descent) bouwt aan een post-PAC generalisatietheorie die rekening houdt met ons overparameteriseerde regime.

Diagnose van een falen van klassieke PAC

Een onderzoeksteam traint een netwerk met 1 miljard parameters op 100.000 gelabelde voorbeelden. Klassieke PAC voorspelt vacueuze bounds. Empirisch bereikt de testnauwkeurigheid 95%.

Identificeer drie concrete redenen waarom klassieke PAC dit succes niet kan voorspellen. Noem voor elke reden een fenomeen (distribution structure, implicit regularization, double descent, posterior concentration) en leg kort uit waarom klassieke PAC dit mist. 2-3 zinnen per reden.

Kaplan, Chinchilla, & Het Dimensioneren van Automated General Intelligence

Van Bounds naar Empirische Schaalwetten

Klassieke PAC voorspelt datasetgrootte theoretisch en levert nietszeggende resultaten. Empirische schaalwetten voorspellen datasetgrootte vanuit observatie en werken daadwerkelijk. Ze hebben PAC vervangen als ons praktische hulpmiddel voor het bepalen van de grootte van grote modellen.

Compute Optimal Training Surface

Kaplan et al (2020)

Loss volgt een machtswet in parameters N, dataset-tokens D en compute C:

L(N) ≈ (Nc/N)^αN L(D) ≈ (Dc/D)^αD L(C) ≈ (Cc/C)^αC

Het verdubbelen van parameters verlaagt de loss met een vaste multiplicatieve factor. Het verdubbelen van data verlaagt de loss met een andere vaste factor. Deze exponenten (αN, αD, αC) meten en voorspellen frontier-gedrag over vele ordes van grootte.

Hoffmann et al 2022 (Chinchilla)

Chinchilla toonde aan dat de exponenten van Kaplan parameters relatief zwaarder wogen dan data. Compute-optimal trainen vereist ongeveer 20 tokens per parameter:

D_opt ≈ 20 × N

GPT-3 (175B parameters) werd getraind op ~300B tokens — sterk onder-getraind volgens de Chinchilla-berekening. Een compute-optimaal model met 175B parameters heeft ~3,5 biljoen tokens nodig.

De Data Wall

Het schalen van ons aantal parameters vereist dat we het aantal tokens proportioneel schalen. Een publieke webcrawl levert ~10¹³ bruikbare tokens op. Een hypothetische geautomatiseerde algemene intelligentie met 10¹⁵ parameters zou ~2×10¹⁶ tokens nodig hebben — drie ordes van grootte meer dan de beschikbare webdata.

Dit is onze data wall. Schaalwetten voorspellen dat we een tekort aan corpus tegenkomen lang voordat we een tekort aan rekenkracht hebben. Synthetische data, multimodale corpora (video, audio, sensorstromen) en RL-from-environment zijn allemaal gericht op het doorbreken van deze muur.

Klassieke PAC vertelde ons (onjuist) dat we 10²¹ samples nodig hadden. Schaalwetten vertellen ons (gekalibreerd aan de realiteit) dat we 2×10¹⁶ nodig hebben. Beide aantallen overschrijden de beschikbare tekst. Frontierwerk vandaag richt zich op het dichten van dat gat.

Een corpus voor geautomatiseerde algemene intelligentie schatten

Stel dat een frontierlab een model met 10¹⁴ parameters voorstelt en beweert dat het geautomatiseerde algemene intelligentie zal bereiken. We willen de omvang van de trainingscorpus bepalen volgens Chinchilla’s regel.

Pas D_opt ≈ 20 × N toe om het compute-optimale aantal tokens te schatten voor N = 10¹⁴ parameters. Vergelijk dit met de publieke web (~10¹³ tokens). Geef aan met welke factor we tekortschieten en noem twee strategieën die frontierlabs gebruiken om dat gat te dichten.

Van theoretische grenzen naar productie-metingen

Stop met het berekenen van grenzen; begin ze te meten

Klassieke PAC-bounds zijn vacuous. PAC-Bayes-bounds zijn strak onder aannames die moeilijk te verifiëren zijn. Een praktisch alternatief: meet ε empirisch op je echte distributie en update deze terwijl je systeem draait.

Beta Posterior Tightening

Idee 1 — Dekking empirisch maken als PAC

Een make coverage-doel draait N hold-out-vragen door je query-systeem en meet twee percentages:

- cache_hit_rate — fractie waarbij je systeem een bekend antwoord vond

- i_dont_know_rate — fractie waarbij je systeem eerlijk uitstelde

Elke meting = een Bernoulli-trial. Uit de waargenomen tellingen bereken je een Wilson-betrouwbaarheidsinterval voor de ware rate. Voorbeeld: N = 1000 queries, waargenomen i_dont_know_rate = 0.20 → 95% CI ≈ [0.177, 0.226]. De bovengrens 0.226 fungeert exact als een PAC ε bij δ = 0.05, afgeleid uit echte data op de echte verdeling in plaats van een worst-case theoretische analyse.

De klassieke PAC-terminologie is van toepassing (ε, δ, betrouwbaarheid). Andere wiskundige onderbouwing (binomiale concentratie versus VC-theorie). Strakker resultaat omdat echte verdelingen exploiteerbare structuur bevatten.

Idee 2 — PAC-Bayes-audit via falsificatie-events

Behandel elke falsificatie (systeemantwoord dat aantoonbaar fout is) als bewijs dat de posterior over de ware foutmarge ε bijwerkt:

1. Prior: ε ~ Beta(α₀, β₀). Kies een zwakke prior, bijv. Beta(1, 1) = uniform.

2. Elke query levert een Bernoulli-uitkomst op: vervalst (1) of behouden (0).

3. Posterior na k vervalsingen in n queries: Beta(α₀ + k, β₀ + n − k).

4. Posterior gemiddelde: (α₀ + k) / (α₀ + β₀ + n) → empirische vervalsingsratio als n → ∞.

5. 95% credible interval rond ε wordt nauwer als 1/√n.

Wat Dit Ons Oplevert

- Schatting van ε₀ uit de echte wereld op basis van daadwerkelijke inzet, niet op basis van worst-case theorie

- Anytime-geldig alarm: wanneer het posterieure geloofwaardigheidsinterval de contractdrempel overschrijdt, iemand pagineren

- Monotone betrouwbaarheid: meer waargenomen queries → smaller CI → sterkere garantie

Verwante technieken: conforme predictie met online herkalibratie (Vovk), sequentiële waarschijnlijkheidsratio-toetsen (Wald), online PAC-Bayes (Haddouche & Guedj 2022). Zelfde familie, verschillende wiskundige machinerie.

Een Beta-posterior berekenen op falsificaties

Ons team voert een dekkingsaudit uit op een productie-query-systeem. Prior op de ware foutmarge ε: Beta(1, 1) (uniform). Na 200 out-of-sample queries observeerden we 8 falsificaties.

Bereken (a) de posterieure parameters Beta(α, β) na deze data; (b) de posterieure verwachting van ε; (c) de benaderde 95%-geloofwaardigheidsinterval-bovengrens met μ + 2σ waarbij σ = √(αβ/((α+β)²(α+β+1))). Geef vervolgens aan of je dit systeem naar productie zou sturen als het contract ε ≤ 0.10 vereist.