un — PAC-inlärning: Från teori till produktionsgranskning [DESCRIPTION /]

un

gäst

1 / ?

Probably Approximately Correct

Valiants fråga (1984)

Leslie Valiant ställde en till synes enkel fråga: vad innebär det att en maskin lär sig? Inte ”kan den memorera?” Inte ”kan den förutsäga perfekt?” Utan: kan den lära sig approximativt bra, med hög sannolikhet, från ett ändligt stickprov, i polynomisk tid?

Den formuleringen gav honom Turingpriset 2010 och grundade den beräkningsinriktade inlärningsteorin.

PAC ε δ Budget Plane

Två reglage

ε (epsilon) — felmarginal. Ungefär korrekt betyder fel ≤ ε. Mindre ε = strängare inlärning.

δ (delta) — konfidensparameter. Troligen betyder sannolikheten för framgång ≥ 1 − δ. Mindre δ = högre krav på konfidens.

Definition

En konceptklass C räknas som PAC-lärbar om det finns en algoritm som, för varje fördelning D och varje målkonscept c ∈ C, givet m exempel dragna från D och etiketterade av c, returnerar en hypotes h som uppfyller:

P[error(h) ≤ ε] ≥ 1 − δ

där m är polynomiskt i 1/ε, 1/δ och konceptstorlek.

In English: ge den tillräckligt många exempel så kommer den tillräckligt nära tillräckligt ofta, och ”tillräckligt” växer inte exponentiellt.

Sample Complexity för ändliga hypotesrum

Om vårt hypotesrum H innehåller ett ändligt antal kandidathypoteser ger klassisk analys:

m ≥ (1/ε)(ln|H| + ln(1/δ))

Läs formeln som en budget. Halverar man ε fördubblas antalet nödvändiga exempel. Halverar man δ läggs en konstant till. Fördubblar man |H| läggs ln(2) exempel till — logaritmisk skalning, en behagligt långsam tillväxt.

Dimensionering av ett stickprov för en hypotesklass

Ett spamfilter väljer bland |H| = 1 000 000 kandidatregeluppsättningar. Vi vill ha fel ε ≤ 0,05 med konfidens 1 − δ = 0,99 (så δ = 0,01).

Tillämpa PAC-gränsen för ändlig hypotesklass m ≥ (1/ε)(ln|H| + ln(1/δ)) för att beräkna ett tillräckligt stickprovsstorlek m. Visa substitutionen av alla tre värden (ε, |H|, δ) och approximera ln-värden till en decimal. Avrunda m uppåt till ett heltal.

Krossning & VC-dimension

När hypotesrymder blir oändliga

Gränsen m ≥ (1/ε)(ln|H| + ln(1/δ)) bryter samman när |H| = ∞. De flesta användbara hypotesklasser (linjära klassificerare i ℝᵈ, beslutsträd, neurala nät) innehåller oändligt många kandidater. Vapnik & Chervonenkis löste detta runt 1971 med ett rikare mått på komplexitet: VC-dimension.

VC Shattering Three Points

Shattering

En hypotesklass H shatterar en mängd av n punkter om H kan producera varje möjlig etikettering av dessa n punkter (alla 2ⁿ dikotomier). Linjära klassificerare i ℝ² shatterar alla 3 punkter i generell position: för varje av de 8 möjliga +/−-etiketteringarna av dessa 3 punkter finns det en linje som separerar dem korrekt.

Men linjära klassificerare i ℝ² kan inte krossa 4 punkter arrangerade i en XOR-konfiguration. Ingen rak linje separerar det diagonala paret från det antidiagonala paret.

VC-dimension

VC(H) = det största n sådant att H krossar någon n-punktsmängd. För linjära klassificerare i 2D: VC = 3. För axeljusterade rektanglar i 2D: VC = 4. För neurala nätverk med W vikter: VC ≤ O(W² log W) (Bartlett & Anthony 1999).

Provkomplexitet med VC-dimension

Ersätt ln|H| i vår PAC-gräns med VC-dimension d:

m = O((d/ε) log(1/ε) + (1/ε) log(1/δ))

VC-dimension fungerar som vår ”effektiva komplexitet” för en oändlig klass. En hypotesklass med låg VC-dimension generaliserar från få exempel; en klass med hög VC-dimension kräver mer data.

VC-dimension som effektivt hypotesantal

Ett neuralt nätverk har W = 10⁹ vikter. Enligt Bartlett-Anthony-gränsen gäller VC ≤ O(W² log W). Approximera VC ≈ W² log₂ W.

Uppskatta VC för W = 10⁹. Sätt sedan in värdet i VC-samplegränsen m ≈ (d/ε) och ignorera log-faktorerna, med ε = 0,01. Jämför m med mängden text på det öppna internet (~10¹³ tokens). Ange om klassisk PAC-teori förutspår att vår hypotesklass kan PAC-läras från internet-skala data.

Utan Realiserbarhet, Posteriorer över Hypoteser

Två viktiga generaliseringar

Klassisk PAC antar att vårt målbegrepp c finns inom vår hypotesklass H. Verklig data innehåller brus, felmärkningar och begrepp som vår klass inte kan representera. Två utvidgningar hanterar detta.

PAC Bayes Posterior över hypotesrymden

Agnostic PAC

Släpp antagandet att c ∈ H. Konkurrera nu mot vår bästa-i-klassen-hypotes h* = argmin_{h ∈ H} risk(h). Gränsernas form ändras: istället för att komma nära perfekt får vi komma nära det bästa-möjliga-inom-H.

Agnostisk gräns: P[risk(h) ≤ risk(h*) + ε] ≥ 1 − δ med stickprovsstorlek m = O(1/ε² × (VC(H) + log(1/δ))). Notera ε² istället för ε i nämnaren: agnostisk inlärning behöver fler stickprov för samma precision.

PAC-Bayes (McAllester 1999)

Gå från att välja en enskild hypotes till att välja en fördelning över hypoteser. Börja med en prior P. Observera data. Härled posterior Q. PAC-Bayes ger gränser för förväntad risk under Q:

𝔼_{h~Q}[risk(h)] ≤ 𝔼_{h~Q}[empirical_risk(h)] + √[(KL(Q‖P) + ln(2√n/δ)) / 2n]

KL(Q‖P) mäter hur långt vår posterior har flyttat sig från vår prior. Två tolkningar:

1. Kompressionsvy. En posterior som ligger nära sin prior (litet KL) generaliserar väl — liten informationskostnad = litet generaliseringsgap.

2. Bayesiansk vy. Stark prior + svag datauppdatering = snäv gräns; svag prior + kraftig datauppdatering = lösare gräns.

Varför PAC-Bayes är viktigt. Empiriska PAC-Bayes-gränser (Catoni 2007, Dziugaite & Roy 2017) ger numeriskt meningsfulla generaliseringsgarantier för verkliga neurala nätverk där klassiska PAC-gränser blir tomma. De utgör fortfarande vårt starkaste teoretiska verktyg för att förstå generalisering i överparametriserade modeller.

Läsa en PAC-Bayes-gräns

Anta att vi tränar ett nätverk på n = 50 000 märkta exempel. Efter träningen har vår posterior Q över vikter KL(Q‖P) = 200 nats relativt en Gaussisk prior P. Empirisk risk under Q ligger på 0,10. Sätt δ = 0,05.

Beräkna PAC-Bayes övre gräns för förväntad risk. Visa substitutionen i √[(KL + ln(2√n/δ)) / 2n]. Avrunda ln(2√n/δ) till ett heltal. Ange om vår gräns är meningsfull (dvs. förutsäger sann risk < 0,5).

Överparameterisering & Dubbel descent

Klassiska PAC:s förutsagda katastrof

Klassisk PAC förutsäger: fler parametrar än sampel = katastrofal överanpassning. Lär sig perfekt på träningsdata, generaliserar slumpmässigt på testdata. VC-gränsen förutsäger memorering utan inlärning.

Moderna neurala nätverk har rutinmässigt 10× till 1000× fler parametrar än träningsprov och generaliserar ändå. Detta borde inte hända enligt klassisk teori. Det händer ändå.

Double Descent Curve

U-kurvan vi fick lära oss

Klassisk bias-varians: när modellens kapacitet ökar sjunker träningsfelet monotont; testfelet sjunker först (mindre underanpassning), når ett minimum och stiger sedan (överanpassning). U-formen förutspås av VC-teori.

Vad som faktiskt händer — Dubbel nedstigning

Belkin m.fl. (2019) visade att testfelet följer den klassiska U-kurvan fram till interpoleringströskeln (kapacitet = antal sampel), och sedan SJUNKER IGEN efter den tröskeln. Massivt överparametriserade modeller generaliserar bättre än modeller som bara är tillräckligt stora.

Varför klassisk PAC missar detta

1. Antagandet om distributionsfrihet är alltför pessimistiskt. Verkliga data har struktur (låg intrinsisk dimension, mångfaldsgeometri). PAC-gränser gäller för värsta tänkbara fördelningar; verkliga fördelningar utnyttjar struktur som även SGD utnyttjar.

2. Implicit regularisering. SGD på överparametriserade nätverk finner minimum-norm- eller minimum-komplexitetslösningar som interpolerar, inte godtyckliga sådana. Klassisk teori antar en worst-case empirisk riskminimering; verkliga algoritmer väljer godartade lösningar.

3. Hypotesklassdefinitionen är fel. Den effektiva hypotesklass som SGD utforskar är mycket mindre än det nominella viktutrymmet. PAC-Bayes-posteriorer fångar detta; VC-dimension gör det inte.

Modern teoretisk forskning (Bartlett, Long, Lugosi, Tsigler 2020 om benign overfitting; Nakkiran m.fl. 2020 om double descent) bygger en post-PAC-generaliseringsteori som tar hänsyn till vår överparametriserade regim.

Diagnostisering av ett misslyckande för klassisk PAC

Ett forskarteam tränar ett nätverk med 1 miljard parametrar på 100 000 märkta exempel. Klassisk PAC förutsäger tomma gränser. Empiriskt når testnoggrannheten 95 %.

Identifiera tre konkreta skäl till att klassisk PAC misslyckas med att förutsäga denna framgång. För varje skäl, namnge ett fenomen (distribution structure, implicit regularization, double descent, posterior concentration) och förklara kort varför klassisk PAC missar det. 2–3 meningar per skäl.

Kaplan, Chinchilla och dimensionering av automatiserad generell intelligens

Från gränser till empiriska skalningslagar

Klassisk PAC förutsäger datasetstorlek teoretiskt och ger tomma resultat. Empiriska skalningslagar förutsäger datasetstorlek från observation och fungerar i praktiken. De har ersatt PAC som vårt praktiska verktyg för att dimensionera stora modeller.

Beräkningsoptimal träningsyta

Kaplan et al (2020)

Förlusten följer en potenslag i parametrar N, dataset-tokens D och beräkningsresurser C:

L(N) ≈ (Nc/N)^αN L(D) ≈ (Dc/D)^αD L(C) ≈ (Cc/C)^αC

Att dubbla antalet parametrar sänker förlusten med en fast multiplikativ faktor. Att dubbla datamängden sänker förlusten med en annan fast faktor. Dessa exponenter (αN, αD, αC) mäter och förutsäger frontier-beteende över många storleksordningar.

Hoffmann et al 2022 (Chinchilla)

Chinchilla visade att Kaplans exponenter överviktade parametrar i förhållande till data. Beräkningsoptimal träning kräver ungefär 20 tokens per parameter:

D_opt ≈ 20 × N

GPT-3 (175B parametrar) tränades på ~300B tokens — kraftigt undertränad enligt Chinchillas beräkningar. En beräkningsoptimal 175B-parametermodell kräver ~3,5 biljoner tokens.

Data Wall

Att skala upp antalet parametrar kräver att vi skalar upp antalet tokens proportionellt. Offentliga webbskrapningar ger cirka 10¹³ användbara tokens. En hypotetisk 10¹⁵-parametrar stor automatiserad generell intelligens skulle behöva cirka 2×10¹⁶ tokens — tre storleksordningar mer än tillgänglig webbdata.

Detta är vår datavägg. Skalningslagar förutspår att vi stöter på brist på korpus långt innan vi stöter på brist på beräkningskraft. Syntetisk data, multimodala korpusar (video, ljud, sensordata) och RL-från-miljö syftar alla till att ta sig förbi den.

Klassisk PAC sa oss (felaktigt) att vi behövde 10²¹ exempel. Skalningslagar säger oss (kalibrerat mot verkligheten) att vi behöver 2×10¹⁶. Båda siffrorna överstiger tillgänglig text. Gränsforskning idag handlar om att täppa till det gapet.

Uppskattning av en korpus för automatiserad generell intelligens

Anta att ett frontlab föreslår en 10¹⁴-parametrars modell och hävdar att den kommer att nå automatiserad generell intelligens. Vi vill dimensionera dess träningskorpus enligt Chinchillas regel.

Tillämpa D_opt ≈ 20 × N för att uppskatta det beräkningsoptimala antalet tokens för N = 10¹⁴ parametrar. Jämför med offentliga webbdata (~10¹³ tokens). Ange med hur stor faktor vi hamnar under, och nämn två strategier som frontlab använder för att täppa till det gapet.

Från teoretiska gränser till produktionsmätningar

Sluta beräkna gränser; börja mäta dem

Klassiska PAC-gränser blir tomma. PAC-Bayes-gränser blir snäva under antaganden som är svåra att verifiera. Ett praktiskt alternativ: mät ε empiriskt på din verkliga fördelning och uppdatera den allt eftersom ditt system körs.

Beta Posterior Tightening

Idé 1 — Gör täckning till empirisk PAC

Ett make coverage-mål kör N hållna frågor genom ditt frågesystem och mäter två andelar:

- cache_hit_rate — andelen där ditt system hittade ett känt svar

- i_dont_know_rate — andelen där ditt system ärligt avstod

Varje mätning = ett Bernoulli-försök. Från observerade antal beräknas ett Wilson-konfidensintervall för den sanna andelen. Exempel: N = 1000 frågor, observerad i_dont_know_rate = 0.20 → 95 % CI ≈ [0.177, 0.226]. Övre gränsen 0.226 fungerar exakt som en PAC-ε vid δ = 0.05, härledd från verkliga data på den verkliga fördelningen istället för en teoretisk värsta-fall-analys.

Klassisk PAC-terminologi gäller (ε, δ, konfidens). Annan matematik (binomial koncentration vs. VC-teori). Snävare resultat eftersom verkliga fördelningar innehåller utnyttjbar struktur.

Idé 2 — PAC-Bayes-granskning via falsifieringshändelser

Behandla varje falsifiering (systemets svar är bevisligen felaktigt) som evidens som uppdaterar posteriorn över den sanna felandelen ε:

1. Prior: ε ~ Beta(α₀, β₀). Välj en svag prior, t.ex. Beta(1, 1) = likformig.

2. Varje query ger ett Bernoulli-utfall: förfalskad (1) eller godkänd (0).

3. Posterior efter k förfalskningar i n queries: Beta(α₀ + k, β₀ + n − k).

4. Posterior medelvärde: (α₀ + k) / (α₀ + β₀ + n) → empirisk förfalskningsfrekvens när n → ∞.

5. 95 % trovärdighetsintervall för ε stramas åt som 1/√n.

Vad detta ger oss

- Uppskattning av verklig ε₀ från faktisk drift, inte värsta-fall-teori

- Anytime-valid larm: när det bakre trovärdiga intervallet korsar kontraktströskeln, pager någon

- Monoton konfidens: fler observerade queries → smalare CI → starkare garanti

Släktingstekniker: konform prediktion med online-rekalibrering (Vovk), sekventiella sannolikhetskvottest (Wald), online PAC-Bayes (Haddouche & Guedj 2022). Samma familj, olika matematiska verktyg.

Beräkna en Beta-posterior för falsifikationer

Vårt team kör en täckningsrevision på ett produktionsfrågesystem. Prior på sann felfrekvens ε: Beta(1, 1) (likformig). Efter 200 hållna-out-frågor observerade vi 8 falsifikationer.

Beräkna (a) posterior-parametrar Beta(α, β) efter att ha observerat dessa data; (b) posterior-medelvärde för ε; (c) ungefärlig 95 % trovärdighetsintervall övre gräns med μ + 2σ där σ = √(αβ/((α+β)²(α+β+1))). Ange sedan om du skulle skicka detta system till produktion om kontraktet kräver ε ≤ 0.10.