un — Geometrie des PAC-Lernens

un

Gast

1 / ?

PAC als Zwei-Achsen-Ebene

Zwei Achsen, eine Stichprobenanzahl-Oberfläche

Trage ε auf der horizontalen Achse ab (Fehlertoleranz, Bereich 0 bis 1). Trage δ auf der vertikalen Achse ab (Fehlerwahrscheinlichkeit, Bereich 0 bis 1). Jeder Punkt in diesem Einheitsquadrat entspricht einem (ε, δ)-Anforderungspaar.

PAC ε δ Budget Plane

Über jedem Punkt sitzt ein Stichprobenanzahl-Wert m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). Zusammen zeichnen diese m-Werte eine gekrümmte Oberfläche über unserem Quadrat. Strengere Anforderungen (kleineres ε, kleineres δ) ziehen unsere Oberfläche nach oben; lockerere Anforderungen flachen sie ab.

Iso-Stichproben-Konturlinien

Projiziere unsere Oberfläche zurück auf unsere Ebene als iso-m-Konturen. Jedes (ε, δ)-Paar auf einer einzelnen Kontur erfordert dasselbe Stichprobenbudget. Bewege dich entlang einer Kontur, um Fehlertoleranz gegen Vertrauen bei festen Kosten einzutauschen.

Halbierung einer Achse

Halbierung von ε entlang unserer Horizontalen bewegt m um Faktor 2 nach oben (linear in 1/ε). Halbierung von δ entlang unserer Vertikalen bewegt m um ln(2) ≈ 0,69 nach oben (logarithmisch in 1/δ). Die Geometrie sagt uns: Fehlertoleranz trägt steilere Kosten als Vertrauen.

Lesen der Budget-Oberfläche

Wir sitzen am Punkt (ε = 0,05, δ = 0,05) für die Hypothesenklasse |H| = 10⁶. Stichprobenbedarf m₀ = (1/0,05)(ln(10⁶) + ln(20)) = 20 × (13,8 + 3,0) = 336.

(a) Berechne den neuen Stichprobenbedarf m₁ bei (ε = 0,025, δ = 0,05) — halber Fehler, gleiches Vertrauen. (b) Berechne m₂ bei (ε = 0,05, δ = 0,025) — gleicher Fehler, halbe Fehlerwahrscheinlichkeit. (c) Welche Achse trägt die steileren Stichprobenkosten und in welchem Verhältnis?

Dichotomien auf Punktwolken

Wie Zerschmettern aussieht

Platziere n Punkte in unserer Ebene. Wähle eine Hypothesenklasse (lineare Klassifikatoren = gerade Linien). Zähle, wie viele unterschiedliche Wege unsere Klasse diese n Punkte beschriften kann (+/− auf jeder Seite einer Linie). Nenne diese Anzahl Π_H(n).

VC Shattering Three Points

Wenn Π_H(n) = 2ⁿ, dann zerschmettert unsere Klasse diese Punktmenge — sie kann jede mögliche Beschriftung erzeugen. Wenn Π_H(n) < 2ⁿ, können einige Beschriftungen nicht auftreten.

Drei Punkte in allgemeiner Position

Lineare Klassifikatoren in ℝ² zerschmettern jede 3 nicht-kollineare Punkte. 2³ = 8 Beschriftungen; alle 8 erreichbar durch eine Linie. Wähle beliebige 3 Punkte; für jede ±/±-Beschriftung zeichne eine Linie, die positive von negativen trennt.

Vier Punkte verweigern das Zerschmettern

Platziere 4 Punkte an den Ecken eines Quadrats. Versuche, das diagonale Paar als positiv und das anti-diagonale Paar als negativ zu beschriften (XOR-Beschriftung). Keine gerade Linie trennt sie. Also Π_H(4) ≤ 14 < 16 = 2⁴.

VC-Dimension als maximale Zerschmettergröße

VC(linear ℝ²) = 3. Wir können 3 Punkte zerschmettern; wir können 4 nicht zerschmettern. VC zählt die maximale Dichotomie-Kapazität unserer Hypothesenklasse.

Geometrische Intuition

Höhere VC = unsere Klasse zeichnet aufwendigere Entscheidungsgrenzen. Linear (VC = d+1 in d Dimensionen) zeichnet Hyperebenen. Polynome zeichnen Kurven. Neuronale Netze zeichnen stark gefaltete Mannigfaltigkeiten. Mehr Faltbarkeit = mehr Dichotomien = höhere VC = höherer Stichprobenbedarf.

Dichotomien zählen

Betrachte lineare Klassifikatoren in ℝ² (Linien). Wir haben 5 Punkte in allgemeiner Position platziert (keine 3 kollinear, keine redundant).

(a) Berechne 2⁵ = Anzahl aller möglichen ±/±-Beschriftungen. (b) Das Sauer-Shelah-Lemma beschränkt Π_H(n) ≤ Σ_{i=0}^{d} C(n, i), wobei d = VC(H). Wende dies mit d = 3, n = 5 an: berechne C(5,0) + C(5,1) + C(5,2) + C(5,3). (c) Gib an, um welchen Faktor Linien hinter dem vollständigen Zerschmettern zurückbleiben.

Wahrscheinlichkeitsmasse auf einer Hypothesen-Mannigfaltigkeit

PAC-Bayes bildlich

Stelle dir unseren Hypothesenraum als hochdimensionale Mannigfaltigkeit vor. Jeder Punkt auf dieser Mannigfaltigkeit entspricht einer Gewichtskonfiguration eines neuronalen Netzes. Prior P weist eine Wahrscheinlichkeitsverteilung über unserer Mannigfaltigkeit zu (oft Gaußsch, zentriert bei der Initialisierung). Posterior Q konzentriert Wahrscheinlichkeitsmasse dort, wo die Trainingsdaten unsere Gewichte trieben.

PAC Bayes Posterior over Hypothesis Space

KL-Divergenz als geometrische Distanz

KL(Q‖P) misst, wie weit Q von P abgedriftet ist. Geometrische Lesart: wie viel sich unsere Posterior-Wolke von der Prior-Wolke bewegt hat, gewichtet danach, wie unwahrscheinlich jede Posterior-Region unter unserem Prior war.

Kleines KL = Q überlappt P stark. Posterior bewegte sich kaum. Generalisierungslücke bleibt klein.

Großes KL = Q konzentrierte sich in Regionen, denen P wenig Masse zuwies. Posterior bewegte sich stark. Generalisierungslücke wächst.

Warum diese Geometrie wichtig ist

Stelle dir SGD als Suchtrajektorie über unserer Hypothesen-Mannigfaltigkeit vor. Die Trajektorie endet in einem Becken niedrigen Trainingsverlustes. PAC-Bayes fragt: Wie breit ist dieses Becken?

Breites Becken = viele benachbarte Gewichtskonfigurationen erreichen ebenfalls niedrigen Trainingsverlust. Posterior Q kann sich über eine breite Region ausbreiten und immer noch ein niedriges Risiko haben. KL(Q‖P) bleibt beschränkt. Generalisierungslücke klein.

Schmales Becken = nur eine dünne Menge von Gewichten erreicht niedrigen Verlust. Posterior muss scharf konzentriert sein. KL wächst. Generalisierungslücke verbreitert sich.

Dies verbindet sich direkt mit dem Diskurs über flache vs. scharfe Minima (Hochreiter & Schmidhuber 1997, Keskar et al 2017). Flache Minima generalisieren besser, weil sie breitere Posteriore mit kleinerem KL unterstützen.

Eine Beckenbreite lesen

Zwei trainierte Modelle erreichen identischen Trainingsverlust, leben aber in verschiedenen Becken:

- Modell A: flaches Becken, Posterior breitet sich über einer Region mit KL(Q_A‖P) = 50 nats aus.

- Modell B: scharfes Becken, Posterior konzentriert sich mit KL(Q_B‖P) = 500 nats.

Beide trainiert auf n = 10.000 Beispielen mit empirischem Risiko 0,05, δ = 0,05.

Berechne die PAC-Bayes-Generalisierungslücke √[(KL + ln(2√n/δ)) / 2n] für jedes Modell. Gib dann an, welches besser generalisiert, und nenne den geometrischen Grund.

Eine Kurve, die fällt, wo die Theorie Anstieg vorhersagte

Klassische U-Kurve

Trage die Modellkapazität auf der horizontalen Achse ab. Trage das Testrisiko auf der vertikalen Achse ab. Klassische Bias-Varianz-Theorie sagt voraus:

- Niedrige Kapazität: hoher Bias, hohes Testrisiko (Underfit)

- Mittlere Kapazität: niedriger Bias + niedrige Varianz, niedriges Testrisiko (Sweet Spot)

- Hohe Kapazität: niedriger Bias, hohe Varianz, hohes Testrisiko (Overfit)

Ergebnis: U-förmige Kurve. Wähle die Kapazität an unserem Tiefpunkt.

Double Descent Curve

Was Belkin et al (2019) beobachteten

Jenseits der Interpolationsschwelle (Kapazität, bei der das Modell die Trainingsdaten genau mit Null-Fehler anpasst), FÄLLT das Testrisiko erneut. Die Kurve liest sich: Abstieg → Spitze bei Interpolation → zweiter Abstieg. Zwei Abstiege, eine Kurve.

Geometrische Lesart des zweiten Abstiegs

An der Interpolationsschwelle hat das Modell gerade genug Kapazität, um die Trainingsdaten anzupassen — nur eine (oder wenige) interpolierende Lösungen existieren und sie neigen dazu, gezackt zu sein. Generalisierung leidet, weil die gewählte Lösung erzwungen ist.

Jenseits der Interpolationsschwelle existieren VIELE interpolierende Lösungen. SGD hat die Freiheit, eine glatte (minimale-Norm, niedrige Krümmung) zu wählen. Geometrisches Bild: Die Lösungs-Mannigfaltigkeit wird breiter und flacher. SGDs implizite Regularisierung wählt gutartige Lösungen aus dieser flachen Mannigfaltigkeit. Testrisiko fällt.

Warum die klassische Theorie dies verfehlt

Die VC-Dimension zählt die Lösungsmengen-Kapazität, ignoriert jedoch, welche Lösung gewählt wird. Die klassische Schranke nimmt den Worst-Case-Empirisch-Risiko-Minimierer an. Realität: SGD wählt zuverlässig unsere flachste, glatteste interpolierende Lösung. Sobald wir SOLVER-GEWÄHLTE Lösungen anstelle aller Lösungen zählen, ergibt der zweite Abstieg Sinn.

Geometrische Schlussfolgerung

Kapazität zählt weniger als Beckengeometrie. Breite flache Becken (post-Interpolation) generalisieren besser als schmale scharfe (bei Interpolation). Die moderne Theorie versucht, Generalisierung durch Beckenbreite zu beschränken, nicht durch Parameteranzahl.

Lokalisierung der zwei Abstiege

Auf einer Double-Descent-Kurve sind drei Regionen wichtig: (1) unterparametrisiertes Regime, (2) Interpolationsspitze, (3) überparametrisiertes Regime.

Beschreibe geometrisch, was mit (a) der Breite der Lösungs-Mannigfaltigkeit, (b) der Beckenkrümmung am gewählten Minimum und (c) der Rolle der impliziten Regularisierung in jeder der drei Regionen passiert. Gib an, in welcher Region modernes Training (z.B. GPT-Klasse-Modelle) operiert und warum klassisches PAC versagt, seinen Erfolg vorherzusagen.

Potenzgesetz-Oberfläche im Parameter-Token-Raum

Eine 3D-Oberfläche

Trage Parameter N auf einer horizontalen Achse ab. Trage Tokens D auf einer zweiten horizontalen Achse ab. Trage Verlust L auf der vertikalen ab. Empirischer Verlust schnitzt eine Potenzgesetz-Oberfläche über diese (N, D)-Ebene:

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

Compute Optimal Training Surface

Die Oberfläche neigt sich nach unten, wenn entweder N oder D wächst. Steigungen folgen log-linearen Potenzgesetzen (gerade Linien im Log-Log-Plot). Die Asymptote L∞ bleibt positiv — irreduzibler Verlust, den unser Modell nicht kleiner schrumpfen kann.

Rechenoptimaler Grat

Festes Gesamt-Rechenbudget C ∝ N × D (Parameter × Tokens, grob). Schneide unsere Oberfläche entlang dieser Einschränkung. Die Schnittspur schneidet eine 2D-Kurve durch die 3D-Oberfläche. Tiefpunkt dieser Kurve = rechenoptimaler Punkt.

Chinchilla (Hoffmann et al 2022) berechnete diesen Tiefpunkt analytisch: D_opt ≈ 20 × N. Die Kurve entlang des Rechenbudgets = ein Grat. Auf dem Grat zu gehen: gleiche Rechenleistung, abnehmender Verlust. Vom Grat herunterzugehen (mehr Parameter als 20× Tokens, oder weniger): verschwendete Rechenleistung.

Geometrische Lesart von GPT-3 vs. Chinchilla

GPT-3: 175B Parameter, 300B Tokens. Chinchilla-optimal würde 175B × 20 = 3500B Tokens wollen. GPT-3 sitzt weit abseits des rechenoptimalen Grats in unsere parameter-schwere Richtung. Chinchilla selbst: 70B Parameter trainiert auf 1400B Tokens. 1400 / 70 = 20 — genau auf dem Grat. Chinchilla schlug GPT-3 mit weniger als der Hälfte seiner Parameteranzahl, indem es auf dem geometrischen Optimum saß.

Datenmauer als vertikale Ebene

Öffentliches Web ~10¹³ nutzbare Tokens. Dies wird als vertikale Mauer bei D = 10¹³ auf unserer Parameter-Token-Ebene aufgetragen. Jenseits dieser Mauer erfordert rechenoptimales Training N ≤ D / 20 = 5 × 10¹¹ Parameter. Mauern jenseits N = 5 × 10¹¹ laufen entweder untertrainiert (abseits des Grats) oder erfordern synthetische / multimodale / RL-Daten, um die Mauer nach außen zu drücken.

Auf dem rechenoptimalen Grat gehen

Wir sitzen an GPT-3 Koordinaten: N = 175B Parameter, D = 300B Tokens. Rechen-Proxy C = N × D = 5,25 × 10²² Parameter-Tokens.

(a) Berechne Chinchilla-optimal (N*, D*) für unser gleiches Rechenbudget, indem du D* = 20 × N* mit N* × D* = 5,25 × 10²² löst. (b) Gib an, um welchen Faktor sich N* von GPT-3's 175B unterscheidet. (c) Beschreibe geometrisch, wie 'Gehen von GPT-3's Punkt zu (N*, D*) entlang der Konstanten-Rechen-Kurve' auf der Parameter-Token-Oberfläche aussieht.

Beta-Posteriore verengt sich zu einer Nadel

Eine Wahrscheinlichkeitsdichte auf [0, 1]

Beta(α, β) ist eine Wahrscheinlichkeitsdichte über dem Einheitsintervall [0, 1]. Variable: ε = wahre Fehlerrate. Form: α steuert Masse auf der hohen-ε-Seite; β steuert Masse auf der niedrigen-ε-Seite.

Beta Posterior Tightening

Beta(1, 1): gleichmäßig — keine Information, flache Dichte über [0, 1].

Beta(α, β) mit α + β groß: konzentrierter Spitzenwert bei α / (α + β).

Breite des Beta-Spitzenwerts schrumpft als 1/√(α+β). 100 Beobachtungen zum Prior hinzuzufügen verengt den Spitzenwert um Faktor √100 = 10. 10000 Beobachtungen hinzuzufügen verengt um √10000 = 100.

Geometrische Lesart eines Audit-Laufs

Start: Beta(1, 1) = flaches Rechteck auf [0, 1]. Maximale Unsicherheit über ε.

Nach 200 Abfragen mit 8 Falsifikationen: Beta(9, 193). Mittelwert = 9/202 ≈ 0,045. Dichte jetzt ein scharfer Buckel zentriert nahe 0,045 mit charakteristischer Breite σ ≈ 0,014.

Nach 2000 Abfragen mit 80 Falsifikationen: Beta(81, 1921). Mittelwert immer noch ≈ 0,045, aber Breite σ ≈ 0,0046. Buckel dreimal schärfer.

Nach 200.000 Abfragen mit 8000 Falsifikationen: Beta(8001, 192.001). Mittelwert ≈ 0,040, Breite σ ≈ 0,0004. Buckel wird eine Nadel.

Geometrische Konvergenz zu einer Punktmasse

Wenn n → ∞, kollabiert die Beta-Posteriore zu einem Dirac-Delta beim wahren ε. Geometrie: Rechteck → breiter Buckel → schmaler Buckel → Nadel → Punkt. Jede Abfrage verengt unsere Verteilung um 1/√n.

Warum dies theoretische PAC-Schranken übertrifft

Theoretische PAC-Schranken geben eine STATISCHE ε-Schätzung basierend auf der Größe der Hypothesenklasse. Beta-Posteriore gibt eine DYNAMISCHE ε-Schätzung, die sich mit jeder Beobachtung verengt, kalibriert gegen unsere reale Verteilung. Theoretische Schranke = eine Garantie unter Worst-Case-Annahmen. Empirische Prüfung = eine Messung der tatsächlichen Realität.

Wie viele Abfragen um das glaubwürdige Intervall zu halbieren?

Wir befinden uns derzeit bei Beta(9, 193) nach 200 Abfragen: Mittelwert ε ≈ 0,045, σ ≈ 0,014. Wir wollen die glaubwürdige Intervallbreite auf σ ≈ 0,007 halbieren.

(a) Erinnere dich, dass σ als 1/√(α+β) skaliert. Um σ zu halbieren, um welchen Faktor muss (α + β) wachsen? (b) Derzeit α + β = 202. Berechne Ziel α + β. (c) Berechne zusätzliche Abfragen (bei angenommener konstanter ~4% Falsifikationsrate). (d) Beschreibe geometrisch, was die Halbierung von σ mit der Form der Beta-Dichte macht.