un — PAC-Lernen: Von der Theorie zum Produktionsaudit [DESCRIPTION /]

un

Gast

1 / ?

Probably Approximately Correct

Valiants Frage (1984)

Leslie Valiant stellte eine scheinbar einfache Frage: Was bedeutet es, dass eine Maschine lernt? Nicht „Kann sie auswendig lernen?“ Nicht „Kann sie perfekt vorhersagen?“ Sondern: Kann sie aus einer endlichen Stichprobe in Polynomialzeit approximativ gut und mit hoher Wahrscheinlichkeit lernen?

Dieses Rahmenwerk brachte ihm 2010 den Turing Award ein und begründete die Computational Learning Theory.

PAC ε δ Budget Plane

Zwei Regler

ε (Epsilon) — Fehlertoleranz. Ungefähr korrekt bedeutet Fehler ≤ ε. Kleineres ε = strengeres Lernen.

δ (Delta) — Konfidenzparameter. Wahrscheinlich bedeutet Erfolgswahrscheinlichkeit ≥ 1 − δ. Kleineres δ = höhere geforderte Sicherheit.

[BLOCK_TYPE SECTION/STEP]

Definition

[BLOCK_TYPE SECTION/STEP]

Eine Konzeptklasse C gilt als PAC-lernbar, wenn es einen Algorithmus gibt, der für jede Datenverteilung D und jedes Zielkonzept c ∈ C, bei m aus D gezogenen und von c gelabelten Beispielen, eine Hypothese h zurückgibt, sodass gilt: [BLOCK_TYPE SECTION/STEP]

[BLOCK_TYPE SECTION/STEP]

P[error(h) ≤ ε] ≥ 1 − δ [BLOCK_TYPE SECTION/STEP]

[BLOCK_TYPE SECTION/STEP]

wobei m polynomiell in 1/ε, 1/δ und der Konzeptgröße ist. [BLOCK_TYPE SECTION/STEP]

In English: Füttere es mit genügend Beispielen, und es kommt oft genug nah genug heran, und „genug“ wächst nicht exponentiell.

Stichprobenkomplexität für endliche Hypothesenräume

Wenn unser Hypothesenraum H nur endlich viele Kandidatenhypothesen enthält, liefert die klassische Analyse:

m ≥ (1/ε)(ln|H| + ln(1/δ))

Lies diese Formel als Budget. Halbiert man ε, verdoppelt sich die benötigte Stichprobenanzahl. Halbiert man δ, kommt ein konstanter Aufschlag hinzu. Verdoppelt man |H|, steigt die Stichprobenanzahl nur um ln(2) – logarithmische Skalierung, ein angenehm langsames Wachstum.

Stichprobengröße für eine Hypothesenklasse bestimmen

Ein Spam-Filter wählt unter |H| = 1.000.000 Kandidaten-Regelsätzen aus. Wir wollen einen Fehler ε ≤ 0,05 mit Konfidenz 1 − δ = 0,99 (also δ = 0,01).

Wende die PAC-Stichprobenkomplexitäts-Schranke für endliche Klassen m ≥ (1/ε)(ln|H| + ln(1/δ)) an, um eine ausreichende Stichprobengröße m zu berechnen. Zeige die Substitution aller drei Werte (ε, |H|, δ) und approximiere die ln-Werte auf eine Dezimalstelle. Runde m auf eine ganze Zahl auf.

Shattering & VC-Dimension

Wenn Hypothesenräume unendlich werden

Die Schranke m ≥ (1/ε)(ln|H| + ln(1/δ)) versagt, wenn |H| = ∞. Die meisten nützlichen Hypothesenklassen (lineare Klassifikatoren in ℝᵈ, Entscheidungsbäume, neuronale Netze) enthalten unendlich viele Kandidaten. Vapnik & Chervonenkis lösten dies um 1971 mit einem reichhaltigeren Komplexitätsmaß: VC-Dimension.

VC Shattering Three Points

Shattering

Eine Hypothesenklasse H zertrümmert eine Menge von n Punkten, wenn H jede mögliche Beschriftung dieser n Punkte erzeugen kann (alle 2ⁿ Dichotomien). Lineare Klassifikatoren in ℝ² zertrümmern beliebige 3 Punkte in allgemeiner Lage: Für jede der 8 möglichen +/−-Beschriftungen dieser 3 Punkte existiert eine Linie, die sie korrekt trennt.

Aber lineare Klassifikatoren in ℝ² können 4 Punkte in XOR-Anordnung nicht zertrümmern. Keine Gerade trennt das diagonale Paar vom antidiagonalen Paar.

VC-Dimension

VC(H) = die größte n, für die H eine n-Punkt-Menge zertrümmert. Für lineare Klassifikatoren in 2D: VC = 3. Für achsenparallele Rechtecke in 2D: VC = 4. Für neuronale Netze mit W Gewichten: VC ≤ O(W² log W) (Bartlett & Anthony 1999).

Stichprobenkomplexität mit VC-Dimension

Ersetze ln|H| in unserer PAC-Schranke durch die VC-Dimension d:

m = O((d/ε) log(1/ε) + (1/ε) log(1/δ))

Die VC-Dimension dient als unsere „effektive Komplexität“ einer unendlichen Klasse. Eine Hypothesenklasse mit niedriger VC-Dimension generalisiert aus wenigen Beispielen; eine Klasse mit hoher VC-Dimension benötigt deutlich mehr Daten.

VC-Dimension als effektive Hypothesenanzahl

Ein neuronales Netz hat W = 10⁹ Gewichte. Nach der Bartlett-Anthony-Schranke gilt VC ≤ O(W² log W). Wir approximieren VC ≈ W² log₂ W.

Schätze VC für W = 10⁹. Setze diesen Wert anschließend in die VC-Stichproben-Schranke m ≈ (d/ε) ein (log-Faktoren ignorieren), mit ε = 0,01. Vergleiche m mit der Größe aller öffentlich zugänglichen Texte im Internet (~10¹³ Tokens). Gib an, ob klassische PAC-Theorie vorhersagt, dass unsere Hypothesenklasse aus internetgroßen Daten PAC-gelernt werden kann.

Realisierbarkeit fallen lassen, Posterioren über Hypothesen

Zwei wichtige Verallgemeinerungen

Klassisches PAC nimmt an, dass unser Zielkonzept c innerhalb unserer Hypothesenklasse H liegt. Reale Daten enthalten Rauschen, Fehlbeschriftungen und Konzepte, die unsere Klasse nicht darstellen kann. Zwei Erweiterungen behandeln dies.

PAC Bayes Posterior über dem Hypothesenraum

Agnostic PAC

Lassen wir unsere Annahme fallen, dass c ∈ H gilt. Jetzt konkurrieren wir gegen unsere best-in-class-Hypothese h* = argmin_{h ∈ H} risk(h). Die Form der Schranke ändert sich: statt sich der perfekten Hypothese anzunähern, nähern wir uns der bestmöglichen Hypothese innerhalb von H an.

Agnostische Schranke: P[risk(h) ≤ risk(h*) + ε] ≥ 1 − δ mit Stichprobenkomplexität m = O(1/ε² × (VC(H) + log(1/δ))). Beachte ε² statt ε im Nenner: Agnostisches Lernen benötigt mehr Beispiele für dieselbe Genauigkeit.

PAC-Bayes (McAllester 1999)

Wir wechseln von der Auswahl einer einzelnen Hypothese zur Auswahl einer Verteilung über Hypothesen. Beginnen wir mit dem Prior P. Beobachten wir Daten. Leiten wir den Posterior Q ab. PAC-Bayes-Schranken geben eine obere Schranke für das erwartete Risiko unter Q:

𝔼_{h~Q}[risk(h)] ≤ 𝔼_{h~Q}[empirical_risk(h)] + √[(KL(Q‖P) + ln(2√n/δ)) / 2n]

KL(Q‖P) misst, wie weit sich unsere Posterior-Verteilung von unserer Prior-Verteilung entfernt hat. Zwei Interpretationen:

1. Kompressionssicht. Eine Posterior-Verteilung, die nah an ihrer Prior-Verteilung liegt (kleines KL), generalisiert gut — geringe Informationskosten = geringe Generalisierungslücke.

2. Bayessche Sicht. Starker Prior + schwache Datenaktualisierung = enge Schranke; schwacher Prior + starke Datenaktualisierung = lockerere Schranke.

Warum PAC-Bayes wichtig ist. Empirische PAC-Bayes-Schranken (Catoni 2007, Dziugaite & Roy 2017) liefern numerisch aussagekräftige Generalisierungsgarantien für reale neuronale Netze, bei denen klassische PAC-Schranken leerlaufen. Sie bleiben unser engstes theoretisches Werkzeug für die Generalisierung überparametrisierter Modelle.

Reading a PAC-Bayes Bound

Angenommen, wir trainieren ein Netzwerk auf n = 50.000 gelabelten Beispielen. Nach dem Training hat unsere Posterior Q über die Gewichte KL(Q‖P) = 200 Nats relativ zu einem Gaußschen Prior P. Das empirische Risiko unter Q beträgt 0,10. Setze δ = 0,05.

Berechne die PAC-Bayes-Obergrenze für das erwartete Risiko. Zeige die Substitution in √[(KL + ln(2√n/δ)) / 2n]. Runde ln(2√n/δ) auf eine ganze Zahl. Gib an, ob unsere Grenze aussagekräftig ist (d. h. ob sie ein wahres Risiko < 0,5 vorhersagt).

Überparametrisierung & Double Descent

Klassisches PAC sagt Katastrophe voraus

Klassisches PAC sagt voraus: mehr Parameter als Stichproben = katastrophales Overfitting. Perfektes Lernen auf Trainingsdaten, zufällige Generalisierung auf Testdaten. VC-Bound sagt Memorierung ohne Lernen voraus.

Moderne neuronale Netze haben routinemäßig 10× bis 1000× mehr Parameter als Trainingsbeispiele und generalisieren trotzdem. Das dürfte nach klassischer Theorie nicht passieren. Es passiert trotzdem.

Double Descent Curve

Die U-Kurve, die wir gelernt haben

Klassischer Bias-Varianz-Konflikt: Mit steigender Modellkapazität sinkt der Trainingsfehler monoton; der Testfehler fällt zunächst (weniger Underfitting), erreicht ein Minimum und steigt dann wieder (Overfitting). Die U-Form wird durch die VC-Theorie vorhergesagt.

Was tatsächlich passiert — Double Descent

Belkin et al. (2019) zeigten, dass der Testfehler der klassischen U-Kurve bis zum Interpolationsschwellwert (Kapazität = Anzahl der Samples) folgt und danach erneut Abfällt. Stark überparametrisierte Modelle generalisieren besser als gerade ausreichend große Modelle.

Warum klassische PAC-Bounds dies nicht erfassen

1. Die verteilungsfreie Annahme ist zu pessimistisch. Reale Daten besitzen Struktur (niedrige intrinsische Dimension, Mannigfaltigkeitsgeometrie). PAC-Schranken gelten für Worst-Case-Verteilungen; reale Verteilungen nutzen Strukturen, die auch SGD ausnutzt.

2. Implizite Regularisierung. SGD auf überparametrisierten Netzen findet interpolierende Lösungen mit minimaler Norm oder minimaler Komplexität, nicht beliebige. Die klassische Theorie geht vom worst-case Empirical-Risk-Minimizer aus; reale Algorithmen wählen gutartige Lösungen.

3. Falsche Definition der Hypothesenklasse. Die effektive Hypothesenklasse, die SGD tatsächlich durchläuft, ist deutlich kleiner als der nominale Gewichtsraum. PAC-Bayes-Posteriori-Verteilungen erfassen dies; die VC-Dimension nicht.

Aktuelle theoretische Arbeiten (Bartlett, Long, Lugosi, Tsigler 2020 zu benign overfitting; Nakkiran et al. 2020 zu Double Descent) entwickeln eine post-PAC-Generalisierungstheorie, die unser überparametrisiertes Regime berücksichtigt.

Diagnose eines Versagens klassischer PAC

Ein Forschungsteam trainiert ein Netzwerk mit 1 Milliarde Parametern auf 100.000 gelabelten Beispielen. Klassische PAC-Theorie liefert vacuous bounds. Empirisch erreicht die Testgenauigkeit 95 %.

Nennen Sie drei konkrete Gründe, warum klassische PAC dieses Ergebnis nicht vorhersagen kann. Nennen Sie für jeden Grund ein Phänomen (distribution structure, implicit regularization, double descent, posterior concentration) und erklären Sie kurz, warum klassische PAC es verpasst. 2–3 Sätze pro Grund.

Kaplan, Chinchilla & die Dimensionierung automatisierter allgemeiner Intelligenz

Von Grenzen zu empirischen Skalierungsgesetzen

Klassisches PAC sagt die Datensatzgröße theoretisch vorher und liefert leere Ergebnisse. Empirische Skalierungsgesetze sagen die Datensatzgröße aus Beobachtungen vorher und funktionieren tatsächlich. Sie haben PAC als praktisches Dimensionierungswerkzeug für große Modelle abgelöst.

Compute Optimal Training Surface

Kaplan et al (2020)

Der Verlust folgt einem Potenzgesetz in den Parametern N, den Datensatz-Tokens D und dem Rechenaufwand C:

L(N) ≈ (Nc/N)^αN L(D) ≈ (Dc/D)^αD L(C) ≈ (Cc/C)^αC

Eine Verdopplung der Parameter reduziert den Verlust um einen festen multiplikativen Faktor. Eine Verdopplung der Daten reduziert den Verlust um einen weiteren festen Faktor. Diese Exponenten (αN, αD, αC) messen und prognostizieren das Verhalten an der Frontier über viele Größenordnungen hinweg.

Hoffmann et al. 2022 (Chinchilla)

Chinchilla zeigte, dass Kaplans Exponenten Parameter gegenüber Daten übergewichtet haben. Compute-optimales Training erfordert etwa 20 Tokens pro Parameter:

D_opt ≈ 20 × N

GPT-3 (175B Parameter) wurde mit ~300B Tokens trainiert — nach Chinchilla-Mathematik stark untertrainiert. Ein compute-optimales 175B-Parameter-Modell benötigt ~3,5 Billionen Tokens.

Die Datenwand

Die Skalierung unserer Parameteranzahl erfordert eine proportionale Skalierung unserer Token-Anzahl. Ein öffentlicher Web-Crawl liefert etwa 10¹³ nützliche Token. Eine hypothetische automatisierte allgemeine Intelligenz mit 10¹⁵ Parametern würde etwa 2×10¹⁶ Token benötigen — drei Größenordnungen mehr als die verfügbaren Web-Daten.

Das ist unsere Datenwand. Skalierungsgesetze sagen vorher, dass wir auf einen Korpus-Mangel stoßen, lange bevor wir auf einen Rechenmangel stoßen. Synthetische Daten, multimodale Korpora (Video, Audio, Sensordatenströme) und RL aus der Umgebung zielen alle darauf ab, diese Wand zu überwinden.

Die klassische PAC-Theorie sagte uns (fälschlicherweise), dass wir 10²¹ Beispiele benötigen. Skalierungsgesetze sagen uns (an der Realität kalibriert), dass wir 2×10¹⁶ benötigen. Beide Zahlen übersteigen den verfügbaren Text. Die aktuelle Frontier-Forschung beschäftigt sich damit, diese Lücke zu schließen.

Schätzung eines Korpus für automatisierte allgemeine Intelligenz

Angenommen, ein Frontier-Labor schlägt ein Modell mit 10¹⁴ Parametern vor und behauptet, es werde automatisierte allgemeine Intelligenz erreichen. Wir wollen die Größe seines Trainingskorpus nach der Chinchilla-Regel bestimmen.

Wende D_opt ≈ 20 × N an, um die compute-optimale Token-Anzahl für N = 10¹⁴ Parameter zu schätzen. Vergleiche mit dem öffentlichen Web (~10¹³ Token). Gib an, um welchen Faktor wir zu kurz kommen, und nenne zwei Strategien, die Frontier-Labs nutzen, um diese Lücke zu schließen.

Von theoretischen Schranken zu Produktionsmessungen

Aufhören, Schranken zu berechnen; anfangen, sie zu messen

Klassische PAC-Schranken sind leer. PAC-Bayes-Schranken sind unter schwer verifizierbaren Annahmen eng. Eine praktische Alternative: ε empirisch auf der realen Verteilung messen und während des Betriebs aktualisieren.

Beta Posterior Tightening

Idee 1 — Coverage als Empirical PAC definieren

Ein make coverage-Target führt N zurückgehaltene Fragen durch Ihr Abfragesystem und misst zwei Raten:

- cache_hit_rate — Anteil der Fälle, in denen Ihr System eine bekannte Antwort gefunden hat

- i_dont_know_rate — Anteil der Fälle, in denen Ihr System ehrlich verzichtet hat

Jede Messung = ein Bernoulli-Versuch. Aus den beobachteten Zählungen wird ein Wilson-Konfidenzintervall für die wahre Rate berechnet. Beispiel: N = 1000 Queries, beobachtete i_dont_know_rate = 0.20 → 95 % CI ≈ [0.177, 0.226]. Die obere Grenze 0.226 entspricht exakt einem PAC-ε bei δ = 0.05, abgeleitet aus realen Daten der realen Verteilung statt aus einer worst-case-theoretischen Analyse.

Die klassische PAC-Terminologie gilt (ε, δ, Konfidenz). Andere mathematische Grundlage (Binomial-Konzentration vs. VC-Theorie). Strengeres Ergebnis, da reale Verteilungen ausnutzbare Struktur besitzen.

Idee 2 — PAC-Bayes-Audit über Falsifikationsereignisse

Jede Falsifikation (nachweisbar falsche Systemantwort) wird als Evidenz behandelt, die die Posterior-Verteilung über die wahre Fehlerrate ε aktualisiert:

1. Prior: ε ~ Beta(α₀, β₀). Wähle einen schwachen Prior, z. B. Beta(1, 1) = Uniform.

2. Jede Abfrage erzeugt ein Bernoulli-Ergebnis: gefälscht (1) oder gehalten (0).

3. Posterior nach k Fälschungen in n Abfragen: Beta(α₀ + k, β₀ + n − k).

4. Posterior-Mittelwert: (α₀ + k) / (α₀ + β₀ + n) → empirische Fälschungsrate als n → ∞.

5. 95%-Glaubwürdigkeitsintervall für ε wird enger wie 1/√n.

Was uns das bringt

- Schätzung von ε₀ aus der realen Welt durch tatsächlichen Einsatz, nicht durch Worst-Case-Theorie

- Anytime-gültiger Alarm: wenn das posteriore Glaubwürdigkeitsintervall die Vertragsgrenze überschreitet, jemanden alarmieren

- Monotone Konfidenz: mehr beobachtete Abfragen → engeres CI → stärkere Garantie

Verwandte Techniken: konforme Vorhersage mit Online-Rekalibrierung (Vovk), sequentielle Wahrscheinlichkeitsverhältnistests (Wald), Online PAC-Bayes (Haddouche & Guedj 2022). Gleiche Familie, unterschiedliche mathematische Methodik.

Berechnung einer Beta-Posterior-Verteilung für Falsifikationen

Unser Team führt ein Coverage-Audit an einem produktiven Abfragesystem durch. Prior für die wahre Fehlerrate ε: Beta(1, 1) (uniform). Nach 200 Out-of-Sample-Abfragen beobachteten wir 8 Falsifikationen.

Berechne (a) die Posterior-Parameter Beta(α, β) nach Beobachtung dieser Daten; (b) den Posterior-Mittelwert von ε; (c) die obere Grenze des approximativen 95%-Glaubwürdigkeitsintervalls mit μ + 2σ, wobei σ = √(αβ/((α+β)²(α+β+1))). Gib dann an, ob du das System in Produktion nehmen würdest, wenn der Vertrag ε ≤ 0,10 verlangt.