PAC comme un plan à deux axes
Deux axes, une surface de comptage d'échantillons
Tracez ε sur l'axe horizontal (tolérance d'erreur, plage 0 à 1). Tracez δ sur l'axe vertical (probabilité d'échec, plage 0 à 1). Chaque point de ce carré unité correspond à une paire de demande (ε, δ).
Au-dessus de chaque point se trouve une valeur de comptage d'échantillons m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). Ensemble, ces valeurs m tracent une surface courbe au-dessus de notre carré. Des demandes plus strictes (ε plus petit, δ plus petit) tirent notre surface vers le haut ; des demandes plus lâches l'aplatissent.
Lignes de contour iso-échantillon
Projetez notre surface sur le plan comme des contours iso-m. Chaque paire (ε, δ) sur un contour unique nécessite un budget d'échantillon identique. Déplacez-vous le long d'un contour pour échanger la tolérance d'erreur contre la confiance à coût fixe.
Diviser un axe
Diviser ε le long de l'horizontale déplace m vers le haut d'un facteur 2 (linéaire en 1/ε). Diviser δ le long de la verticale déplace m vers le haut de ln(2) ≈ 0,69 (logarithmique en 1/δ). La géométrie nous dit : la tolérance d'erreur porte un coût plus raide que la confiance.
Lecture de la surface budgétaire
Nous sommes au point (ε = 0,05, δ = 0,05) pour la classe d'hypothèses |H| = 10⁶. L'exigence d'échantillon m₀ = (1/0,05)(ln(10⁶) + ln(20)) = 20 × (13,8 + 3,0) = 336.
Dichotomies sur les nuages de points
À quoi ressemble la fragmentation
Placez n points dans le plan. Choisissez une classe d'hypothèses (classificateurs linéaires = lignes droites). Comptez de combien de façons distinctes notre classe peut étiqueter ces n points (+/− de chaque côté d'une ligne). Appelez ce compte Π_H(n).
Si Π_H(n) = 2ⁿ, notre classe fragmente cet ensemble de points — elle peut produire chaque étiquetage possible. Si Π_H(n) < 2ⁿ, certains étiquetages ne peuvent pas se produire.
Trois points en position générale
Les classificateurs linéaires dans ℝ² fragmentent n'importe quels 3 points non-colinéaires. 2³ = 8 étiquetages ; tous les 8 réalisables par une certaine ligne. Choisissez n'importe quels 3 points ; pour chaque étiquetage ±/±, tracez une ligne qui sépare les positifs des négatifs.
Quatre points refusent de se fragmenter
Placez 4 points aux coins d'un carré. Essayez d'étiqueter la paire diagonale comme positive & la paire anti-diagonale comme négative (étiquetage XOR). Aucune ligne droite ne les sépare. Donc Π_H(4) ≤ 14 < 16 = 2⁴.
Dimension VC comme taille de fragmentation maximale
VC(linéaire ℝ²) = 3. Nous pouvons fragmenter 3 points ; nous ne pouvons pas fragmenter 4. VC compte la capacité de dichotomie maximale de notre classe d'hypothèses.
Intuition géométrique
VC plus élevée = notre classe dessine des limites de décision plus élaborées. Linéaire (VC = d+1 en d dimensions) dessine des hyperplans. Les polynômes dessinent des courbes. Les réseaux de neurones dessinent des variétés très pliées. Plus de pliabilité = plus de dichotomies = VC plus élevée = exigence d'échantillon plus élevée.
Comptage des dichotomies
Considérez les classificateurs linéaires dans ℝ² (lignes). Nous avons 5 points placés en position générale (aucun 3 colinéaires, aucun redondant).
Masse de probabilité sur la variété d'hypothèses
Visualisation de PAC-Bayes
Imaginez l'espace d'hypothèses comme une variété de dimension élevée. Chaque point de cette variété correspond à une configuration de poids d'un réseau de neurones. La prieure P assigne une distribution de probabilité sur la variété (souvent Gaussienne centrée à l'initialisation). La postériorité Q concentre la masse de probabilité où les données d'entraînement ont conduit nos poids.
Divergence KL comme distance géométrique
KL(Q‖P) mesure à quelle distance Q s'est éloignée de P. Lecture géométrique : à quelle distance le nuage postérieur s'est déplacé du nuage antérieur, pondéré par la probabilité que chaque région postérieure était sous la prieure.
KL petit = Q chevauche P fortement. La postériorité a à peine bougé. L'écart de généralisation reste petit.
KL grand = Q concentré dans des régions où P a assigné peu de masse. La postériorité s'est déplacée beaucoup. L'écart de généralisation augmente.
Pourquoi cette géométrie importe
Imaginez SGD comme une trajectoire de recherche sur la variété d'hypothèses. La trajectoire se termine dans un bassin de faible perte d'entraînement. PAC-Bayes demande : à quel point ce bassin est-il large ?
Bassin large = de nombreuses configurations de poids voisines réalisent également une faible perte d'entraînement. La postériorité Q peut s'étendre sur une région large & avoir quand même un risque faible. KL(Q‖P) reste limité. L'écart de généralisation petit.
Bassin étroit = seulement un petit ensemble de poids réalise une faible perte. La postériorité doit se concentrer fortement. KL grandit. L'écart de généralisation s'élargit.
Cela se connecte directement au discours minima-plats-vs-aigus (Hochreiter & Schmidhuber 1997, Keskar et al 2017). Les minima plats généralisent mieux car ils soutiennent des postériorités plus larges avec KL plus petit.
Lecture d'une largeur de bassin
Deux modèles entraînés atteignent une perte d'entraînement identique mais vivent dans des bassins différents :
- Modèle A : bassin plat, postériorité s'étend sur une région avec KL(Q_A‖P) = 50 nats.
- Modèle B : bassin aigu, postériorité se concentre avec KL(Q_B‖P) = 500 nats.
Tous deux entraînés sur n = 10 000 exemples avec risque empirique 0,05, δ = 0,05.
Une courbe qui tombe là où la théorie prédisait qu'elle monterait
Courbe U classique
Tracez la capacité du modèle sur l'axe horizontal. Tracez le risque de test sur l'axe vertical. La théorie classique biais-variance prédit :
- Faible capacité : biais élevé, risque de test élevé (sous-apprentissage)
- Capacité intermédiaire : biais faible + variance faible, risque de test faible (point idéal)
- Capacité élevée : biais faible, variance élevée, risque de test élevé (sur-apprentissage)
Résultat : courbe en U. Choisissez la capacité au bas.
Ce que Belkin et al (2019) ont observé
Au-delà du seuil d'interpolation (capacité où le modèle s'ajuste exactement aux données d'entraînement avec erreur zéro), le risque de test CHUTE à nouveau. La courbe lit : descente → pic à l'interpolation → deuxième descente. Deux descentes, une courbe.
Lecture géométrique de la deuxième descente
Au seuil d'interpolation, le modèle a juste assez de capacité pour s'ajuster aux données d'entraînement — seulement une (ou quelques) solutions d'interpolation existent & elles tendent à être dentelées. La généralisation en souffre car la solution choisie est forcée.
Au-delà du seuil d'interpolation, de NOMBREUSES solutions d'interpolation existent. SGD a la liberté de choisir une lisse (normes minimales, courbure faible). Image géométrique : la variété de solutions devient plus large & plus plate. Le biais implicite de SGD choisit des solutions bénignes de cette variété plate. Le risque de test chute.
Pourquoi la théorie classique manque cela
La dimension VC compte la capacité de l'ensemble de solutions mais ignore laquelle est choisie. La borne classique suppose le minimiseur de risque empirique au pire des cas. Réalité : SGD choisit de manière fiable la solution la plus plate & la plus lisse parmi celles qui interpolent. Une fois que nous comptons les solutions CHOISIES PAR LE SOLVEUR au lieu de toutes les solutions, la deuxième descente a du sens.
Prise-clé géométrique
La capacité importe moins que la géométrie du bassin. Les bassins larges & plats (après interpolation) généralisent mieux que les bassins étroits & aigus (à l'interpolation). La théorie moderne essaie de limiter la généralisation par la largeur du bassin, pas par le nombre de paramètres.
Localisation des deux descentes
Sur une courbe de double descente, trois régions importent : (1) régime sous-paramétrisé, (2) pic d'interpolation, (3) régime sur-paramétrisé.
Surface de loi de puissance dans l'espace paramètres-jetons
Une surface 3D
Tracez les paramètres N sur un axe horizontal. Tracez les jetons D sur un deuxième axe horizontal. Tracez la perte L sur la verticale. La perte empirique grave une surface de loi de puissance sur ce plan (N, D) :
L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞
La surface descend au fur et à mesure que N ou D augmente. Les pentes suivent des lois de puissance log-linéaires (lignes droites en graphique log-log). L'asymptote L∞ reste positive — perte irréductible que notre modèle ne peut pas réduire au-delà.
Arête de calcul optimal
Fixez le budget de calcul total C ∝ N × D (paramètres × jetons, à peu près). Découpez notre surface le long de cette contrainte. La tranche de trace coupe une courbe 2D à travers une surface 3D. Le bas de cette courbe = point de calcul optimal.
Chinchilla (Hoffmann et al 2022) a calculé ce bas analytiquement : D_opt ≈ 20 × N. Courbe le long du budget de calcul = une arête. Marcher le long de l'arête : calcul égal, perte décroissante. Marcher hors de l'arête (plus de paramètres que 20× jetons, ou moins) : calcul gaspillé.
Lecture géométrique de GPT-3 vs Chinchilla
GPT-3 : 175B paramètres, 300B jetons. Chinchilla-optimal voudrait 175B × 20 = 3500B jetons. GPT-3 s'asseoit loin de l'arête de calcul optimal dans sa direction gourmande en paramètres. Chinchilla lui-même : 70B paramètres entraînés sur 1400B jetons. 1400 / 70 = 20 — exactement sur l'arête. Chinchilla a battu GPT-3 avec moins de la moitié de son nombre de paramètres en s'asseoyant sur l'optimum géométrique.
Mur de données comme plan vertical
Le web public ~10¹³ jetons utilisables. Cela se trace comme un mur vertical à D = 10¹³ sur le plan paramètres-jetons. Au-delà de ce mur, l'entraînement de calcul optimal exige N ≤ D / 20 = 5 × 10¹¹ paramètres. Les murs au-delà de N = 5 × 10¹¹ soit s'entraînent sous-entraînés (hors arête) soit nécessitent des données synthétiques / multimodales / RL pour pousser le mur vers l'extérieur.
Marche le long de l'arête de calcul optimal
Nous nous asseoyons aux coordonnées GPT-3 : N = 175B paramètres, D = 300B jetons. Proxy de calcul C = N × D = 5,25 × 10²² paramètres-jetons.
Postériorité Bêta se resserrant en une aiguille
Une densité de probabilité sur [0, 1]
Bêta(α, β) est une densité de probabilité sur l'intervalle unité [0, 1]. Variable : ε = taux d'erreur vrai. Forme : α contrôle la masse sur le côté ε élevé ; β contrôle la masse sur le côté ε faible.
Bêta(1, 1) : uniforme — aucune information, densité plate sur [0, 1].
Bêta(α, β) avec α + β grand : pic concentré à α / (α + β).
La largeur du pic Bêta rétrécit comme 1/√(α+β). Ajouter 100 observations à notre prieure resserre le pic d'un facteur √100 = 10. Ajouter 10 000 observations resserre par √10 000 = 100.
Lecture géométrique d'une exécution d'audit
Départ : Bêta(1, 1) = rectangle plat sur [0, 1]. Incertitude maximale sur ε.
Après 200 requêtes avec 8 falsifications : Bêta(9, 193). Moyenne = 9/202 ≈ 0,045. La densité est maintenant une bosse pointue centrée près de 0,045 avec largeur caractéristique σ ≈ 0,014.
Après 2000 requêtes avec 80 falsifications : Bêta(81, 1921). Moyenne toujours ≈ 0,045, mais largeur σ ≈ 0,0046. Bosse trois fois plus pointue.
Après 200 000 requêtes avec 8000 falsifications : Bêta(8001, 192 001). Moyenne ≈ 0,040, largeur σ ≈ 0,0004. La bosse devient une aiguille.
Convergence géométrique vers une masse ponctuelle
Alors que n → ∞, la postériorité Bêta s'effondre en un delta de Dirac au ε vrai. Géométrie : rectangle → bosse large → bosse étroite → aiguille → point. Chaque requête resserre notre distribution par 1/√n.
Pourquoi cela bat les bornes théoriques PAC
Les bornes théoriques PAC donnent une estimation ε STATIQUE basée sur la taille de la classe d'hypothèses. La postériorité Bêta donne une estimation ε DYNAMIQUE qui se resserre à chaque observation, étalonnée contre votre distribution du monde réel. Borne théorique = une garantie sous des hypothèses au pire des cas. Audit empirique = une mesure de la réalité réelle.
Combien de requêtes pour réduire de moitié l'intervalle crédible ?
Nous nous asseoyons actuellement à Bêta(9, 193) après 200 requêtes : ε moyen ≈ 0,045, σ ≈ 0,014. Nous voulons réduire de moitié la largeur de l'intervalle crédible à σ ≈ 0,007.