English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

invité
1 / ?
retour aux leçons

PAC comme un plan à deux axes

Deux axes, une surface de comptage d'échantillons

Tracez ε sur l'axe horizontal (tolérance d'erreur, plage 0 à 1). Tracez δ sur l'axe vertical (probabilité d'échec, plage 0 à 1). Chaque point de ce carré unité correspond à une paire de demande (ε, δ).


PAC ε δ Budget Plane


Au-dessus de chaque point se trouve une valeur de comptage d'échantillons m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). Ensemble, ces valeurs m tracent une surface courbe au-dessus de notre carré. Des demandes plus strictes (ε plus petit, δ plus petit) tirent notre surface vers le haut ; des demandes plus lâches l'aplatissent.


Lignes de contour iso-échantillon

Projetez notre surface sur le plan comme des contours iso-m. Chaque paire (ε, δ) sur un contour unique nécessite un budget d'échantillon identique. Déplacez-vous le long d'un contour pour échanger la tolérance d'erreur contre la confiance à coût fixe.


Diviser un axe

Diviser ε le long de l'horizontale déplace m vers le haut d'un facteur 2 (linéaire en 1/ε). Diviser δ le long de la verticale déplace m vers le haut de ln(2) ≈ 0,69 (logarithmique en 1/δ). La géométrie nous dit : la tolérance d'erreur porte un coût plus raide que la confiance.

Lecture de la surface budgétaire

Nous sommes au point (ε = 0,05, δ = 0,05) pour la classe d'hypothèses |H| = 10⁶. L'exigence d'échantillon m₀ = (1/0,05)(ln(10⁶) + ln(20)) = 20 × (13,8 + 3,0) = 336.

(a) Calculez la nouvelle exigence d'échantillon m₁ à (ε = 0,025, δ = 0,05) — demi-erreur, même confiance. (b) Calculez m₂ à (ε = 0,05, δ = 0,025) — même erreur, demi-probabilité d'échec. (c) Quel axe porte le coût d'échantillon plus raide, & par quel ratio ?

Dichotomies sur les nuages de points

À quoi ressemble la fragmentation

Placez n points dans le plan. Choisissez une classe d'hypothèses (classificateurs linéaires = lignes droites). Comptez de combien de façons distinctes notre classe peut étiqueter ces n points (+/− de chaque côté d'une ligne). Appelez ce compte Π_H(n).


VC Shattering Three Points


Si Π_H(n) = 2ⁿ, notre classe fragmente cet ensemble de points — elle peut produire chaque étiquetage possible. Si Π_H(n) < 2ⁿ, certains étiquetages ne peuvent pas se produire.


Trois points en position générale

Les classificateurs linéaires dans ℝ² fragmentent n'importe quels 3 points non-colinéaires. 2³ = 8 étiquetages ; tous les 8 réalisables par une certaine ligne. Choisissez n'importe quels 3 points ; pour chaque étiquetage ±/±, tracez une ligne qui sépare les positifs des négatifs.


Quatre points refusent de se fragmenter

Placez 4 points aux coins d'un carré. Essayez d'étiqueter la paire diagonale comme positive & la paire anti-diagonale comme négative (étiquetage XOR). Aucune ligne droite ne les sépare. Donc Π_H(4) ≤ 14 < 16 = 2⁴.


Dimension VC comme taille de fragmentation maximale

VC(linéaire ℝ²) = 3. Nous pouvons fragmenter 3 points ; nous ne pouvons pas fragmenter 4. VC compte la capacité de dichotomie maximale de notre classe d'hypothèses.


Intuition géométrique

VC plus élevée = notre classe dessine des limites de décision plus élaborées. Linéaire (VC = d+1 en d dimensions) dessine des hyperplans. Les polynômes dessinent des courbes. Les réseaux de neurones dessinent des variétés très pliées. Plus de pliabilité = plus de dichotomies = VC plus élevée = exigence d'échantillon plus élevée.

Comptage des dichotomies

Considérez les classificateurs linéaires dans ℝ² (lignes). Nous avons 5 points placés en position générale (aucun 3 colinéaires, aucun redondant).

(a) Calculez 2⁵ = nombre de tous les étiquetages possibles ±/±. (b) Le lemme de Sauer-Shelah limite Π_H(n) ≤ Σ_{i=0}^{d} C(n, i) où d = VC(H). Appliquez ceci avec d = 3, n = 5 : calculez C(5,0) + C(5,1) + C(5,2) + C(5,3). (c) Indiquez par quel facteur les lignes s'écartent de la fragmentation complète.

Masse de probabilité sur la variété d'hypothèses

Visualisation de PAC-Bayes

Imaginez l'espace d'hypothèses comme une variété de dimension élevée. Chaque point de cette variété correspond à une configuration de poids d'un réseau de neurones. La prieure P assigne une distribution de probabilité sur la variété (souvent Gaussienne centrée à l'initialisation). La postériorité Q concentre la masse de probabilité où les données d'entraînement ont conduit nos poids.


PAC Bayes Posterior over Hypothesis Space


Divergence KL comme distance géométrique

KL(Q‖P) mesure à quelle distance Q s'est éloignée de P. Lecture géométrique : à quelle distance le nuage postérieur s'est déplacé du nuage antérieur, pondéré par la probabilité que chaque région postérieure était sous la prieure.


KL petit = Q chevauche P fortement. La postériorité a à peine bougé. L'écart de généralisation reste petit.


KL grand = Q concentré dans des régions où P a assigné peu de masse. La postériorité s'est déplacée beaucoup. L'écart de généralisation augmente.


Pourquoi cette géométrie importe

Imaginez SGD comme une trajectoire de recherche sur la variété d'hypothèses. La trajectoire se termine dans un bassin de faible perte d'entraînement. PAC-Bayes demande : à quel point ce bassin est-il large ?


Bassin large = de nombreuses configurations de poids voisines réalisent également une faible perte d'entraînement. La postériorité Q peut s'étendre sur une région large & avoir quand même un risque faible. KL(Q‖P) reste limité. L'écart de généralisation petit.


Bassin étroit = seulement un petit ensemble de poids réalise une faible perte. La postériorité doit se concentrer fortement. KL grandit. L'écart de généralisation s'élargit.


Cela se connecte directement au discours minima-plats-vs-aigus (Hochreiter & Schmidhuber 1997, Keskar et al 2017). Les minima plats généralisent mieux car ils soutiennent des postériorités plus larges avec KL plus petit.

Lecture d'une largeur de bassin

Deux modèles entraînés atteignent une perte d'entraînement identique mais vivent dans des bassins différents :


- Modèle A : bassin plat, postériorité s'étend sur une région avec KL(Q_A‖P) = 50 nats.

- Modèle B : bassin aigu, postériorité se concentre avec KL(Q_B‖P) = 500 nats.


Tous deux entraînés sur n = 10 000 exemples avec risque empirique 0,05, δ = 0,05.

Calculez l'écart de généralisation PAC-Bayes √[(KL + ln(2√n/δ)) / 2n] pour chaque modèle. Ensuite, indiquez lequel généralise mieux & donnez la raison géométrique.

Une courbe qui tombe là où la théorie prédisait qu'elle monterait

Courbe U classique

Tracez la capacité du modèle sur l'axe horizontal. Tracez le risque de test sur l'axe vertical. La théorie classique biais-variance prédit :


- Faible capacité : biais élevé, risque de test élevé (sous-apprentissage)

- Capacité intermédiaire : biais faible + variance faible, risque de test faible (point idéal)

- Capacité élevée : biais faible, variance élevée, risque de test élevé (sur-apprentissage)


Résultat : courbe en U. Choisissez la capacité au bas.


Double Descent Curve


Ce que Belkin et al (2019) ont observé

Au-delà du seuil d'interpolation (capacité où le modèle s'ajuste exactement aux données d'entraînement avec erreur zéro), le risque de test CHUTE à nouveau. La courbe lit : descente → pic à l'interpolation → deuxième descente. Deux descentes, une courbe.


Lecture géométrique de la deuxième descente

Au seuil d'interpolation, le modèle a juste assez de capacité pour s'ajuster aux données d'entraînement — seulement une (ou quelques) solutions d'interpolation existent & elles tendent à être dentelées. La généralisation en souffre car la solution choisie est forcée.


Au-delà du seuil d'interpolation, de NOMBREUSES solutions d'interpolation existent. SGD a la liberté de choisir une lisse (normes minimales, courbure faible). Image géométrique : la variété de solutions devient plus large & plus plate. Le biais implicite de SGD choisit des solutions bénignes de cette variété plate. Le risque de test chute.


Pourquoi la théorie classique manque cela

La dimension VC compte la capacité de l'ensemble de solutions mais ignore laquelle est choisie. La borne classique suppose le minimiseur de risque empirique au pire des cas. Réalité : SGD choisit de manière fiable la solution la plus plate & la plus lisse parmi celles qui interpolent. Une fois que nous comptons les solutions CHOISIES PAR LE SOLVEUR au lieu de toutes les solutions, la deuxième descente a du sens.


Prise-clé géométrique

La capacité importe moins que la géométrie du bassin. Les bassins larges & plats (après interpolation) généralisent mieux que les bassins étroits & aigus (à l'interpolation). La théorie moderne essaie de limiter la généralisation par la largeur du bassin, pas par le nombre de paramètres.

Localisation des deux descentes

Sur une courbe de double descente, trois régions importent : (1) régime sous-paramétrisé, (2) pic d'interpolation, (3) régime sur-paramétrisé.

Décrivez géométriquement ce qui arrive à (a) la largeur de la variété de solutions, (b) la courbure du bassin au minimum choisi, & (c) le rôle de la régularisation implicite à chacune des trois régions. Indiquez dans quelle région l'entraînement moderne (ex. les modèles de classe GPT) opère & pourquoi PAC classique échoue à prédire son succès.

Surface de loi de puissance dans l'espace paramètres-jetons

Une surface 3D

Tracez les paramètres N sur un axe horizontal. Tracez les jetons D sur un deuxième axe horizontal. Tracez la perte L sur la verticale. La perte empirique grave une surface de loi de puissance sur ce plan (N, D) :


L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞


Compute Optimal Training Surface


La surface descend au fur et à mesure que N ou D augmente. Les pentes suivent des lois de puissance log-linéaires (lignes droites en graphique log-log). L'asymptote L∞ reste positive — perte irréductible que notre modèle ne peut pas réduire au-delà.


Arête de calcul optimal

Fixez le budget de calcul total C ∝ N × D (paramètres × jetons, à peu près). Découpez notre surface le long de cette contrainte. La tranche de trace coupe une courbe 2D à travers une surface 3D. Le bas de cette courbe = point de calcul optimal.


Chinchilla (Hoffmann et al 2022) a calculé ce bas analytiquement : D_opt ≈ 20 × N. Courbe le long du budget de calcul = une arête. Marcher le long de l'arête : calcul égal, perte décroissante. Marcher hors de l'arête (plus de paramètres que 20× jetons, ou moins) : calcul gaspillé.


Lecture géométrique de GPT-3 vs Chinchilla

GPT-3 : 175B paramètres, 300B jetons. Chinchilla-optimal voudrait 175B × 20 = 3500B jetons. GPT-3 s'asseoit loin de l'arête de calcul optimal dans sa direction gourmande en paramètres. Chinchilla lui-même : 70B paramètres entraînés sur 1400B jetons. 1400 / 70 = 20 — exactement sur l'arête. Chinchilla a battu GPT-3 avec moins de la moitié de son nombre de paramètres en s'asseoyant sur l'optimum géométrique.


Mur de données comme plan vertical

Le web public ~10¹³ jetons utilisables. Cela se trace comme un mur vertical à D = 10¹³ sur le plan paramètres-jetons. Au-delà de ce mur, l'entraînement de calcul optimal exige N ≤ D / 20 = 5 × 10¹¹ paramètres. Les murs au-delà de N = 5 × 10¹¹ soit s'entraînent sous-entraînés (hors arête) soit nécessitent des données synthétiques / multimodales / RL pour pousser le mur vers l'extérieur.

Marche le long de l'arête de calcul optimal

Nous nous asseoyons aux coordonnées GPT-3 : N = 175B paramètres, D = 300B jetons. Proxy de calcul C = N × D = 5,25 × 10²² paramètres-jetons.

(a) Calculez Chinchilla-optimal (N*, D*) pour notre même budget de calcul en résolvant D* = 20 × N* avec N* × D* = 5,25 × 10²². (b) Indiquez de quel facteur N* diffère du 175B de GPT-3. (c) Décrivez géométriquement à quoi ressemble « marcher du point de GPT-3 à (N*, D*) le long de la courbe à calcul constant » sur la surface paramètres-jetons.

Postériorité Bêta se resserrant en une aiguille

Une densité de probabilité sur [0, 1]

Bêta(α, β) est une densité de probabilité sur l'intervalle unité [0, 1]. Variable : ε = taux d'erreur vrai. Forme : α contrôle la masse sur le côté ε élevé ; β contrôle la masse sur le côté ε faible.


Beta Posterior Tightening


Bêta(1, 1) : uniforme — aucune information, densité plate sur [0, 1].

Bêta(α, β) avec α + β grand : pic concentré à α / (α + β).


La largeur du pic Bêta rétrécit comme 1/√(α+β). Ajouter 100 observations à notre prieure resserre le pic d'un facteur √100 = 10. Ajouter 10 000 observations resserre par √10 000 = 100.


Lecture géométrique d'une exécution d'audit

Départ : Bêta(1, 1) = rectangle plat sur [0, 1]. Incertitude maximale sur ε.


Après 200 requêtes avec 8 falsifications : Bêta(9, 193). Moyenne = 9/202 ≈ 0,045. La densité est maintenant une bosse pointue centrée près de 0,045 avec largeur caractéristique σ ≈ 0,014.


Après 2000 requêtes avec 80 falsifications : Bêta(81, 1921). Moyenne toujours ≈ 0,045, mais largeur σ ≈ 0,0046. Bosse trois fois plus pointue.


Après 200 000 requêtes avec 8000 falsifications : Bêta(8001, 192 001). Moyenne ≈ 0,040, largeur σ ≈ 0,0004. La bosse devient une aiguille.


Convergence géométrique vers une masse ponctuelle

Alors que n → ∞, la postériorité Bêta s'effondre en un delta de Dirac au ε vrai. Géométrie : rectangle → bosse large → bosse étroite → aiguille → point. Chaque requête resserre notre distribution par 1/√n.


Pourquoi cela bat les bornes théoriques PAC

Les bornes théoriques PAC donnent une estimation ε STATIQUE basée sur la taille de la classe d'hypothèses. La postériorité Bêta donne une estimation ε DYNAMIQUE qui se resserre à chaque observation, étalonnée contre votre distribution du monde réel. Borne théorique = une garantie sous des hypothèses au pire des cas. Audit empirique = une mesure de la réalité réelle.

Combien de requêtes pour réduire de moitié l'intervalle crédible ?

Nous nous asseoyons actuellement à Bêta(9, 193) après 200 requêtes : ε moyen ≈ 0,045, σ ≈ 0,014. Nous voulons réduire de moitié la largeur de l'intervalle crédible à σ ≈ 0,007.

(a) Rappelez-vous que σ se met à l'échelle comme 1/√(α+β). Pour réduire de moitié σ, de quel facteur (α + β) doit-il croître ? (b) Actuellement α + β = 202. Calculez le α + β cible. (c) Calculez les requêtes supplémentaires nécessaires (en supposant un taux de falsification constant ~4%). (d) Décrivez géométriquement ce que réduire σ de moitié fait à la forme de la densité Bêta.