English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

PAC 作為二軸平面

二軸,一個樣本計數表面

在水平軸上繪製 ε(誤差容差,範圍 0 到 1)。在垂直軸上繪製 δ(失敗概率,範圍 0 到 1)。此單位正方形中的每個點對應一個 (ε, δ) 需求對。


PAC ε δ 預算平面


每個點上方都有一個樣本計數值 m(ε, δ) = (1/ε)(ln|H| + ln(1/δ))。這些 m 值一起在我們的正方形上方描繪一個彎曲表面。更嚴格的需求(更小的 ε、更小的 δ)將我們的表面向上拉動;更寬鬆的需求將其平坦化。


等樣本等高線

將我們的表面投影回平面,作為等 m 等高線。單一等高線上的每個 (ε, δ) 對都需要相同的樣本預算。沿著等高線移動,以固定成本交換誤差容差以獲得信心。


將軸減半

沿水平軸將 ε 減半會將 m 向上移動 2 倍(在 1/ε 中呈線性)。沿垂直軸將 δ 減半會將 m 向上移動 ln(2) ≈ 0.69(在 1/δ 中呈對數)。幾何告訴我們:誤差容差比信心更高的成本。

閱讀預算表面

對於假設類別 |H| = 10⁶,我們位於點 (ε = 0.05, δ = 0.05)。樣本要求 m₀ = (1/0.05)(ln(10⁶) + ln(20)) = 20 × (13.8 + 3.0) = 336。

(a) 計算 (ε = 0.025, δ = 0.05) 處的新樣本要求 m₁ — 誤差減半,信心相同。(b) 計算 (ε = 0.05, δ = 0.025) 處的 m₂ — 誤差相同,失敗概率減半。(c) 哪個軸的樣本成本更陡峭,比例是多少?

點雲上的二分法

粉碎看起來像什麼

在我們的平面上放置 n 個點。選擇一個假設類別(線性分類器 = 直線)。計算我們的類別可以標記那些 n 個點的不同方式的數量(+/− 在直線的每一側)。稱這個計數為 Π_H(n)。


VC 粉碎三個點


如果 Π_H(n) = 2ⁿ,我們的類別粉碎那個點集 — 它可以產生所有可能的標記。如果 Π_H(n) < 2ⁿ,某些標記無法發生。


一般位置的三個點

ℝ² 中的線性分類器粉碎任何 3 個非共線點。2³ = 8 個標記;所有 8 個都可以通過某條直線達到。選擇任何 3 個點;對於每個 ±/± 標記,畫一條將正數與負數分開的直線。


四個點拒絕粉碎

在正方形的角放置 4 個點。嘗試將對角線對標記為正,反對角線對標記為負(XOR 標記)。沒有直線可以將它們分開。所以 Π_H(4) ≤ 14 < 16 = 2⁴。


VC 維度作為最大粉碎大小

VC(線性 ℝ²) = 3。我們可以粉碎 3 個點;我們無法粉碎 4 個。VC 計算我們假設類別的最大二分法容量。


幾何直覺

更高的 VC = 我們的類別繪製更精細的決策邊界。線性(d 維中的 VC = d+1)繪製超平面。多項式繪製曲線。神經網絡繪製高度摺疊的流形。更多的可摺性 = 更多的二分法 = 更高的 VC = 更高的樣本要求。

計數二分法

考慮 ℝ² 中的線性分類器(直線)。我們有 5 個點放置在一般位置(沒有 3 個共線,沒有冗餘)。

(a) 計算 2⁵ = 所有可能的 ±/± 標記的數量。(b) Sauer-Shelah 引理界定 Π_H(n) ≤ Σ_{i=0}^{d} C(n, i),其中 d = VC(H)。應用 d = 3, n = 5:計算 C(5,0) + C(5,1) + C(5,2) + C(5,3)。(c) 陳述直線不足完全粉碎的因素。

假設流形上的概率質量

描繪 PAC-Bayes

將我們的假設空間描繪為高維流形。此流形上的每個點對應神經網絡的一個權重配置。先驗 P 跨我們的流形分配概率分佈(通常以初始化為中心的高斯分佈)。後驗 Q 集中概率質量在訓練資料驅動我們的權重的地方。


PAC Bayes 假設空間上的後驗


KL 散度作為幾何距離

KL(Q‖P) 測量 Q 從 P 漂移了多遠。幾何閱讀:我們的後驗雲從先驗雲移動了多少,按照每個後驗區域在我們的先驗下有多不可能的加權。


小 KL = Q 與 P 重疊很大。後驗幾乎沒有移動。泛化間隙保持很小。


大 KL = Q 集中在 P 分配很少質量的區域中。後驗移動了很多。泛化間隙增加。


為什麼這種幾何很重要

將 SGD 想象為跨我們的假設流形的搜索軌跡。軌跡在低訓練損失的盆地結束。PAC-Bayes 問:這個盆地有多寬?


寬盆地 = 許多相鄰的權重配置也達到低訓練損失。後驗 Q 可以在寬區域上分佈,仍然風險很低。KL(Q‖P) 保持有界。泛化間隙小。


狹窄盆地 = 只有一組薄的權重達到低損失。後驗必須集中尖銳。KL 增加。泛化間隙加寬。


這直接連接到平面與尖銳極值的話題(Hochreiter & Schmidhuber 1997, Keskar et al 2017)。平面極值更好地泛化,因為它們支持具有較小 KL 的更寬的後驗。

閱讀盆地寬度

兩個訓練的模型達到相同的訓練損失,但生活在不同的盆地中:


- 模型 A: 平面盆地,後驗在具有 KL(Q_A‖P) = 50 nats 的區域上分佈。

- 模型 B: 尖銳盆地,後驗集中於 KL(Q_B‖P) = 500 nats。


兩者都在 n = 10,000 個示例上訓練,經驗風險 0.05, δ = 0.05。

計算每個模型的 PAC-Bayes 泛化間隙 √[(KL + ln(2√n/δ)) / 2n]。然後陳述哪個泛化更好,並給出幾何原因。

一條在理論預測上升的地方下降的曲線

經典 U 形曲線

在水平軸上繪製模型容量。在垂直軸上繪製測試風險。經典偏差-方差理論預測:


- 低容量:高偏差,高測試風險(欠擬合)

- 中等容量:低偏差 + 低方差,低測試風險(最佳點)

- 高容量:低偏差,高方差,高測試風險(過度擬合)


結果:U 形曲線。選擇我們底部的容量。


雙重下降曲線


Belkin 等人 (2019) 觀察到的

超過插值閾值(模型完全擬合零誤差的訓練資料的容量),測試風險再次下降。曲線讀取:下降 → 在插值處的峰值 → 第二次下降。兩個下降,一條曲線。


第二次下降的幾何閱讀

在插值閾值處,模型具有足夠的容量來擬合訓練資料 — 只有一個(或少數)插值解存在,它們往往是參差不齊的。泛化受損,因為選擇的解受強制。


超過插值閾值,許多插值解存在。SGD 可以自由選擇一個光滑的解(最小範數,低曲率)。幾何圖片:解流形變得更寬更平坦。SGD 的隱式正則化從這個平坦流形中選擇良性解。測試風險下降。


為什麼經典理論錯過這一點

VC 維度計算解集容量,但忽略選擇哪個解。經典界限假設最壞情況的經驗風險最小化器。現實:SGD 可靠地選擇我們最平坦、最光滑的插值解。一旦我們計算求解器選擇的解而不是所有解,第二次下降就有意義了。


幾何要點

容量對盆地幾何的重要性較小。寬平盆地(後插值)的泛化優於狹窄尖銳盆地(在插值處)。現代理論試圖通過盆地寬度而不是參數計數來約束泛化。

定位兩個下降

在雙重下降曲線上,三個區域很重要:(1) 欠參數化區制,(2) 插值峰值,(3) 過度參數化區制。

幾何上描述 (a) 解流形寬度、(b) 所選最小值處的盆地曲率、& (c) 隱式正則化在三個區域中的作用發生了什麼。陳述現代訓練(例如 GPT 類模型)在哪個區域運行,以及為什麼經典 PAC 無法預測其成功。

參數-令牌空間中的冪律表面

3D 表面

在一個水平軸上繪製參數 N。在第二個水平軸上繪製令牌 D。在垂直軸上繪製損失 L。經驗損失在此 (N, D) 平面上刻畫冪律表面:


L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞


計算最優訓練表面


當 N 或 D 中的任何一個增長時,表面斜率向下。斜率遵循對數線性冪律(在對數圖中的直線)。漸近線 L∞ 保持正數 — 不可約損失,我們的模型無法縮小。


計算最優脊

固定總計算預算 C ∝ N × D(參數 × 令牌,大約)。沿此約束對我們的表面進行切片。切片跡跡通過 3D 表面切割 2D 曲線。此曲線的底部 = 計算最優點。


Chinchilla (Hoffmann 等人 2022) 分析計算了這個底部:D_opt ≈ 20 × N。沿計算預算的曲線 = 脊。沿脊走:相等的計算,損失減少。走下脊(超過 20 倍令牌的參數,或更少):浪費計算。


GPT-3 對 Chinchilla 的幾何閱讀

GPT-3:175B 參數,300B 令牌。Chinchilla 最優希望 175B × 20 = 3500B 令牌。GPT-3 在我們的參數重方向的計算最優脊遠遠超出。Chinchilla 本身:70B 參數訓練 1400B 令牌。1400 / 70 = 20 — 確切在脊上。Chinchilla 通過坐在幾何最優擊敗 GPT-3,參數計數不到一半。


數據牆作為垂直平面

公共網絡 ~10¹³ 可用令牌。這在我們的參數令牌平面上繪製為 D = 10¹³ 的垂直牆。超過此牆,計算最優訓練需要 N ≤ D / 20 = 5 × 10¹¹ 參數。超過 N = 5 × 10¹¹ 的牆要麼運行欠訓練(脫離脊),要麼需要合成/多模態/RL 資料來推動牆向外。

沿著計算最優脊行走

我們位於 GPT-3 坐標:N = 175B 參數,D = 300B 令牌。計算代理 C = N × D = 5.25 × 10²² 參數令牌。

(a) 通過求解 D* = 20 × N* 與 N* × D* = 5.25 × 10²² 為我們相同的計算預算計算 Chinchilla 最優 (N*, D*)。(b) 陳述 N* 與 GPT-3 的 175B 有何因素不同。(c) 幾何上描述在參數令牌表面上「從 GPT-3 的點沿著常數計算曲線走到 (N*, D*)」的樣子。

貝塔後驗緊縮成針

[0, 1] 上的概率密度

Beta(α, β) 是單位區間 [0, 1] 上的概率密度。變數:ε = 真正的誤差率。形狀:α 控制高 ε 側的質量;β 控制低 ε 側的質量。


貝塔後驗緊縮


Beta(1, 1): 均勻 — 無資訊,在 [0, 1] 上平坦密度。

Beta(α, β) 其中 α + β 大: 集中峰值於 α / (α + β)。


貝塔峰寬度縮小為 1/√(α+β)。為我們的先驗添加 100 個觀察會將峰值緊縮 √100 = 10 倍。添加 10000 個觀察會緊縮 √10000 = 100 倍。


審計運行的幾何閱讀

開始:Beta(1, 1) = [0, 1] 上的平坦矩形。關於 ε 的最大不確定性。


在 200 個查詢後有 8 個偽造:Beta(9, 193)。平均 = 9/202 ≈ 0.045。密度現在是在 0.045 附近中心的尖銳駝峰,特徵寬度σ ≈ 0.014。


在 2000 個查詢後有 80 個偽造:Beta(81, 1921)。平均仍然 ≈ 0.045,但寬度σ ≈ 0.0046。駝峰銳利三倍。


在 200,000 個查詢後有 8000 個偽造:Beta(8001, 192,001)。平均 ≈ 0.040,寬度σ ≈ 0.0004。駝峰變成針。


幾何收斂到點質量

當 n → ∞,貝塔後驗坍塌為真正 ε 處的 Dirac 三角脈衝。幾何:矩形 → 寬駝峰 → 狹窄駝峰 → 針 → 點。每個查詢都將我們的分佈緊縮 1/√n。


為什麼這勝過理論性 PAC 界限

理論性 PAC 界限基於假設類別大小給出靜態 ε 估計。貝塔後驗給出與每個觀察緊縮的動態 ε 估計,根據您的現實世界分佈校準。理論界限 = 在最壞情況假設下的保證。經驗審計 = 實際現實的測量。

多少查詢使可信區間減半?

在 200 個查詢後,我們目前位於 Beta(9, 193):平均 ε ≈ 0.045,σ ≈ 0.014。我們想將可信區間寬度減半為σ ≈ 0.007。

(a) 回憶σ縮放為 1/√(α+β)。要使σ減半,(α + β) 必須增長多少倍?(b) 目前 α + β = 202。計算目標 α + β。(c) 計算所需的附加查詢(假設恆定 ~4% 偽造率)。(d) 幾何上描述將σ減半對貝塔密度形狀做什麼。