un — PAC 學習的幾何學

un

guest

1 / ?

back to lessons

PAC 作為二軸平面

二軸，一個樣本計數表面

在水平軸上繪製 ε（誤差容差，範圍 0 到 1）。在垂直軸上繪製 δ（失敗概率，範圍 0 到 1）。此單位正方形中的每個點對應一個 (ε, δ) 需求對。

PAC ε δ 預算平面

每個點上方都有一個樣本計數值 m(ε, δ) = (1/ε)(ln|H| + ln(1/δ))。這些 m 值一起在我們的正方形上方描繪一個彎曲表面。更嚴格的需求（更小的 ε、更小的 δ）將我們的表面向上拉動；更寬鬆的需求將其平坦化。

等樣本等高線

將我們的表面投影回平面，作為等 m 等高線。單一等高線上的每個 (ε, δ) 對都需要相同的樣本預算。沿著等高線移動，以固定成本交換誤差容差以獲得信心。

將軸減半

沿水平軸將 ε 減半會將 m 向上移動 2 倍（在 1/ε 中呈線性）。沿垂直軸將 δ 減半會將 m 向上移動 ln(2) ≈ 0.69（在 1/δ 中呈對數）。幾何告訴我們：誤差容差比信心更高的成本。

閱讀預算表面

對於假設類別 |H| = 10⁶，我們位於點 (ε = 0.05, δ = 0.05)。樣本要求 m₀ = (1/0.05)(ln(10⁶) + ln(20)) = 20 × (13.8 + 3.0) = 336。

(a) 計算 (ε = 0.025, δ = 0.05) 處的新樣本要求 m₁ — 誤差減半，信心相同。(b) 計算 (ε = 0.05, δ = 0.025) 處的 m₂ — 誤差相同，失敗概率減半。(c) 哪個軸的樣本成本更陡峭，比例是多少？

點雲上的二分法

粉碎看起來像什麼

在我們的平面上放置 n 個點。選擇一個假設類別（線性分類器 = 直線）。計算我們的類別可以標記那些 n 個點的不同方式的數量（+/− 在直線的每一側）。稱這個計數為 Π_H(n)。

VC 粉碎三個點

如果 Π_H(n) = 2ⁿ，我們的類別粉碎那個點集 — 它可以產生所有可能的標記。如果 Π_H(n) < 2ⁿ，某些標記無法發生。

一般位置的三個點

ℝ² 中的線性分類器粉碎任何 3 個非共線點。2³ = 8 個標記；所有 8 個都可以通過某條直線達到。選擇任何 3 個點；對於每個 ±/± 標記，畫一條將正數與負數分開的直線。

四個點拒絕粉碎

在正方形的角放置 4 個點。嘗試將對角線對標記為正，反對角線對標記為負（XOR 標記）。沒有直線可以將它們分開。所以 Π_H(4) ≤ 14 < 16 = 2⁴。

VC 維度作為最大粉碎大小

VC(線性 ℝ²) = 3。我們可以粉碎 3 個點；我們無法粉碎 4 個。VC 計算我們假設類別的最大二分法容量。

幾何直覺

更高的 VC = 我們的類別繪製更精細的決策邊界。線性（d 維中的 VC = d+1）繪製超平面。多項式繪製曲線。神經網絡繪製高度摺疊的流形。更多的可摺性 = 更多的二分法 = 更高的 VC = 更高的樣本要求。

計數二分法

考慮 ℝ² 中的線性分類器（直線）。我們有 5 個點放置在一般位置（沒有 3 個共線，沒有冗餘）。

(a) 計算 2⁵ = 所有可能的 ±/± 標記的數量。(b) Sauer-Shelah 引理界定 Π_H(n) ≤ Σ_{i=0}^{d} C(n, i)，其中 d = VC(H)。應用 d = 3, n = 5：計算 C(5,0) + C(5,1) + C(5,2) + C(5,3)。(c) 陳述直線不足完全粉碎的因素。

假設流形上的概率質量

描繪 PAC-Bayes

將我們的假設空間描繪為高維流形。此流形上的每個點對應神經網絡的一個權重配置。先驗 P 跨我們的流形分配概率分佈（通常以初始化為中心的高斯分佈）。後驗 Q 集中概率質量在訓練資料驅動我們的權重的地方。

PAC Bayes 假設空間上的後驗

KL 散度作為幾何距離

KL(Q‖P) 測量 Q 從 P 漂移了多遠。幾何閱讀：我們的後驗雲從先驗雲移動了多少，按照每個後驗區域在我們的先驗下有多不可能的加權。

小 KL = Q 與 P 重疊很大。後驗幾乎沒有移動。泛化間隙保持很小。

大 KL = Q 集中在 P 分配很少質量的區域中。後驗移動了很多。泛化間隙增加。

為什麼這種幾何很重要

將 SGD 想象為跨我們的假設流形的搜索軌跡。軌跡在低訓練損失的盆地結束。PAC-Bayes 問：這個盆地有多寬？

寬盆地 = 許多相鄰的權重配置也達到低訓練損失。後驗 Q 可以在寬區域上分佈，仍然風險很低。KL(Q‖P) 保持有界。泛化間隙小。

狹窄盆地 = 只有一組薄的權重達到低損失。後驗必須集中尖銳。KL 增加。泛化間隙加寬。

這直接連接到平面與尖銳極值的話題（Hochreiter & Schmidhuber 1997, Keskar et al 2017）。平面極值更好地泛化，因為它們支持具有較小 KL 的更寬的後驗。

閱讀盆地寬度

兩個訓練的模型達到相同的訓練損失，但生活在不同的盆地中：

- 模型 A： 平面盆地，後驗在具有 KL(Q_A‖P) = 50 nats 的區域上分佈。

- 模型 B： 尖銳盆地，後驗集中於 KL(Q_B‖P) = 500 nats。

兩者都在 n = 10,000 個示例上訓練，經驗風險 0.05, δ = 0.05。

計算每個模型的 PAC-Bayes 泛化間隙 √[(KL + ln(2√n/δ)) / 2n]。然後陳述哪個泛化更好，並給出幾何原因。

一條在理論預測上升的地方下降的曲線

經典 U 形曲線

在水平軸上繪製模型容量。在垂直軸上繪製測試風險。經典偏差-方差理論預測：

- 低容量：高偏差，高測試風險（欠擬合）

- 中等容量：低偏差 + 低方差，低測試風險（最佳點）

- 高容量：低偏差，高方差，高測試風險（過度擬合）

結果：U 形曲線。選擇我們底部的容量。

雙重下降曲線

Belkin 等人 (2019) 觀察到的

超過插值閾值（模型完全擬合零誤差的訓練資料的容量），測試風險再次下降。曲線讀取：下降 → 在插值處的峰值 → 第二次下降。兩個下降，一條曲線。

第二次下降的幾何閱讀

在插值閾值處，模型具有足夠的容量來擬合訓練資料 — 只有一個（或少數）插值解存在，它們往往是參差不齊的。泛化受損，因為選擇的解受強制。

超過插值閾值，許多插值解存在。SGD 可以自由選擇一個光滑的解（最小範數，低曲率）。幾何圖片：解流形變得更寬更平坦。SGD 的隱式正則化從這個平坦流形中選擇良性解。測試風險下降。

為什麼經典理論錯過這一點

VC 維度計算解集容量，但忽略選擇哪個解。經典界限假設最壞情況的經驗風險最小化器。現實：SGD 可靠地選擇我們最平坦、最光滑的插值解。一旦我們計算求解器選擇的解而不是所有解，第二次下降就有意義了。

幾何要點

容量對盆地幾何的重要性較小。寬平盆地（後插值）的泛化優於狹窄尖銳盆地（在插值處）。現代理論試圖通過盆地寬度而不是參數計數來約束泛化。

定位兩個下降

在雙重下降曲線上，三個區域很重要：(1) 欠參數化區制，(2) 插值峰值，(3) 過度參數化區制。

幾何上描述 (a) 解流形寬度、(b) 所選最小值處的盆地曲率、& (c) 隱式正則化在三個區域中的作用發生了什麼。陳述現代訓練（例如 GPT 類模型）在哪個區域運行，以及為什麼經典 PAC 無法預測其成功。

參數-令牌空間中的冪律表面

3D 表面

在一個水平軸上繪製參數 N。在第二個水平軸上繪製令牌 D。在垂直軸上繪製損失 L。經驗損失在此 (N, D) 平面上刻畫冪律表面：

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

計算最優訓練表面

當 N 或 D 中的任何一個增長時，表面斜率向下。斜率遵循對數線性冪律（在對數圖中的直線）。漸近線 L∞ 保持正數 — 不可約損失，我們的模型無法縮小。

計算最優脊

固定總計算預算 C ∝ N × D（參數 × 令牌，大約）。沿此約束對我們的表面進行切片。切片跡跡通過 3D 表面切割 2D 曲線。此曲線的底部 = 計算最優點。

Chinchilla (Hoffmann 等人 2022) 分析計算了這個底部：D_opt ≈ 20 × N。沿計算預算的曲線 = 脊。沿脊走：相等的計算，損失減少。走下脊（超過 20 倍令牌的參數，或更少）：浪費計算。

GPT-3 對 Chinchilla 的幾何閱讀

GPT-3：175B 參數，300B 令牌。Chinchilla 最優希望 175B × 20 = 3500B 令牌。GPT-3 在我們的參數重方向的計算最優脊遠遠超出。Chinchilla 本身：70B 參數訓練 1400B 令牌。1400 / 70 = 20 — 確切在脊上。Chinchilla 通過坐在幾何最優擊敗 GPT-3，參數計數不到一半。

數據牆作為垂直平面

公共網絡 ~10¹³ 可用令牌。這在我們的參數令牌平面上繪製為 D = 10¹³ 的垂直牆。超過此牆，計算最優訓練需要 N ≤ D / 20 = 5 × 10¹¹ 參數。超過 N = 5 × 10¹¹ 的牆要麼運行欠訓練（脫離脊），要麼需要合成/多模態/RL 資料來推動牆向外。

沿著計算最優脊行走

我們位於 GPT-3 坐標：N = 175B 參數，D = 300B 令牌。計算代理 C = N × D = 5.25 × 10²² 參數令牌。

(a) 通過求解 D* = 20 × N* 與 N* × D* = 5.25 × 10²² 為我們相同的計算預算計算 Chinchilla 最優 (N*, D*)。(b) 陳述 N* 與 GPT-3 的 175B 有何因素不同。(c) 幾何上描述在參數令牌表面上「從 GPT-3 的點沿著常數計算曲線走到 (N*, D*)」的樣子。

貝塔後驗緊縮成針

[0, 1] 上的概率密度

Beta(α, β) 是單位區間 [0, 1] 上的概率密度。變數：ε = 真正的誤差率。形狀：α 控制高 ε 側的質量；β 控制低 ε 側的質量。

貝塔後驗緊縮

Beta(1, 1)： 均勻 — 無資訊，在 [0, 1] 上平坦密度。

Beta(α, β) 其中 α + β 大： 集中峰值於 α / (α + β)。

貝塔峰寬度縮小為 1/√(α+β)。為我們的先驗添加 100 個觀察會將峰值緊縮 √100 = 10 倍。添加 10000 個觀察會緊縮 √10000 = 100 倍。

審計運行的幾何閱讀

開始：Beta(1, 1) = [0, 1] 上的平坦矩形。關於 ε 的最大不確定性。

在 200 個查詢後有 8 個偽造：Beta(9, 193)。平均 = 9/202 ≈ 0.045。密度現在是在 0.045 附近中心的尖銳駝峰，特徵寬度σ ≈ 0.014。

在 2000 個查詢後有 80 個偽造：Beta(81, 1921)。平均仍然 ≈ 0.045，但寬度σ ≈ 0.0046。駝峰銳利三倍。

在 200,000 個查詢後有 8000 個偽造：Beta(8001, 192,001)。平均 ≈ 0.040，寬度σ ≈ 0.0004。駝峰變成針。

幾何收斂到點質量

當 n → ∞，貝塔後驗坍塌為真正 ε 處的 Dirac 三角脈衝。幾何：矩形 → 寬駝峰 → 狹窄駝峰 → 針 → 點。每個查詢都將我們的分佈緊縮 1/√n。

為什麼這勝過理論性 PAC 界限

理論性 PAC 界限基於假設類別大小給出靜態 ε 估計。貝塔後驗給出與每個觀察緊縮的動態 ε 估計，根據您的現實世界分佈校準。理論界限 = 在最壞情況假設下的保證。經驗審計 = 實際現實的測量。

多少查詢使可信區間減半？

在 200 個查詢後，我們目前位於 Beta(9, 193)：平均 ε ≈ 0.045，σ ≈ 0.014。我們想將可信區間寬度減半為σ ≈ 0.007。

(a) 回憶σ縮放為 1/√(α+β)。要使σ減半，(α + β) 必須增長多少倍？(b) 目前 α + β = 202。計算目標 α + β。(c) 計算所需的附加查詢（假設恆定 ~4% 偽造率）。(d) 幾何上描述將σ減半對貝塔密度形狀做什麼。