PAC 作為二軸平面
二軸,一個樣本計數表面
在水平軸上繪製 ε(誤差容差,範圍 0 到 1)。在垂直軸上繪製 δ(失敗概率,範圍 0 到 1)。此單位正方形中的每個點對應一個 (ε, δ) 需求對。
每個點上方都有一個樣本計數值 m(ε, δ) = (1/ε)(ln|H| + ln(1/δ))。這些 m 值一起在我們的正方形上方描繪一個彎曲表面。更嚴格的需求(更小的 ε、更小的 δ)將我們的表面向上拉動;更寬鬆的需求將其平坦化。
等樣本等高線
將我們的表面投影回平面,作為等 m 等高線。單一等高線上的每個 (ε, δ) 對都需要相同的樣本預算。沿著等高線移動,以固定成本交換誤差容差以獲得信心。
將軸減半
沿水平軸將 ε 減半會將 m 向上移動 2 倍(在 1/ε 中呈線性)。沿垂直軸將 δ 減半會將 m 向上移動 ln(2) ≈ 0.69(在 1/δ 中呈對數)。幾何告訴我們:誤差容差比信心更高的成本。
閱讀預算表面
對於假設類別 |H| = 10⁶,我們位於點 (ε = 0.05, δ = 0.05)。樣本要求 m₀ = (1/0.05)(ln(10⁶) + ln(20)) = 20 × (13.8 + 3.0) = 336。
點雲上的二分法
粉碎看起來像什麼
在我們的平面上放置 n 個點。選擇一個假設類別(線性分類器 = 直線)。計算我們的類別可以標記那些 n 個點的不同方式的數量(+/− 在直線的每一側)。稱這個計數為 Π_H(n)。
如果 Π_H(n) = 2ⁿ,我們的類別粉碎那個點集 — 它可以產生所有可能的標記。如果 Π_H(n) < 2ⁿ,某些標記無法發生。
一般位置的三個點
ℝ² 中的線性分類器粉碎任何 3 個非共線點。2³ = 8 個標記;所有 8 個都可以通過某條直線達到。選擇任何 3 個點;對於每個 ±/± 標記,畫一條將正數與負數分開的直線。
四個點拒絕粉碎
在正方形的角放置 4 個點。嘗試將對角線對標記為正,反對角線對標記為負(XOR 標記)。沒有直線可以將它們分開。所以 Π_H(4) ≤ 14 < 16 = 2⁴。
VC 維度作為最大粉碎大小
VC(線性 ℝ²) = 3。我們可以粉碎 3 個點;我們無法粉碎 4 個。VC 計算我們假設類別的最大二分法容量。
幾何直覺
更高的 VC = 我們的類別繪製更精細的決策邊界。線性(d 維中的 VC = d+1)繪製超平面。多項式繪製曲線。神經網絡繪製高度摺疊的流形。更多的可摺性 = 更多的二分法 = 更高的 VC = 更高的樣本要求。
計數二分法
考慮 ℝ² 中的線性分類器(直線)。我們有 5 個點放置在一般位置(沒有 3 個共線,沒有冗餘)。
假設流形上的概率質量
描繪 PAC-Bayes
將我們的假設空間描繪為高維流形。此流形上的每個點對應神經網絡的一個權重配置。先驗 P 跨我們的流形分配概率分佈(通常以初始化為中心的高斯分佈)。後驗 Q 集中概率質量在訓練資料驅動我們的權重的地方。
KL 散度作為幾何距離
KL(Q‖P) 測量 Q 從 P 漂移了多遠。幾何閱讀:我們的後驗雲從先驗雲移動了多少,按照每個後驗區域在我們的先驗下有多不可能的加權。
小 KL = Q 與 P 重疊很大。後驗幾乎沒有移動。泛化間隙保持很小。
大 KL = Q 集中在 P 分配很少質量的區域中。後驗移動了很多。泛化間隙增加。
為什麼這種幾何很重要
將 SGD 想象為跨我們的假設流形的搜索軌跡。軌跡在低訓練損失的盆地結束。PAC-Bayes 問:這個盆地有多寬?
寬盆地 = 許多相鄰的權重配置也達到低訓練損失。後驗 Q 可以在寬區域上分佈,仍然風險很低。KL(Q‖P) 保持有界。泛化間隙小。
狹窄盆地 = 只有一組薄的權重達到低損失。後驗必須集中尖銳。KL 增加。泛化間隙加寬。
這直接連接到平面與尖銳極值的話題(Hochreiter & Schmidhuber 1997, Keskar et al 2017)。平面極值更好地泛化,因為它們支持具有較小 KL 的更寬的後驗。
閱讀盆地寬度
兩個訓練的模型達到相同的訓練損失,但生活在不同的盆地中:
- 模型 A: 平面盆地,後驗在具有 KL(Q_A‖P) = 50 nats 的區域上分佈。
- 模型 B: 尖銳盆地,後驗集中於 KL(Q_B‖P) = 500 nats。
兩者都在 n = 10,000 個示例上訓練,經驗風險 0.05, δ = 0.05。
一條在理論預測上升的地方下降的曲線
經典 U 形曲線
在水平軸上繪製模型容量。在垂直軸上繪製測試風險。經典偏差-方差理論預測:
- 低容量:高偏差,高測試風險(欠擬合)
- 中等容量:低偏差 + 低方差,低測試風險(最佳點)
- 高容量:低偏差,高方差,高測試風險(過度擬合)
結果:U 形曲線。選擇我們底部的容量。
Belkin 等人 (2019) 觀察到的
超過插值閾值(模型完全擬合零誤差的訓練資料的容量),測試風險再次下降。曲線讀取:下降 → 在插值處的峰值 → 第二次下降。兩個下降,一條曲線。
第二次下降的幾何閱讀
在插值閾值處,模型具有足夠的容量來擬合訓練資料 — 只有一個(或少數)插值解存在,它們往往是參差不齊的。泛化受損,因為選擇的解受強制。
超過插值閾值,許多插值解存在。SGD 可以自由選擇一個光滑的解(最小範數,低曲率)。幾何圖片:解流形變得更寬更平坦。SGD 的隱式正則化從這個平坦流形中選擇良性解。測試風險下降。
為什麼經典理論錯過這一點
VC 維度計算解集容量,但忽略選擇哪個解。經典界限假設最壞情況的經驗風險最小化器。現實:SGD 可靠地選擇我們最平坦、最光滑的插值解。一旦我們計算求解器選擇的解而不是所有解,第二次下降就有意義了。
幾何要點
容量對盆地幾何的重要性較小。寬平盆地(後插值)的泛化優於狹窄尖銳盆地(在插值處)。現代理論試圖通過盆地寬度而不是參數計數來約束泛化。
定位兩個下降
在雙重下降曲線上,三個區域很重要:(1) 欠參數化區制,(2) 插值峰值,(3) 過度參數化區制。
參數-令牌空間中的冪律表面
3D 表面
在一個水平軸上繪製參數 N。在第二個水平軸上繪製令牌 D。在垂直軸上繪製損失 L。經驗損失在此 (N, D) 平面上刻畫冪律表面:
L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞
當 N 或 D 中的任何一個增長時,表面斜率向下。斜率遵循對數線性冪律(在對數圖中的直線)。漸近線 L∞ 保持正數 — 不可約損失,我們的模型無法縮小。
計算最優脊
固定總計算預算 C ∝ N × D(參數 × 令牌,大約)。沿此約束對我們的表面進行切片。切片跡跡通過 3D 表面切割 2D 曲線。此曲線的底部 = 計算最優點。
Chinchilla (Hoffmann 等人 2022) 分析計算了這個底部:D_opt ≈ 20 × N。沿計算預算的曲線 = 脊。沿脊走:相等的計算,損失減少。走下脊(超過 20 倍令牌的參數,或更少):浪費計算。
GPT-3 對 Chinchilla 的幾何閱讀
GPT-3:175B 參數,300B 令牌。Chinchilla 最優希望 175B × 20 = 3500B 令牌。GPT-3 在我們的參數重方向的計算最優脊遠遠超出。Chinchilla 本身:70B 參數訓練 1400B 令牌。1400 / 70 = 20 — 確切在脊上。Chinchilla 通過坐在幾何最優擊敗 GPT-3,參數計數不到一半。
數據牆作為垂直平面
公共網絡 ~10¹³ 可用令牌。這在我們的參數令牌平面上繪製為 D = 10¹³ 的垂直牆。超過此牆,計算最優訓練需要 N ≤ D / 20 = 5 × 10¹¹ 參數。超過 N = 5 × 10¹¹ 的牆要麼運行欠訓練(脫離脊),要麼需要合成/多模態/RL 資料來推動牆向外。
沿著計算最優脊行走
我們位於 GPT-3 坐標:N = 175B 參數,D = 300B 令牌。計算代理 C = N × D = 5.25 × 10²² 參數令牌。
貝塔後驗緊縮成針
[0, 1] 上的概率密度
Beta(α, β) 是單位區間 [0, 1] 上的概率密度。變數:ε = 真正的誤差率。形狀:α 控制高 ε 側的質量;β 控制低 ε 側的質量。
Beta(1, 1): 均勻 — 無資訊,在 [0, 1] 上平坦密度。
Beta(α, β) 其中 α + β 大: 集中峰值於 α / (α + β)。
貝塔峰寬度縮小為 1/√(α+β)。為我們的先驗添加 100 個觀察會將峰值緊縮 √100 = 10 倍。添加 10000 個觀察會緊縮 √10000 = 100 倍。
審計運行的幾何閱讀
開始:Beta(1, 1) = [0, 1] 上的平坦矩形。關於 ε 的最大不確定性。
在 200 個查詢後有 8 個偽造:Beta(9, 193)。平均 = 9/202 ≈ 0.045。密度現在是在 0.045 附近中心的尖銳駝峰,特徵寬度σ ≈ 0.014。
在 2000 個查詢後有 80 個偽造:Beta(81, 1921)。平均仍然 ≈ 0.045,但寬度σ ≈ 0.0046。駝峰銳利三倍。
在 200,000 個查詢後有 8000 個偽造:Beta(8001, 192,001)。平均 ≈ 0.040,寬度σ ≈ 0.0004。駝峰變成針。
幾何收斂到點質量
當 n → ∞,貝塔後驗坍塌為真正 ε 處的 Dirac 三角脈衝。幾何:矩形 → 寬駝峰 → 狹窄駝峰 → 針 → 點。每個查詢都將我們的分佈緊縮 1/√n。
為什麼這勝過理論性 PAC 界限
理論性 PAC 界限基於假設類別大小給出靜態 ε 估計。貝塔後驗給出與每個觀察緊縮的動態 ε 估計,根據您的現實世界分佈校準。理論界限 = 在最壞情況假設下的保證。經驗審計 = 實際現實的測量。
多少查詢使可信區間減半?
在 200 個查詢後,我們目前位於 Beta(9, 193):平均 ε ≈ 0.045,σ ≈ 0.014。我們想將可信區間寬度減半為σ ≈ 0.007。