超平面形式的決策邊界
二元分類器將每個輸入分配到兩個類別之一。分類器的決策邊界將輸入空間分為兩個區域:每個類別一個。邊界的幾何形狀決定了分類器可以學習什麼樣的模式。
ℝ^n 中的超平面:滿足 w·x + b = 0 的所有點 x 的集合,其中 w 是 ℝ^n 中的權重向量,b 是標量偏差。超平面有 n−1 維。
在 2D 中:超平面是一條線。在 3D 中:一個平面。在 n-D 中:一個平面 (n−1) 維子空間。
感知器通過計算 w·x + b 進行分類,如果為正則返回類別 1,如果為負則返回類別 0。其決策邊界是超平面。
線性可分性
如果存在一個超平面將所有類別 0 的點放在一側,所有類別 1 的點放在另一側,則數據集在 ℝ^n 中是線性可分的。這是數據集的純幾何屬性。
測試線性可分性
2D 中的 AND 門數據集:類別 0 的點在 (0,0)、(1,0)、(0,1);類別 1 的點在 (1,1)。該數據集是線性可分的。
2D 中的 XOR 數據集:類別 0 的點在 (0,0) 和 (1,1);類別 1 的點在 (1,0) 和 (0,1)。這兩個類別位於相對的對角線上。
提升到更高維度
XOR 在 2D 中不是線性可分的。解決方案:將數據映射到更高維空間,其中它變成線性可分的。這是核技巧的核心思想。
特徵映射:函數 φ: ℝ^n → ℝ^m(m > n),將每個輸入點變換到更高維度的表示。
對於 XOR,一個有用的特徵映射:φ(x₁, x₂) = (x₁, x₂, x₁x₂)
這添加了第三維 z = x₁ × x₂。XOR 點變換為:
- (0,0) → (0, 0, 0),類別 0
- (1,0) → (1, 0, 0),類別 1
- (0,1) → (0, 1, 0),類別 1
- (1,1) → (1, 1, 1),類別 0
在 3D 中:類別 0 的點在 (0,0,0) 和 (1,1,1);類別 1 的點在 (1,0,0) 和 (0,1,0)。現在找一個分離平面。
3D 中的分離平面
在特徵映射 φ(x₁, x₂) = (x₁, x₂, x₁x₂) 之後,XOR 數據存在於 3D 中。3D 中的超平面方程為 w₁x₁ + w₂x₂ + w₃z + b = 0。
Cover 定理:為什麼高維度有幫助
Cover 定理(1965):複雜分類問題在高維空間中被投射時比在低維空間中更可能是線性可分的,前提是空間沒有密集填充。
非正式表述:如果你將 n 個數據點映射到維度 d >> n 的空間,隨機標籤是線性可分的概率趨向於 1。
正式版本:對於 ℝ^d 中的 n 個一般位置的點,線性可分二分法(類別分配)的數量恰好是 2 × Σ_{k=0}^{d} C(n−1, k)(當 d < n 時),對於 d ≥ n − 1 等於 2^n(所有二分法)。
實踐含義:將 XOR 提升到 3D 的特徵映射是這個一般原則的特例。提升到更高維度增加了可分性的機會。代價:更多參數要擬合,過擬合風險更高。
偏差-方差權衡作為幾何
低維決策邊界(參數少):高偏差(無法捕捉複雜模式),低方差(跨樣本穩定)。高維邊界(參數多):低偏差,高方差(可能過度擬合訓練數據中的噪聲)。
VC 維度:分類器的表達能力有多強?
Vapnik-Chervonenkis (VC) 維度衡量假設類的複雜性:最大的點數,使得該假設類可以粉碎它(在所有 2^n 個可能的標籤中正確分類)。
ℝ^d 中的感知器:VC 維度 = d + 1。一個 d 維超平面可以粉碎 d + 1 個點(處於一般位置),但不能粉碎 d + 2 個。
VC 維度決定了樣本複雜度:要學習一個假設,使得泛化誤差 ε 的概率為 1 − δ,你大約需要 n ≥ (d × log(1/ε) + log(1/δ)) / ε 個樣本,其中 d 是 VC 維度。
決策邊界 & 機器能力限制
決策邊界的幾何直接連接到 Hamming 的機器推理限制。
單層感知器(超平面分類器)無法解決 XOR。這是 Minsky & Papert 在 1969 年對早期感知器的批評。幾何論證:XOR 不是線性可分的。機器無法解決它,不是因為缺乏計算能力,而是因為假設類和問題之間的根本幾何不相容。
解決方案:多層網絡可以表示非線性邊界。隱藏層實現特徵映射 φ — 將數據提升到線性分離成為可能的更高維度。每個隱藏神經元計算一個超平面;多個超平面的組合近似曲線。
這個歷史映射到 Hamming 的觀察:機器推理的每個限制都有一個幾何結構在其下面。任務不是爭論機器是否「可以思考」,而是確定幾何約束並找到解決方式。