English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

超平面形式的決策邊界

二元分類器將每個輸入分配到兩個類別之一。分類器的決策邊界將輸入空間分為兩個區域:每個類別一個。邊界的幾何形狀決定了分類器可以學習什麼樣的模式。

ℝ^n 中的超平面:滿足 w·x + b = 0 的所有點 x 的集合,其中 w 是 ℝ^n 中的權重向量,b 是標量偏差。超平面有 n−1 維。

在 2D 中:超平面是一條線。在 3D 中:一個平面。在 n-D 中:一個平面 (n−1) 維子空間。

感知器通過計算 w·x + b 進行分類,如果為正則返回類別 1,如果為負則返回類別 0。其決策邊界是超平面。

線性可分性

如果存在一個超平面將所有類別 0 的點放在一側,所有類別 1 的點放在另一側,則數據集在 ℝ^n 中是線性可分的。這是數據集的純幾何屬性。

決策邊界幾何:線性可分性 & XOR

測試線性可分性

2D 中的 AND 門數據集:類別 0 的點在 (0,0)、(1,0)、(0,1);類別 1 的點在 (1,1)。該數據集是線性可分的。

2D 中的 XOR 數據集:類別 0 的點在 (0,0) 和 (1,1);類別 1 的點在 (1,0) 和 (0,1)。這兩個類別位於相對的對角線上。

驗證 XOR 數據集在 2D 中不是線性可分的。使用幾何論證:解釋為什麼 2D 平面中的任何直線都無法分離這兩個類別。你的論證應參考四個點的位置和使分離不可能的直線的性質。

提升到更高維度

XOR 在 2D 中不是線性可分的。解決方案:將數據映射到更高維空間,其中它變成線性可分的。這是核技巧的核心思想。

特徵映射:函數 φ: ℝ^n → ℝ^m(m > n),將每個輸入點變換到更高維度的表示。

對於 XOR,一個有用的特徵映射:φ(x₁, x₂) = (x₁, x₂, x₁x₂)

這添加了第三維 z = x₁ × x₂。XOR 點變換為:

- (0,0) → (0, 0, 0),類別 0

- (1,0) → (1, 0, 0),類別 1

- (0,1) → (0, 1, 0),類別 1

- (1,1) → (1, 1, 1),類別 0

在 3D 中:類別 0 的點在 (0,0,0) 和 (1,1,1);類別 1 的點在 (1,0,0) 和 (0,1,0)。現在找一個分離平面。

3D 中的分離平面

在特徵映射 φ(x₁, x₂) = (x₁, x₂, x₁x₂) 之後,XOR 數據存在於 3D 中。3D 中的超平面方程為 w₁x₁ + w₂x₂ + w₃z + b = 0。

在變換的 3D 空間中找到一個超平面 w·x + b = 0,正確地分離 XOR 類別。通過代入所有四個變換的點來驗證你的超平面。每個類別 0 的點應該給出 w·x + b < 0(或 > 0),每個類別 1 的點應該給出相反的符號。

Cover 定理:為什麼高維度有幫助

Cover 定理(1965):複雜分類問題在高維空間中被投射時比在低維空間中更可能是線性可分的,前提是空間沒有密集填充。

非正式表述:如果你將 n 個數據點映射到維度 d >> n 的空間,隨機標籤是線性可分的概率趨向於 1。

正式版本:對於 ℝ^d 中的 n 個一般位置的點,線性可分二分法(類別分配)的數量恰好是 2 × Σ_{k=0}^{d} C(n−1, k)(當 d < n 時),對於 d ≥ n − 1 等於 2^n(所有二分法)。

實踐含義:將 XOR 提升到 3D 的特徵映射是這個一般原則的特例。提升到更高維度增加了可分性的機會。代價:更多參數要擬合,過擬合風險更高。

偏差-方差權衡作為幾何

低維決策邊界(參數少):高偏差(無法捕捉複雜模式),低方差(跨樣本穩定)。高維邊界(參數多):低偏差,高方差(可能過度擬合訓練數據中的噪聲)。

VC 維度:分類器的表達能力有多強?

Vapnik-Chervonenkis (VC) 維度衡量假設類的複雜性:最大的點數,使得該假設類可以粉碎它(在所有 2^n 個可能的標籤中正確分類)。

ℝ^d 中的感知器:VC 維度 = d + 1。一個 d 維超平面可以粉碎 d + 1 個點(處於一般位置),但不能粉碎 d + 2 個。

VC 維度決定了樣本複雜度:要學習一個假設,使得泛化誤差 ε 的概率為 1 − δ,你大約需要 n ≥ (d × log(1/ε) + log(1/δ)) / ε 個樣本,其中 d 是 VC 維度。

ℝ^3 中的感知器具有 VC 維度 4。根據 VC 樣本複雜度界限,大約需要多少個訓練樣本才能以置信度 1 − δ = 0.95 達到泛化誤差 ε = 0.05?使用簡化的界限 n ≥ (d × log(1/ε) + log(1/δ)) / ε 和給定的值。顯示所有計算。

決策邊界 & 機器能力限制

決策邊界的幾何直接連接到 Hamming 的機器推理限制。

單層感知器(超平面分類器)無法解決 XOR。這是 Minsky & Papert 在 1969 年對早期感知器的批評。幾何論證:XOR 不是線性可分的。機器無法解決它,不是因為缺乏計算能力,而是因為假設類和問題之間的根本幾何不相容。

解決方案:多層網絡可以表示非線性邊界。隱藏層實現特徵映射 φ — 將數據提升到線性分離成為可能的更高維度。每個隱藏神經元計算一個超平面;多個超平面的組合近似曲線。

這個歷史映射到 Hamming 的觀察:機器推理的每個限制都有一個幾何結構在其下面。任務不是爭論機器是否「可以思考」,而是確定幾何約束並找到解決方式。

Minsky & Papert 的 1969 年關於感知器的批評使用了 XOR 非可分性論證。他們的著作《感知器》幾乎殺死了神經網絡研究十年。但多層網絡解決了 XOR 問題。這段歷史表明了什麼關於解釋機器推理系統的已證明限制的正確方式?具體來說:一個已證明的幾何限制應該被理解為永久的還是取決於當前假設類的?給出一個有原則的答案。