作为超平面的决策边界
一个二分类器将每个输入分配给两个类中的一个。分类器的决策边界将输入空间分成两个区域:每个类一个。该边界的几何性质决定了分类器可以学习什么样的模式。
ℝ^n中的超平面:满足w·x + b = 0的所有点x的集合,其中w是ℝ^n中的权重向量,b是标量偏置。超平面的维度为n−1。
在2D中:超平面是一条线。在3D中:一个平面。在n维中:一个平面(n−1)维子空间。
感知机通过计算w·x + b进行分类,如果结果为正则返回类1,如果为负则返回类0。它的决策边界是一个超平面。
线性可分性
如果存在一个超平面将所有第0类的点放在一侧,所有第1类的点放在另一侧,则数据集在ℝ^n中线性可分。这是数据集的纯几何性质。
测试线性可分性
2D中的AND门数据集:第0类的点在(0,0)、(1,0)、(0,1);第1类的点在(1,1)。该数据集是线性可分的。
2D中的XOR数据集:第0类的点在(0,0)和(1,1);第1类的点在(1,0)和(0,1)。这两个类位于相对的对角线上。
提升到更高维度
XOR在2D中不是线性可分的。解决方案:将数据映射到更高维的空间,在那里它变成线性可分。这是核技巧的核心思想。
特征映射:一个函数φ: ℝ^n → ℝ^m (m > n),将每个输入点转换为更高维的表示。
对于XOR,一个有用的特征映射:φ(x₁, x₂) = (x₁, x₂, x₁x₂)
这增加了第三个维度z = x₁ × x₂。XOR点变换为:
- (0,0) → (0, 0, 0), 第0类
- (1,0) → (1, 0, 0), 第1类
- (0,1) → (0, 1, 0), 第1类
- (1,1) → (1, 1, 1), 第0类
在3D中:第0类的点在(0,0,0)和(1,1,1);第1类的点在(1,0,0)和(0,1,0)。现在找一个分离平面。
3D中的分离平面
在特征映射φ(x₁, x₂) = (x₁, x₂, x₁x₂)后,XOR数据位于3D中。3D中的超平面有方程w₁x₁ + w₂x₂ + w₃z + b = 0。
Cover定理:为什么高维有帮助
Cover定理(1965):一个复杂的分类问题在高维空间中表现时,比在低维空间中更可能是线性可分的,前提是空间不是密集填充的。
非正式陈述:如果你将n个数据点映射到维度d >> n的空间,随机标记是线性可分的概率趋近于1。
正式版本:对于ℝ^d中处于一般位置的n个点,线性可分二分法(类分配)的数量对于d < n恰好是2 × Σ_{k=0}^{d} C(n−1, k),对于d ≥ n − 1则等于2^n(所有二分法)。
实际含义:将XOR提升到3D的特征映射是这个一般原则的一个特例。提升到更高维度增加可分离性的概率。代价:更多参数要拟合,过度拟合的风险更高。
作为几何的偏差-方差权衡
低维决策边界(参数少):高偏差(无法捕捉复杂模式),低方差(跨样本稳定)。高维边界(参数多):低偏差,高方差(可能过度拟合训练数据中的噪声)。
VC维度:分类器的表达能力有多强?
Vapnik-Chervonenkis (VC)维度衡量假设类H的复杂性:能破碎的最大点数(正确分类所有2^n个可能的标记)。
ℝ^d中的感知机:VC维度 = d + 1。d维超平面可以破碎d + 1个点(处于一般位置)但不能破碎d + 2个。
VC维度确定样本复杂性:要学习一个假设,使得泛化误差为ε,概率为1 − δ,你大约需要n ≥ (d × log(1/ε) + log(1/δ)) / ε个样本,其中d是VC维度。
决策边界与机器能力局限
决策边界的几何与Hamming的机器推理局限直接相连。
单层感知机(超平面分类器)无法解决XOR。这是Minsky & Papert在1969年对早期感知机的批评。几何论证:XOR不是线性可分的。机器无法解决它,不是因为缺乏计算能力,而是因为假设类和问题之间的根本几何不兼容。
解决方案:多层网络可以表示非线性边界。隐藏层实现特征映射φ ——将数据提升到更高维度,其中线性分离变得可能。每个隐藏神经元计算一个超平面;多个超平面的组合近似曲线。
这段历史映射到Hamming的观察:机器推理的每个局限都有一个几何结构在它的下面。问题不是争论机器是否'能思考',而是识别几何约束并找到绕过它们的方法。