un — 机器推理的几何学：第三部分

un

访客

1 / ?

返回课程列表

作为超平面的决策边界

一个二分类器将每个输入分配给两个类中的一个。分类器的决策边界将输入空间分成两个区域：每个类一个。该边界的几何性质决定了分类器可以学习什么样的模式。

ℝ^n中的超平面：满足w·x + b = 0的所有点x的集合，其中w是ℝ^n中的权重向量，b是标量偏置。超平面的维度为n−1。

在2D中：超平面是一条线。在3D中：一个平面。在n维中：一个平面(n−1)维子空间。

感知机通过计算w·x + b进行分类，如果结果为正则返回类1，如果为负则返回类0。它的决策边界是一个超平面。

线性可分性

如果存在一个超平面将所有第0类的点放在一侧，所有第1类的点放在另一侧，则数据集在ℝ^n中线性可分。这是数据集的纯几何性质。

决策边界几何：线性可分性与XOR

测试线性可分性

2D中的AND门数据集：第0类的点在(0,0)、(1,0)、(0,1)；第1类的点在(1,1)。该数据集是线性可分的。

2D中的XOR数据集：第0类的点在(0,0)和(1,1)；第1类的点在(1,0)和(0,1)。这两个类位于相对的对角线上。

验证XOR数据集在2D中不是线性可分的。使用几何论证：解释为什么2D平面中的直线无法分离这两个类。你的论证应该引用四个点的位置以及直线的性质，这使得分离成为不可能。

提升到更高维度

XOR在2D中不是线性可分的。解决方案：将数据映射到更高维的空间，在那里它变成线性可分。这是核技巧的核心思想。

特征映射：一个函数φ: ℝ^n → ℝ^m (m > n)，将每个输入点转换为更高维的表示。

对于XOR，一个有用的特征映射：φ(x₁, x₂) = (x₁, x₂, x₁x₂)

这增加了第三个维度z = x₁ × x₂。XOR点变换为：

- (0,0) → (0, 0, 0), 第0类

- (1,0) → (1, 0, 0), 第1类

- (0,1) → (0, 1, 0), 第1类

- (1,1) → (1, 1, 1), 第0类

在3D中：第0类的点在(0,0,0)和(1,1,1)；第1类的点在(1,0,0)和(0,1,0)。现在找一个分离平面。

3D中的分离平面

在特征映射φ(x₁, x₂) = (x₁, x₂, x₁x₂)后，XOR数据位于3D中。3D中的超平面有方程w₁x₁ + w₂x₂ + w₃z + b = 0。

在变换后的3D空间中找到一个超平面w·x + b = 0，正确地分离XOR类。通过将所有四个变换后的点代入来验证你的超平面。每个第0类的点应该给出w·x + b < 0（或> 0），每个第1类的点应该给出相反的符号。

Cover定理：为什么高维有帮助

Cover定理(1965)：一个复杂的分类问题在高维空间中表现时，比在低维空间中更可能是线性可分的，前提是空间不是密集填充的。

非正式陈述：如果你将n个数据点映射到维度d >> n的空间，随机标记是线性可分的概率趋近于1。

正式版本：对于ℝ^d中处于一般位置的n个点，线性可分二分法(类分配)的数量对于d < n恰好是2 × Σ_{k=0}^{d} C(n−1, k)，对于d ≥ n − 1则等于2^n(所有二分法)。

实际含义：将XOR提升到3D的特征映射是这个一般原则的一个特例。提升到更高维度增加可分离性的概率。代价：更多参数要拟合，过度拟合的风险更高。

作为几何的偏差-方差权衡

低维决策边界(参数少)：高偏差(无法捕捉复杂模式)，低方差(跨样本稳定)。高维边界(参数多)：低偏差，高方差(可能过度拟合训练数据中的噪声)。

VC维度：分类器的表达能力有多强？

Vapnik-Chervonenkis (VC)维度衡量假设类H的复杂性：能破碎的最大点数(正确分类所有2^n个可能的标记)。

ℝ^d中的感知机：VC维度 = d + 1。d维超平面可以破碎d + 1个点(处于一般位置)但不能破碎d + 2个。

VC维度确定样本复杂性：要学习一个假设，使得泛化误差为ε，概率为1 − δ，你大约需要n ≥ (d × log(1/ε) + log(1/δ)) / ε个样本，其中d是VC维度。

ℝ^3中的感知机有VC维度4。根据VC样本复杂性界，大约需要多少个训练样本来实现泛化误差ε = 0.05，置信度1 − δ = 0.95？使用简化界n ≥ (d × log(1/ε) + log(1/δ)) / ε，使用给定的值。显示所有计算。

决策边界与机器能力局限

决策边界的几何与Hamming的机器推理局限直接相连。

单层感知机(超平面分类器)无法解决XOR。这是Minsky & Papert在1969年对早期感知机的批评。几何论证：XOR不是线性可分的。机器无法解决它，不是因为缺乏计算能力，而是因为假设类和问题之间的根本几何不兼容。

解决方案：多层网络可以表示非线性边界。隐藏层实现特征映射φ ——将数据提升到更高维度，其中线性分离变得可能。每个隐藏神经元计算一个超平面；多个超平面的组合近似曲线。

这段历史映射到Hamming的观察：机器推理的每个局限都有一个几何结构在它的下面。问题不是争论机器是否'能思考'，而是识别几何约束并找到绕过它们的方法。

Minsky & Papert的1969年对感知机的批评使用了XOR非可分性论证。他们的书《感知机》几乎终止了神经网络研究长达十年。但多层网络解决了XOR问题。这段历史对于如何解释一个机器推理系统的已证明局限提出了什么建议？具体来说：一个已证明的几何局限应该被理解为永久的还是取决于当前的假设类？给出一个有原则的答案。