un — 機械推論の幾何学：III

un

ゲスト

1 / ?

レッスン一覧に戻る

ハイパープレーンとしての決定境界

二値分類器は各入力を2つのクラスのいずれかに割り当てます。分類器の決定境界は入力空間を2つの領域に分割します：クラスごとに1つです。その境界の幾何学は、分類器が学習できるパターンを決定します。

ℝ^nのハイパープレーン：w·x + b = 0を満たすすべての点xの集合。ここでwはℝ^nの重みベクトル、bはスカラーバイアスです。ハイパープレーンはn−1次元を持ちます。

2Dでは：ハイパープレーンは線です。3Dでは：平面です。n次元では：平坦な(n−1)次元部分空間です。

パーセプトロンは、w·x + bを計算し、正の場合はクラス1を、負の場合はクラス0を返すことで分類します。その決定境界はハイパープレーンです。

線形分離可能性

データセットがℝ^nで線形分離可能である場合、すべてのクラス0点を一方の側に、すべてのクラス1点をもう一方の側に置くハイパープレーンが存在します。これはデータセットの純粋に幾何学的な性質です。

決定境界の幾何学：線形分離可能性とXOR

線形分離可能性のテスト

2DのANDゲートデータセット：クラス0点は(0,0)、(1,0)、(0,1)；クラス1点は(1,1)。このデータセットは線形分離可能です。

2DのXORデータセット：クラス0点は(0,0)と(1,1)；クラス1点は(1,0)と(0,1)。これら2つのクラスは対角線の反対側にあります。

XORデータセットが2Dで線形分離可能でないことを確認してください。幾何学的議論を使用してください：2D平面のどの線も2つのクラスを分離できない理由を説明してください。あなたの議論は4つの点の位置と、分離を不可能にする直線の性質を参照する必要があります。

より高い次元への持ち上げ

XORは2Dで線形分離可能ではありません。解決策：データをより高次元の空間にマップして、線形分離可能にします。これはカーネルトリックの中核的な考え方です。

特徴マップ：各入力点をより高次元の表現に変換する関数φ：ℝ^n → ℝ^m（m > n）。

XORの場合、有用な特徴マップの1つ：φ(x₁, x₂) = (x₁, x₂, x₁x₂)

これは3番目の次元z = x₁ × x₂を追加します。XOR点は以下に変換されます：

- (0,0) → (0, 0, 0), クラス0

- (1,0) → (1, 0, 0), クラス1

- (0,1) → (0, 1, 0), クラス1

- (1,1) → (1, 1, 1), クラス0

3Dでは：クラス0点は(0,0,0)と(1,1,1)にあります；クラス1点は(1,0,0)と(0,1,0)にあります。次に分離平面を見つけてください。

3D空間での分離平面

特徴マップφ(x₁, x₂) = (x₁, x₂, x₁x₂)の後、XORデータは3Dに存在します。3Dのハイパープレーンの方程式はw₁x₁ + w₂x₂ + w₃z + b = 0です。

変換された3D空間でXORクラスを正しく分離するハイパープレーンw·x + b = 0を見つけてください。すべての4つの変換点を代入して、ハイパープレーンを検証してください。各クラス0点はw·x + b < 0（または> 0）を与え、各クラス1点は反対の符号を与える必要があります。

カバーの定理：高次元が役に立つ理由

カバーの定理（1965）：空間が密に満たされていない場合、高次元空間にキャストされた複雑な分類問題は、低次元空間の場合よりも線形分離可能である可能性が高いです。

非公式な説明：n個のデータ点をd >> nの次元の空間にマップすると、ランダムなラベリングが線形分離可能である確率は1に近づきます。

正式な版：ℝ^dの一般的な位置にあるn個の点について、線形分離可能な二分法（クラス割り当て）の数は、d < nの場合は正確に2 × Σ_{k=0}^{d} C(n−1, k)で、d ≥ n − 1の場合は2^n（すべての二分法）と等しいです。

実用的な意味：XORを3Dに持ち上げる特徴マップφは、この一般原理の特殊なケースです。より高い次元への持ち上げは、分離可能性の可能性を増加させます。コスト：より多くのパラメータをフィットさせる、過学習の高いリスク。

幾何学としてのバイアス・バリアンストレードオフ

低次元決定境界（パラメータが少ない）：高バイアス（複雑なパターンをキャプチャできない）、低分散（サンプル全体で安定）。高次元境界（パラメータが多い）：低バイアス、高分散（トレーニングデータのノイズに過学習できます）。

VC次元：分類器の表現力はどの程度か？

仮説クラスHのVapnik-Chervonenkis（VC）次元は、クラスがどの程度複雑であるかを測定します：Hが粉々にできる（すべての2^n個の可能なラベリングで正しく分類できる）点の最大数。

ℝ^dのパーセプトロン：VC次元 = d + 1。d次元のハイパープレーンはd + 1個の点を粉々にできます（一般的な位置で）がd + 2個はできません。

VC次元はサンプルの複雑さを決定します：一般化誤差εを確率1 − δで学習するには、d はVC次元である、大凡n ≥ (d × log(1/ε) + log(1/δ)) / ε個のサンプルが必要です。

ℝ^3のパーセプトロンはVC次元4を持っています。VC標本複雑性の境界によると、一般化誤差ε = 0.05を確実性1 − δ = 0.95で達成するために、大凡何個のトレーニングサンプルが必要ですか？与えられた値で簡略化された境界n ≥ (d × log(1/ε) + log(1/δ)) / εを使用してください。すべての計算を表示してください。

決定境界と機械能力の制限

決定境界の幾何学はハミングの機械推論制限に直接つながります。

単一層パーセプトロン（ハイパープレーン分類器）はXORを解くことができません。これは1969年の初期パーセプトロンに対するMinskiとPapertの批判でした。幾何学的議論：XORは線形分離可能ではありません。機械はそれを解くことができません。計算能力の欠如のためではなく、仮説クラスと問題の間の根本的な幾何学的非互換性のためです。

解決策：多層ネットワークは非線形境界を表現できます。隠れた層は特徴マップφを実装します—データをより高い次元に持ち上げて、線形分離が可能になります。各隠れニューロンは1つのハイパープレーンを計算します；複数のハイパープレーンの組み合わせは曲線を近似します。

この歴史はハミングの観察に対応します：機械推論のあらゆる制限は、その下に幾何学的構造があります。タスクは機械が「考える」ことができるかどうかについて議論することではなく、幾何学的制約を特定し、それらを回避する方法を見つけることです。

MinskiとPapertの1969年のパーセプトロン批判はXOR非分離可能性の議論を使用しました。彼らの本「パーセプトロン」はニューラルネットワーク研究をほぼ10年間殺しました。しかし、多層ネットワークはXOR問題を解決します。この歴史は、機械推論システムの実証された制限を解釈する正しい方法について何を示唆していますか？具体的には：実証された幾何学的制限は、恒久的なものとして理解されるべきか、それとも現在の仮説クラスに偶発的なものとして理解されるべきですか？原理的な答えを与えてください。