Granice Decyzji jako Hiperpłaszczyzny
Klasyfikator binarny przypisuje każde wejście do jednej z dwóch klas. Granica decyzji klasyfikatora dzieli przestrzeń wejściową na dwa regiony: jeden dla każdej klasy. Geometria tej granicy determinuje, jakie wzorce może nauczyć się klasyfikator.
Hiperpłaszczyzna w ℝ^n: zbiór wszystkich punktów x spełniających w·x + b = 0, gdzie w jest wektorem wagi w ℝ^n, a b jest skalarem odchylenia. Hiperpłaszczyzna ma n−1 wymiarów.
W 2D: hiperpłaszczyzna to linia. W 3D: płaska płaszczyzna. W n-D: płaska podprzestrzeń (n−1)-wymiarowa.
Perceptron klasyfikuje, obliczając w·x + b i zwracając klasę 1, jeśli jest dodatnia, klasę 0, jeśli jest ujemna. Jego granica decyzji to hiperpłaszczyzna.
Separowalność Liniowa
Zbiór danych jest liniowo separowalny w ℝ^n, jeśli istnieje hiperpłaszczyzna, która umieszcza wszystkie punkty klasy 0 po jednej stronie i wszystkie punkty klasy 1 po drugiej. To jest czysto geometryczna własność zbioru danych.
Testowanie Separowalności Liniowej
Zbiór danych bramki AND w 2D: punkty klasy 0 w (0,0), (1,0), (0,1); punkt klasy 1 w (1,1). Ten zbiór danych jest liniowo separowalny.
Zbiór danych XOR w 2D: punkty klasy 0 w (0,0) i (1,1); punkty klasy 1 w (1,0) i (0,1). Te dwie klasy leżą na przeciwlegających przekątnych.
Podnoszenie do Wyższych Wymiarów
XOR nie jest liniowo separowalny w 2D. Rozwiązanie: mapuj dane do wyższo-wymiarowej przestrzeni, gdzie staje się liniowo separowalny. To jest główną ideą sztuczki jądrowej.
Mapa cech: funkcja φ: ℝ^n → ℝ^m (m > n), która transformuje każdy punkt wejściowy do wyższo-wymiarowej reprezentacji.
Dla XOR, jedna przydatna mapa cech: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
To dodaje trzeci wymiar z = x₁ × x₂. Punkty XOR transformują się do:
- (0,0) → (0, 0, 0), klasa 0
- (1,0) → (1, 0, 0), klasa 1
- (0,1) → (0, 1, 0), klasa 1
- (1,1) → (1, 1, 1), klasa 0
W 3D: punkty klasy 0 są w (0,0,0) i (1,1,1); punkty klasy 1 są w (1,0,0) i (0,1,0). Teraz znajdź dzielącą płaszczyznę.
Dzieląca Płaszczyzna w 3D
Po mapie cech φ(x₁, x₂) = (x₁, x₂, x₁x₂), dane XOR żyją w 3D. Hiperpłaszczyzna w 3D ma równanie w₁x₁ + w₂x₂ + w₃z + b = 0.
Twierdzenie Covera: Dlaczego Wysokie Wymiary Pomagają
Twierdzenie Covera (1965): złożony problem klasyfikacji rzutowany w wysoce wymiarową przestrzeń jest bardziej prawdopodobny do bycia liniowo separowalnym niż w niskiego-wymiarowej przestrzeni, pod warunkiem, że przestrzeń nie jest gęsto zaludniona.
Nieformalne stwierdzenie: jeśli zmapujesz n punktów danych na przestrzeń wymiaru d >> n, prawdopodobieństwo, że losowe etykietowanie jest liniowo separowalne, zbliża się do 1.
Formalna wersja: dla n punktów w ogólnej pozycji w ℝ^d, liczba liniowo separowalnych dychotomii (przypisań klas) wynosi dokładnie 2 × Σ_{k=0}^{d} C(n−1, k) dla d < n, i równa się 2^n (wszystkie dychotomie) dla d ≥ n − 1.
Praktyczna implikacja: mapa cech φ, która podnosi XOR do 3D, jest szczególnym przypadkiem tej ogólnej zasady. Podnoszenie do wyższych wymiarów zwiększa szansę separowalności. Koszt: więcej parametrów do dopasowania, wyższe ryzyko overfittingu.
Kompromis Bias-Variance jako Geometria
Nisko-wymiarowa granica decyzji (mało parametrów): wysoki bias (nie może uchwycić złożonych wzorców), niska wariancja (stabilna między próbkami). Wysoko-wymiarowa granica (wiele parametrów): niski bias, wysoka wariancja (może overfitvać szum w danych treningowych).
Wymiar VC: Jak Ekspresyjny Jest Klasyfikator?
Wymiar Vapnika-Chervonenkisa (VC) klasy hipotez H mierzy, jak złożona jest klasa: największą liczbę punktów, które H może zniszczyć (prawidłowo klasyfikować we wszystkich 2^n możliwych etykietowaniach).
Perceptron w ℝ^d: wymiar VC = d + 1. Hiperpłaszczyzna d-wymiarowa może zniszczyć d + 1 punktów (w pozycji ogólnej), ale nie d + 2.
Wymiar VC określa złożoność próbki: aby nauczyć się hipotezę z błędem generalizacji ε z prawdopodobieństwem 1 − δ, potrzebujesz w przybliżeniu n ≥ (d × log(1/ε) + log(1/δ)) / ε próbek, gdzie d jest wymiarem VC.
Granice Decyzji & Limity Zdolności Maszyn
Geometria granic decyzji bezpośrednio łączy się z limitami rozumowania maszynowego Hamminga.
Perceptron jednowarstwowy (klasyfikator hiperpłaszczyznowy) nie może rozwiązać XOR. To była krytyka Minskiego & Papertta wczesnych perceptronów w 1969 roku. Argument geometryczny: XOR nie jest liniowo separowalny. Maszyna nie może go rozwiązać, nie z powodu braku mocy obliczeniowej, ale z powodu fundamentalnej geometrycznej niekompatybilności między klasą hipotez a problemem.
Rozwiązanie: wielowarstwowe sieci mogą reprezentować granice nieliniowe. Warstwy ukryte implementują mapę cech φ — podnoszą dane do wyższych wymiarów, gdzie separacja liniowa staje się możliwa. Każdy neuron ukryty oblicza jedną hiperpłaszczyznę; kombinacja wielu hiperpłaszczyzn przybliża krzywe.
Ta historia mapuje się na obserwację Hamminga: każde ograniczenie rozumowania maszynowego ma strukturę geometryczną pod spodem. Zadaniem nie jest debata o tym, czy maszyny 'mogą myśleć', ale identyfikacja ograniczeń geometrycznych i znalezienie sposobów, aby je obejść.