English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

gość
1 / ?
powrót do lekcji

Granice Decyzji jako Hiperpłaszczyzny

Klasyfikator binarny przypisuje każde wejście do jednej z dwóch klas. Granica decyzji klasyfikatora dzieli przestrzeń wejściową na dwa regiony: jeden dla każdej klasy. Geometria tej granicy determinuje, jakie wzorce może nauczyć się klasyfikator.

Hiperpłaszczyzna w ℝ^n: zbiór wszystkich punktów x spełniających w·x + b = 0, gdzie w jest wektorem wagi w ℝ^n, a b jest skalarem odchylenia. Hiperpłaszczyzna ma n−1 wymiarów.

W 2D: hiperpłaszczyzna to linia. W 3D: płaska płaszczyzna. W n-D: płaska podprzestrzeń (n−1)-wymiarowa.

Perceptron klasyfikuje, obliczając w·x + b i zwracając klasę 1, jeśli jest dodatnia, klasę 0, jeśli jest ujemna. Jego granica decyzji to hiperpłaszczyzna.

Separowalność Liniowa

Zbiór danych jest liniowo separowalny w ℝ^n, jeśli istnieje hiperpłaszczyzna, która umieszcza wszystkie punkty klasy 0 po jednej stronie i wszystkie punkty klasy 1 po drugiej. To jest czysto geometryczna własność zbioru danych.

Decision Boundary Geometry: Linear Separability & XOR

Testowanie Separowalności Liniowej

Zbiór danych bramki AND w 2D: punkty klasy 0 w (0,0), (1,0), (0,1); punkt klasy 1 w (1,1). Ten zbiór danych jest liniowo separowalny.

Zbiór danych XOR w 2D: punkty klasy 0 w (0,0) i (1,1); punkty klasy 1 w (1,0) i (0,1). Te dwie klasy leżą na przeciwlegających przekątnych.

Zweryfikuj, że zbiór danych XOR NIE jest liniowo separowalny w 2D. Użyj argumentu geometrycznego: wyjaśnij, dlaczego żadna linia na płaszczyźnie 2D nie może oddzielić dwie klasy. Twój argument powinien odnosić się do pozycji czterech punktów i właściwości linii prostej, która uniemożliwia separację.

Podnoszenie do Wyższych Wymiarów

XOR nie jest liniowo separowalny w 2D. Rozwiązanie: mapuj dane do wyższo-wymiarowej przestrzeni, gdzie staje się liniowo separowalny. To jest główną ideą sztuczki jądrowej.

Mapa cech: funkcja φ: ℝ^n → ℝ^m (m > n), która transformuje każdy punkt wejściowy do wyższo-wymiarowej reprezentacji.

Dla XOR, jedna przydatna mapa cech: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

To dodaje trzeci wymiar z = x₁ × x₂. Punkty XOR transformują się do:

- (0,0) → (0, 0, 0), klasa 0

- (1,0) → (1, 0, 0), klasa 1

- (0,1) → (0, 1, 0), klasa 1

- (1,1) → (1, 1, 1), klasa 0

W 3D: punkty klasy 0 są w (0,0,0) i (1,1,1); punkty klasy 1 są w (1,0,0) i (0,1,0). Teraz znajdź dzielącą płaszczyznę.

Dzieląca Płaszczyzna w 3D

Po mapie cech φ(x₁, x₂) = (x₁, x₂, x₁x₂), dane XOR żyją w 3D. Hiperpłaszczyzna w 3D ma równanie w₁x₁ + w₂x₂ + w₃z + b = 0.

Znajdź hiperpłaszczyznę w·x + b = 0 w transformowanej przestrzeni 3D, która prawidłowo oddziela klasy XOR. Zweryfikuj twoją hiperpłaszczyznę, podstawiając wszystkie cztery transformowane punkty. Każdy punkt klasy 0 powinien dać w·x + b < 0 (lub > 0) i każdy punkt klasy 1 powinien dać przeciwny znak.

Twierdzenie Covera: Dlaczego Wysokie Wymiary Pomagają

Twierdzenie Covera (1965): złożony problem klasyfikacji rzutowany w wysoce wymiarową przestrzeń jest bardziej prawdopodobny do bycia liniowo separowalnym niż w niskiego-wymiarowej przestrzeni, pod warunkiem, że przestrzeń nie jest gęsto zaludniona.

Nieformalne stwierdzenie: jeśli zmapujesz n punktów danych na przestrzeń wymiaru d >> n, prawdopodobieństwo, że losowe etykietowanie jest liniowo separowalne, zbliża się do 1.

Formalna wersja: dla n punktów w ogólnej pozycji w ℝ^d, liczba liniowo separowalnych dychotomii (przypisań klas) wynosi dokładnie 2 × Σ_{k=0}^{d} C(n−1, k) dla d < n, i równa się 2^n (wszystkie dychotomie) dla d ≥ n − 1.

Praktyczna implikacja: mapa cech φ, która podnosi XOR do 3D, jest szczególnym przypadkiem tej ogólnej zasady. Podnoszenie do wyższych wymiarów zwiększa szansę separowalności. Koszt: więcej parametrów do dopasowania, wyższe ryzyko overfittingu.

Kompromis Bias-Variance jako Geometria

Nisko-wymiarowa granica decyzji (mało parametrów): wysoki bias (nie może uchwycić złożonych wzorców), niska wariancja (stabilna między próbkami). Wysoko-wymiarowa granica (wiele parametrów): niski bias, wysoka wariancja (może overfitvać szum w danych treningowych).

Wymiar VC: Jak Ekspresyjny Jest Klasyfikator?

Wymiar Vapnika-Chervonenkisa (VC) klasy hipotez H mierzy, jak złożona jest klasa: największą liczbę punktów, które H może zniszczyć (prawidłowo klasyfikować we wszystkich 2^n możliwych etykietowaniach).

Perceptron w ℝ^d: wymiar VC = d + 1. Hiperpłaszczyzna d-wymiarowa może zniszczyć d + 1 punktów (w pozycji ogólnej), ale nie d + 2.

Wymiar VC określa złożoność próbki: aby nauczyć się hipotezę z błędem generalizacji ε z prawdopodobieństwem 1 − δ, potrzebujesz w przybliżeniu n ≥ (d × log(1/ε) + log(1/δ)) / ε próbek, gdzie d jest wymiarem VC.

Perceptron w ℝ^3 ma wymiar VC 4. Zgodnie z granicą złożoności próbki VC, w przybliżeniu ile próbek treningowych jest potrzebnych, aby osiągnąć błąd generalizacji ε = 0,05 z pewnością 1 − δ = 0,95? Użyj uproszczonej granicy n ≥ (d × log(1/ε) + log(1/δ)) / ε z podanymi wartościami. Pokaż wszystkie obliczenia.

Granice Decyzji & Limity Zdolności Maszyn

Geometria granic decyzji bezpośrednio łączy się z limitami rozumowania maszynowego Hamminga.

Perceptron jednowarstwowy (klasyfikator hiperpłaszczyznowy) nie może rozwiązać XOR. To była krytyka Minskiego & Papertta wczesnych perceptronów w 1969 roku. Argument geometryczny: XOR nie jest liniowo separowalny. Maszyna nie może go rozwiązać, nie z powodu braku mocy obliczeniowej, ale z powodu fundamentalnej geometrycznej niekompatybilności między klasą hipotez a problemem.

Rozwiązanie: wielowarstwowe sieci mogą reprezentować granice nieliniowe. Warstwy ukryte implementują mapę cech φ — podnoszą dane do wyższych wymiarów, gdzie separacja liniowa staje się możliwa. Każdy neuron ukryty oblicza jedną hiperpłaszczyznę; kombinacja wielu hiperpłaszczyzn przybliża krzywe.

Ta historia mapuje się na obserwację Hamminga: każde ograniczenie rozumowania maszynowego ma strukturę geometryczną pod spodem. Zadaniem nie jest debata o tym, czy maszyny 'mogą myśleć', ale identyfikacja ograniczeń geometrycznych i znalezienie sposobów, aby je obejść.

Krytyka Minskiego & Papertta z 1969 roku na temat perceptronu użyła argumentu nieoddzielności XOR. Ich książka 'Perceptrons' prawie zabiła badania nad sieciami neuronowymi na dziesięć lat. Ale wielowarstwowe sieci rozwiązują problem XOR. Co ta historia sugeruje o prawidłowym sposobie interpretacji wykazanego ograniczenia systemu rozumowania maszynowego? Konkretnie: czy wykazane ograniczenie geometryczne powinno być zrozumiane jako permanentne, czy jako warunkowe względem obecnej klasy hipotez? Udziel uzasadnionej odpowiedzi.