Beslissingsgrensen als Hypervlakken
Een binaire classificeerder wijst elke invoer toe aan een van twee klassen. De beslissingsgrens van de classificeerder verdeelt de invoerruimte in twee regio's: één per klasse. De geometrie van die grens bepaalt welke patronen de classificeerder kan leren.
Een hypervlak in ℝ^n: de verzameling van alle punten x die voldoen aan w·x + b = 0, waarbij w een gewichtsvector in ℝ^n is en b een scalaire bias. Een hypervlak heeft n−1 dimensies.
In 2D: een hypervlak is een lijn. In 3D: een plat vlak. In n-D: een platte (n−1)-dimensionale deelruimte.
Een perceptron classificeert door w·x + b te berekenen en klasse 1 terug te geven als positief, klasse 0 als negatief. De beslissingsgrens ervan is een hypervlak.
Lineaire Scheidbaarheid
Een dataset is lineair scheidbaar in ℝ^n als er een hypervlak bestaat dat alle klasse-0-punten aan één zijde en alle klasse-1-punten aan de andere zijde plaatst. Dit is een puur geometrische eigenschap van de dataset.
Lineaire Scheidbaarheid Testen
De AND-poortdataset in 2D: klasse-0-punten bij (0,0), (1,0), (0,1); klasse-1-punt bij (1,1). Deze dataset is lineair scheidbaar.
De XOR-dataset in 2D: klasse-0-punten bij (0,0) en (1,1); klasse-1-punten bij (1,0) en (0,1). Deze twee klassen liggen op tegenovergestelde diagonalen.
Omhoog Tillen naar Hogere Dimensies
XOR is niet lineair scheidbaar in 2D. De oplossing: de gegevens toewijzen aan een hoger-dimensionale ruimte waar het lineair scheidbaar wordt. Dit is het kernidee van de kerneltrick.
Feature map: een functie φ: ℝ^n → ℝ^m (m > n) die elk invoerpunt omzet in een hoger-dimensionale representatie.
Voor XOR, een nuttige feature map: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
Dit voegt een derde dimensie z = x₁ × x₂ toe. De XOR-punten transformeren naar:
- (0,0) → (0, 0, 0), klasse 0
- (1,0) → (1, 0, 0), klasse 1
- (0,1) → (0, 1, 0), klasse 1
- (1,1) → (1, 1, 1), klasse 0
In 3D: de klasse-0-punten bevinden zich bij (0,0,0) en (1,1,1); de klasse-1-punten bevinden zich bij (1,0,0) en (0,1,0). Zoek nu een scheidend vlak.
Scheidend Vlak in 3D
Na de feature map φ(x₁, x₂) = (x₁, x₂, x₁x₂) leeft de XOR-data in 3D. Een hypervlak in 3D heeft vergelijking w₁x₁ + w₂x₂ + w₃z + b = 0.
Covers Stelling: Waarom Hoge Dimensies Helpen
Covers stelling (1965): een complex classificatieprobleem uitgewerkt in een hoger-dimensionale ruimte heeft meer kans om lineair scheidbaar te zijn dan in een lager-dimensionale ruimte, mits de ruimte niet dicht bevolkt is.
Informele verklaring: als u n gegevenspunten naar een ruimte met dimensie d >> n afbeeldt, benadert de waarschijnlijkheid dat een willekeurig labeling lineair scheidbaar is 1.
Formele versie: voor n punten in algemene positie in ℝ^d is het aantal lineair scheidbare dichotomieën (klassetoewijzingen) exact 2 × Σ_{k=0}^{d} C(n−1, k) voor d < n, en is gelijk aan 2^n (alle dichotomieën) voor d ≥ n − 1.
Praktische implicatie: de feature map φ die XOR naar 3D tilt, is een speciaal geval van dit algemene principe. Omhoog tillen naar hogere dimensies verhoogt de kans op scheidbaarheid. De kosten: meer parameters om aan te passen, hoger risico op overfitting.
De Bias-Variance Tradeoff als Geometrie
Laag-dimensionale beslissingsgrens (weinig parameters): hoge bias (kan geen complexe patronen vastleggen), lage variantie (stabiel over steekproeven). Hoog-dimensionale grens (veel parameters): lage bias, hoge variantie (kan overfitting op ruis in trainingsgegevens).
VC-Dimensie: Hoe Expresief Is een Classificeerder?
De Vapnik-Chervonenkis (VC) dimensie van een hypotheseklasse H meet hoe complex de klasse is: het grootste aantal punten dat H kan vernietigen (correct classificeren in alle 2^n mogelijke labelingen).
Perceptron in ℝ^d: VC-dimensie = d + 1. Een d-dimensionaal hypervlak kan d + 1 punten vernietigen (in algemene positie) maar niet d + 2.
De VC-dimensie bepaalt de steekproefcomplexiteit: om een hypothese te leren met generalisatiefout ε met waarschijnlijkheid 1 − δ, hebt u ruwweg n ≥ (d × log(1/ε) + log(1/δ)) / ε steekproeven nodig, waarbij d de VC-dimensie is.
Beslissingsgrensen & Grenzen van Machine-Mogelijkheden
De geometrie van beslissingsgrensen verbindt rechtstreeks met Hammings grenzen van machine-redenering.
Een perceptron met één laag (hyperplane-classificeerder) kan XOR niet oplossen. Dit was Minsky & Papert's kritiek op vroege perceptrons in 1969. Het geometrische argument: XOR is niet lineair scheidbaar. De machine kan het niet oplossen, niet vanwege gebrek aan rekenkracht, maar vanwege een fundamentele geometrische incompatibiliteit tussen de hypotheseklasse en het probleem.
De resolutie: netwerken met meerdere lagen kunnen niet-lineaire grenzen vertegenwoordigen. De verborgen lagen implementeren de feature map φ — omhoog tillen van de gegevens naar hogere dimensies waar lineaire scheiding mogelijk wordt. Elke verborgen neuron berekent één hypervlak; de combinatie van meerdere hypervlakken benadert krommen.
Deze geschiedenis brengt in kaart op Hammings observatie: elke beperking van machine-redenering heeft een geometrische structuur eronder. De taak is niet om te argumenteren of machines 'kunnen denken' maar om de geometrische beperkingen te identificeren en manieren te vinden om eromheen te werken.