un — Geometrie van Machine Reasoning: III

un

gast

1 / ?

terug naar lessen

Beslissingsgrensen als Hypervlakken

Een binaire classificeerder wijst elke invoer toe aan een van twee klassen. De beslissingsgrens van de classificeerder verdeelt de invoerruimte in twee regio's: één per klasse. De geometrie van die grens bepaalt welke patronen de classificeerder kan leren.

Een hypervlak in ℝ^n: de verzameling van alle punten x die voldoen aan w·x + b = 0, waarbij w een gewichtsvector in ℝ^n is en b een scalaire bias. Een hypervlak heeft n−1 dimensies.

In 2D: een hypervlak is een lijn. In 3D: een plat vlak. In n-D: een platte (n−1)-dimensionale deelruimte.

Een perceptron classificeert door w·x + b te berekenen en klasse 1 terug te geven als positief, klasse 0 als negatief. De beslissingsgrens ervan is een hypervlak.

Lineaire Scheidbaarheid

Een dataset is lineair scheidbaar in ℝ^n als er een hypervlak bestaat dat alle klasse-0-punten aan één zijde en alle klasse-1-punten aan de andere zijde plaatst. Dit is een puur geometrische eigenschap van de dataset.

Geometrie van Beslissingsgrens: Lineaire Scheidbaarheid & XOR

Lineaire Scheidbaarheid Testen

De AND-poortdataset in 2D: klasse-0-punten bij (0,0), (1,0), (0,1); klasse-1-punt bij (1,1). Deze dataset is lineair scheidbaar.

De XOR-dataset in 2D: klasse-0-punten bij (0,0) en (1,1); klasse-1-punten bij (1,0) en (0,1). Deze twee klassen liggen op tegenovergestelde diagonalen.

Verifieer dat de XOR-dataset NIET lineair scheidbaar is in 2D. Gebruik een geometrisch argument: leg uit waarom geen enkele lijn in het 2D-vlak de twee klassen kan scheiden. Uw argument moet verwijzen naar de posities van de vier punten en de eigenschap van een rechte lijn die scheiding onmogelijk maakt.

Omhoog Tillen naar Hogere Dimensies

XOR is niet lineair scheidbaar in 2D. De oplossing: de gegevens toewijzen aan een hoger-dimensionale ruimte waar het lineair scheidbaar wordt. Dit is het kernidee van de kerneltrick.

Feature map: een functie φ: ℝ^n → ℝ^m (m > n) die elk invoerpunt omzet in een hoger-dimensionale representatie.

Voor XOR, een nuttige feature map: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Dit voegt een derde dimensie z = x₁ × x₂ toe. De XOR-punten transformeren naar:

- (0,0) → (0, 0, 0), klasse 0

- (1,0) → (1, 0, 0), klasse 1

- (0,1) → (0, 1, 0), klasse 1

- (1,1) → (1, 1, 1), klasse 0

In 3D: de klasse-0-punten bevinden zich bij (0,0,0) en (1,1,1); de klasse-1-punten bevinden zich bij (1,0,0) en (0,1,0). Zoek nu een scheidend vlak.

Scheidend Vlak in 3D

Na de feature map φ(x₁, x₂) = (x₁, x₂, x₁x₂) leeft de XOR-data in 3D. Een hypervlak in 3D heeft vergelijking w₁x₁ + w₂x₂ + w₃z + b = 0.

Zoek een hypervlak w·x + b = 0 in de getransformeerde 3D-ruimte dat de XOR-klassen correct scheidt. Verifieer uw hypervlak door alle vier getransformeerde punten in te vullen. Elk klasse-0-punt zou w·x + b < 0 (of > 0) moeten geven en elk klasse-1-punt zou het tegenovergestelde teken moeten geven.

Covers Stelling: Waarom Hoge Dimensies Helpen

Covers stelling (1965): een complex classificatieprobleem uitgewerkt in een hoger-dimensionale ruimte heeft meer kans om lineair scheidbaar te zijn dan in een lager-dimensionale ruimte, mits de ruimte niet dicht bevolkt is.

Informele verklaring: als u n gegevenspunten naar een ruimte met dimensie d >> n afbeeldt, benadert de waarschijnlijkheid dat een willekeurig labeling lineair scheidbaar is 1.

Formele versie: voor n punten in algemene positie in ℝ^d is het aantal lineair scheidbare dichotomieën (klassetoewijzingen) exact 2 × Σ_{k=0}^{d} C(n−1, k) voor d < n, en is gelijk aan 2^n (alle dichotomieën) voor d ≥ n − 1.

Praktische implicatie: de feature map φ die XOR naar 3D tilt, is een speciaal geval van dit algemene principe. Omhoog tillen naar hogere dimensies verhoogt de kans op scheidbaarheid. De kosten: meer parameters om aan te passen, hoger risico op overfitting.

De Bias-Variance Tradeoff als Geometrie

Laag-dimensionale beslissingsgrens (weinig parameters): hoge bias (kan geen complexe patronen vastleggen), lage variantie (stabiel over steekproeven). Hoog-dimensionale grens (veel parameters): lage bias, hoge variantie (kan overfitting op ruis in trainingsgegevens).

VC-Dimensie: Hoe Expresief Is een Classificeerder?

De Vapnik-Chervonenkis (VC) dimensie van een hypotheseklasse H meet hoe complex de klasse is: het grootste aantal punten dat H kan vernietigen (correct classificeren in alle 2^n mogelijke labelingen).

Perceptron in ℝ^d: VC-dimensie = d + 1. Een d-dimensionaal hypervlak kan d + 1 punten vernietigen (in algemene positie) maar niet d + 2.

De VC-dimensie bepaalt de steekproefcomplexiteit: om een hypothese te leren met generalisatiefout ε met waarschijnlijkheid 1 − δ, hebt u ruwweg n ≥ (d × log(1/ε) + log(1/δ)) / ε steekproeven nodig, waarbij d de VC-dimensie is.

Een perceptron in ℝ^3 heeft VC-dimensie 4. Volgens de VC-steekproefcomplexiteitsgrens, hoeveel trainingssteekproeven zijn ongeveer nodig om een generalisatiefout ε = 0,05 te bereiken met vertrouwen 1 − δ = 0,95? Gebruik de vereenvoudigde grens n ≥ (d × log(1/ε) + log(1/δ)) / ε met de gegeven waarden. Toon alle berekeningen.

Beslissingsgrensen & Grenzen van Machine-Mogelijkheden

De geometrie van beslissingsgrensen verbindt rechtstreeks met Hammings grenzen van machine-redenering.

Een perceptron met één laag (hyperplane-classificeerder) kan XOR niet oplossen. Dit was Minsky & Papert's kritiek op vroege perceptrons in 1969. Het geometrische argument: XOR is niet lineair scheidbaar. De machine kan het niet oplossen, niet vanwege gebrek aan rekenkracht, maar vanwege een fundamentele geometrische incompatibiliteit tussen de hypotheseklasse en het probleem.

De resolutie: netwerken met meerdere lagen kunnen niet-lineaire grenzen vertegenwoordigen. De verborgen lagen implementeren de feature map φ — omhoog tillen van de gegevens naar hogere dimensies waar lineaire scheiding mogelijk wordt. Elke verborgen neuron berekent één hypervlak; de combinatie van meerdere hypervlakken benadert krommen.

Deze geschiedenis brengt in kaart op Hammings observatie: elke beperking van machine-redenering heeft een geometrische structuur eronder. De taak is niet om te argumenteren of machines 'kunnen denken' maar om de geometrische beperkingen te identificeren en manieren te vinden om eromheen te werken.

Minsky & Papert's kritiek van 1969 op de perceptron gebruikte het XOR niet-scheidbaarheidargument. Hun boek, 'Perceptrons,' bracht neuralenetworkonderzoek bijna voor een decennium tot stilstand. Maar netwerken met meerdere lagen lossen het XOR-probleem op. Wat suggereert deze geschiedenis over de juiste manier om een aangetoonde beperking van een machine-redeneersysteem te interpreteren? Specifiek: moet een aangetoonde geometrische beperking als permanent of als afhankelijk van de huidige hypotheseklasse worden begrepen? Geef een principieel antwoord.