Beslutsgränser som hyperplan
En binär klassificerare tilldelar varje inmatning till en av två klasser. Klassificerarens beslutsgräns delar inmatningsrum i två regioner: en per klass. Gränsens geometri avgör vilka mönster klassificeraren kan lära sig.
En hyperplan i ℝ^n: mängden av alla punkter x som uppfyller w·x + b = 0, där w är en viktvektor i ℝ^n och b är en skalär bias. En hyperplan har n−1 dimensioner.
I 2D: en hyperplan är en linje. I 3D: ett platt plan. I n-D: ett platt (n−1)-dimensionellt delrum.
En perceptron klassificerar genom att beräkna w·x + b och returnerar klass 1 om positiv, klass 0 om negativ. Dess beslutsgräns är en hyperplan.
Linjär separabilitet
En datamängd är linjärt separabel i ℝ^n om det finns en hyperplan som sätter alla klass-0-punkter på ena sidan och alla klass-1-punkter på den andra. Detta är en rent geometrisk egenskap för datamängden.
Testa linjär separabilitet
AND-gate-datamängden i 2D: klass-0-punkter vid (0,0), (1,0), (0,1); klass-1-punkt vid (1,1). Denna datamängd är linjärt separabel.
XOR-datamängden i 2D: klass-0-punkter vid (0,0) och (1,1); klass-1-punkter vid (1,0) och (0,1). Dessa två klasser ligger på motsatta diagonaler.
Lyft till högre dimensioner
XOR är inte linjärt separabel i 2D. Lösningen: mappa data till ett högerdimensionellt rum där det blir linjärt separabel. Detta är kärnidén för kernel-trick.
Funktionsmappning: en funktion φ: ℝ^n → ℝ^m (m > n) som transformerar varje indatapunkt till en högerdimensionell representation.
För XOR, en användbar funktionsmappning: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
Detta lägger till en tredje dimension z = x₁ × x₂. XOR-punkterna transformeras till:
- (0,0) → (0, 0, 0), klass 0
- (1,0) → (1, 0, 0), klass 1
- (0,1) → (0, 1, 0), klass 1
- (1,1) → (1, 1, 1), klass 0
I 3D: klass-0-punkterna ligger vid (0,0,0) och (1,1,1); klass-1-punkterna ligger vid (1,0,0) och (0,1,0). Nu hittar du ett separerande plan.
Separerande plan i 3D
Efter funktionsmappningen φ(x₁, x₂) = (x₁, x₂, x₁x₂), lever XOR-data i 3D. En hyperplan i 3D har ekvation w₁x₁ + w₂x₂ + w₃z + b = 0.
Covers teorem: Varför höga dimensioner hjälper
Covers teorem (1965): ett komplext klassificeringsproblem i ett högerdimensionellt rum är mer sannolikt att vara linjärt separabel än i ett lågtdimensionellt rum, förutsatt att rummet inte är tätt befolkat.
Informell uttalande: om du mappar n datapunkter till ett rum av dimension d >> n, sannolikheten att en slumpmässig märkning är linjärt separabel närmar sig 1.
Formell version: för n punkter i allmän position i ℝ^d, antalet linjärt separabla dichotomier (klassupptilldelningar) är exakt 2 × Σ_{k=0}^{d} C(n−1, k) för d < n, och är lika med 2^n (alla dichotomier) för d ≥ n − 1.
Praktisk implikation: funktionsmappningen φ som lyfter XOR till 3D är ett speciellt fall av denna allmänna princip. Lyft till högre dimensioner ökar chansen för separabilitet. Kostnaden: fler parametrar att anpassa, högre risk för överanpassning.
Bias-variansavvägningen som geometri
Lågt dimensionell beslutsgräns (få parametrar): högt bias (kan inte fånga komplexa mönster), låg varians (stabil över sampel). Högt dimensionell gräns (många parametrar): lågt bias, högt varians (kan överanpassas till brus i träningsdata).
VC-dimension: Hur uttrycksfull är en klassificerare?
Vapnik-Chervonenkis (VC) dimensionen för en hypotesklass H mäter hur komplex klassen är: det största antalet punkter som H kan krossa (korrekt klassificera i alla 2^n möjliga märkningar).
Perceptron i ℝ^d: VC-dimension = d + 1. En d-dimensionell hyperplan kan krossa d + 1 punkter (i allmän position) men inte d + 2.
VC-dimensionen bestämmer sampelkomplexiteten: för att lära en hypotes med generaliseringsfel ε med sannolikhet 1 − δ, behöver du ungefär n ≥ (d × log(1/ε) + log(1/δ)) / ε sampel, där d är VC-dimensionen.
Beslutsgränser & gränser för maskinell kapacitet
Geometrin för beslutsgränser kopplar direkt till Hammings gränser för maskinintelligensresonemang.
En enkel-lagers perceptron (hyperplanklassificerare) kan inte lösa XOR. Detta var Minsky & Papert kritik av tidiga perceptroner 1969. Det geometriska argumentet: XOR är inte linjärt separabel. Maskinen kan inte lösa det, inte på grund av brist på beräkningskraft, utan på grund av ett grundläggande geometriskt missöverbund mellan hypotesklassen och problemet.
Lösningen: flerlagers nätverk kan representera icke-linjära gränser. De dolda lagren implementerar funktionsmappningen φ — lyft data till högre dimensioner där linjär separation blir möjlig. Varje dold neuron beräknar en hyperplan; kombinationen av flera hyperplaner approximerar kurvor.
Denna historia mappas på Hammings observation: varje begränsning av maskinintelligensresonemang har en geometrisk struktur under sig. Uppgiften är inte att argumentera om huruvida maskiner 'kan tänka' utan att identifiera de geometriska begränsningarna och hitta sätt att arbeta runt dem.