un — Geometri för maskinintelligensresonemang: III

un

gäst

1 / ?

Beslutsgränser som hyperplan

En binär klassificerare tilldelar varje inmatning till en av två klasser. Klassificerarens beslutsgräns delar inmatningsrum i två regioner: en per klass. Gränsens geometri avgör vilka mönster klassificeraren kan lära sig.

En hyperplan i ℝ^n: mängden av alla punkter x som uppfyller w·x + b = 0, där w är en viktvektor i ℝ^n och b är en skalär bias. En hyperplan har n−1 dimensioner.

I 2D: en hyperplan är en linje. I 3D: ett platt plan. I n-D: ett platt (n−1)-dimensionellt delrum.

En perceptron klassificerar genom att beräkna w·x + b och returnerar klass 1 om positiv, klass 0 om negativ. Dess beslutsgräns är en hyperplan.

Linjär separabilitet

En datamängd är linjärt separabel i ℝ^n om det finns en hyperplan som sätter alla klass-0-punkter på ena sidan och alla klass-1-punkter på den andra. Detta är en rent geometrisk egenskap för datamängden.

Beslutsgränsgeometri: Linjär separabilitet & XOR

Testa linjär separabilitet

AND-gate-datamängden i 2D: klass-0-punkter vid (0,0), (1,0), (0,1); klass-1-punkt vid (1,1). Denna datamängd är linjärt separabel.

XOR-datamängden i 2D: klass-0-punkter vid (0,0) och (1,1); klass-1-punkter vid (1,0) och (0,1). Dessa två klasser ligger på motsatta diagonaler.

Verifiera att XOR-datamängden INTE är linjärt separabel i 2D. Använd ett geometriskt argument: förklara varför ingen linje i 2D-planet kan separera de två klasserna. Ditt argument bör hänvisa till positionen för de fyra punkterna och egenskapen hos en rak linje som gör separation omöjlig.

Lyft till högre dimensioner

XOR är inte linjärt separabel i 2D. Lösningen: mappa data till ett högerdimensionellt rum där det blir linjärt separabel. Detta är kärnidén för kernel-trick.

Funktionsmappning: en funktion φ: ℝ^n → ℝ^m (m > n) som transformerar varje indatapunkt till en högerdimensionell representation.

För XOR, en användbar funktionsmappning: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Detta lägger till en tredje dimension z = x₁ × x₂. XOR-punkterna transformeras till:

- (0,0) → (0, 0, 0), klass 0

- (1,0) → (1, 0, 0), klass 1

- (0,1) → (0, 1, 0), klass 1

- (1,1) → (1, 1, 1), klass 0

I 3D: klass-0-punkterna ligger vid (0,0,0) och (1,1,1); klass-1-punkterna ligger vid (1,0,0) och (0,1,0). Nu hittar du ett separerande plan.

Separerande plan i 3D

Efter funktionsmappningen φ(x₁, x₂) = (x₁, x₂, x₁x₂), lever XOR-data i 3D. En hyperplan i 3D har ekvation w₁x₁ + w₂x₂ + w₃z + b = 0.

Hitta en hyperplan w·x + b = 0 i det transformerade 3D-rummet som korrekt separerar XOR-klasserna. Verifiera din hyperplan genom att substituera alla fyra transformerade punkter. Varje klass-0-punkt bör ge w·x + b < 0 (eller > 0) och varje klass-1-punkt bör ge det motsatta tecknet.

Covers teorem: Varför höga dimensioner hjälper

Covers teorem (1965): ett komplext klassificeringsproblem i ett högerdimensionellt rum är mer sannolikt att vara linjärt separabel än i ett lågtdimensionellt rum, förutsatt att rummet inte är tätt befolkat.

Informell uttalande: om du mappar n datapunkter till ett rum av dimension d >> n, sannolikheten att en slumpmässig märkning är linjärt separabel närmar sig 1.

Formell version: för n punkter i allmän position i ℝ^d, antalet linjärt separabla dichotomier (klassupptilldelningar) är exakt 2 × Σ_{k=0}^{d} C(n−1, k) för d < n, och är lika med 2^n (alla dichotomier) för d ≥ n − 1.

Praktisk implikation: funktionsmappningen φ som lyfter XOR till 3D är ett speciellt fall av denna allmänna princip. Lyft till högre dimensioner ökar chansen för separabilitet. Kostnaden: fler parametrar att anpassa, högre risk för överanpassning.

Bias-variansavvägningen som geometri

Lågt dimensionell beslutsgräns (få parametrar): högt bias (kan inte fånga komplexa mönster), låg varians (stabil över sampel). Högt dimensionell gräns (många parametrar): lågt bias, högt varians (kan överanpassas till brus i träningsdata).

VC-dimension: Hur uttrycksfull är en klassificerare?

Vapnik-Chervonenkis (VC) dimensionen för en hypotesklass H mäter hur komplex klassen är: det största antalet punkter som H kan krossa (korrekt klassificera i alla 2^n möjliga märkningar).

Perceptron i ℝ^d: VC-dimension = d + 1. En d-dimensionell hyperplan kan krossa d + 1 punkter (i allmän position) men inte d + 2.

VC-dimensionen bestämmer sampelkomplexiteten: för att lära en hypotes med generaliseringsfel ε med sannolikhet 1 − δ, behöver du ungefär n ≥ (d × log(1/ε) + log(1/δ)) / ε sampel, där d är VC-dimensionen.

En perceptron i ℝ^3 har VC-dimension 4. Enligt VC-sampelkomplexitetsgränsen, ungefär hur många träningssamples behövs för att uppnå ett generaliseringsfel ε = 0.05 med konfidens 1 − δ = 0.95? Använd den förenklade gränsen n ≥ (d × log(1/ε) + log(1/δ)) / ε med de givna värdena. Visa alla beräkningar.

Beslutsgränser & gränser för maskinell kapacitet

Geometrin för beslutsgränser kopplar direkt till Hammings gränser för maskinintelligensresonemang.

En enkel-lagers perceptron (hyperplanklassificerare) kan inte lösa XOR. Detta var Minsky & Papert kritik av tidiga perceptroner 1969. Det geometriska argumentet: XOR är inte linjärt separabel. Maskinen kan inte lösa det, inte på grund av brist på beräkningskraft, utan på grund av ett grundläggande geometriskt missöverbund mellan hypotesklassen och problemet.

Lösningen: flerlagers nätverk kan representera icke-linjära gränser. De dolda lagren implementerar funktionsmappningen φ — lyft data till högre dimensioner där linjär separation blir möjlig. Varje dold neuron beräknar en hyperplan; kombinationen av flera hyperplaner approximerar kurvor.

Denna historia mappas på Hammings observation: varje begränsning av maskinintelligensresonemang har en geometrisk struktur under sig. Uppgiften är inte att argumentera om huruvida maskiner 'kan tänka' utan att identifiera de geometriska begränsningarna och hitta sätt att arbeta runt dem.

Minsky & Papert kritik från 1969 av perceptronen använde XOR-icke-separabilitetsargumentet. Deras bok, 'Perceptrons,' nästan dödade neurala nätverksforskningen i ett decennium. Men flerlagers nätverk löser XOR-problemet. Vad föreslår denna historia om det rätta sättet att tolka en demonstrerad begränsning av ett maskinintelligensresonemangssystem? Specifikt: bör en demonstrerad geometrisk begränsning förstås som permanent eller som beroende på den nuvarande hypotesklassen? Ge ett principerat svar.