un — Geometria del Ragionamento Automatico: III

un

ospite

1 / ?

torna alle lezioni

Limiti Decisionali come Iperpiani

Un classificatore binario assegna ogni input a una delle due classi. Il limite decisionale del classificatore divide lo spazio di input in due regioni: una per classe. La geometria di quel limite determina quali pattern il classificatore può apprendere.

Un iperpiano in ℝ^n: l'insieme di tutti i punti x che soddisfano w·x + b = 0, dove w è un vettore di peso in ℝ^n e b è una distorsione scalare. Un iperpiano ha n−1 dimensioni.

In 2D: un iperpiano è una linea. In 3D: un piano piatto. In n-D: un sottospazio piatto (n−1)-dimensionale.

Un percettrone classifica calcolando w·x + b e restituendo la classe 1 se positivo, la classe 0 se negativo. Il suo limite decisionale è un iperpiano.

Separabilità Lineare

Un dataset è linearmente separabile in ℝ^n se esiste un iperpiano che mette tutti i punti di classe 0 da un lato e tutti i punti di classe 1 dall'altro. Questa è una proprietà puramente geometrica del dataset.

Geometria del Limite Decisionale: Separabilità Lineare e XOR

Verifica della Separabilità Lineare

Il dataset della porta AND in 2D: punti di classe 0 a (0,0), (1,0), (0,1); punto di classe 1 a (1,1). Questo dataset è linearmente separabile.

Il dataset XOR in 2D: punti di classe 0 a (0,0) e (1,1); punti di classe 1 a (1,0) e (0,1). Queste due classi si trovano su diagonali opposte.

Verifica che il dataset XOR NON è linearmente separabile in 2D. Usa un argomento geometrico: spiega perché nessuna linea nel piano 2D può separare le due classi. Il tuo argomento dovrebbe fare riferimento alle posizioni dei quattro punti e alla proprietà di una linea retta che rende impossibile la separazione.

Sollevamento a Dimensioni Superiori

XOR non è linearmente separabile in 2D. La soluzione: mappa i dati a uno spazio di dimensioni superiori dove diventa linearmente separabile. Questa è l'idea centrale del kernel trick.

Feature map: una funzione φ: ℝ^n → ℝ^m (m > n) che trasforma ogni punto di input in una rappresentazione di dimensioni superiori.

Per XOR, una feature map utile: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Questo aggiunge una terza dimensione z = x₁ × x₂. I punti XOR si trasformano in:

- (0,0) → (0, 0, 0), classe 0

- (1,0) → (1, 0, 0), classe 1

- (0,1) → (0, 1, 0), classe 1

- (1,1) → (1, 1, 1), classe 0

In 3D: i punti di classe 0 si trovano a (0,0,0) e (1,1,1); i punti di classe 1 si trovano a (1,0,0) e (0,1,0). Ora trova un piano separatore.

Piano Separatore in 3D

Dopo la feature map φ(x₁, x₂) = (x₁, x₂, x₁x₂), i dati XOR vivono in 3D. Un iperpiano in 3D ha l'equazione w₁x₁ + w₂x₂ + w₃z + b = 0.

Trova un iperpiano w·x + b = 0 nello spazio 3D trasformato che separi correttamente le classi XOR. Verifica il tuo iperpiano sostituendo tutti e quattro i punti trasformati. Ogni punto di classe 0 dovrebbe dare w·x + b < 0 (o > 0) e ogni punto di classe 1 dovrebbe dare il segno opposto.

Teorema di Cover: Perché le Dimensioni Elevate Aiutano

Teorema di Cover (1965): un problema di classificazione complesso affrontato in uno spazio di dimensioni elevate è più probabile che sia linearmente separabile rispetto a uno spazio di dimensioni basse, a condizione che lo spazio non sia densamente popolato.

Affermazione informale: se mappi n punti dati a uno spazio di dimensione d >> n, la probabilità che un'etichettatura casuale sia linearmente separabile si avvicina a 1.

Versione formale: per n punti in posizione generale in ℝ^d, il numero di dicotomie linearmente separabili (assegnazioni di classe) è esattamente 2 × Σ_{k=0}^{d} C(n−1, k) per d < n, e equivale a 2^n (tutte le dicotomie) per d ≥ n − 1.

Implicazione pratica: la feature map φ che solleva XOR a 3D è un caso speciale di questo principio generale. Sollevare a dimensioni superiori aumenta la probabilità di separabilità. Il costo: più parametri da adattare, rischio più elevato di overfitting.

Il Compromesso Bias-Varianza come Geometria

Limite decisionale a bassa dimensionalità (pochi parametri): alta bias (non può catturare pattern complessi), bassa varianza (stabile tra i campioni). Limite a alta dimensionalità (molti parametri): bassa bias, alta varianza (può sovra-adattarsi al rumore nei dati di training).

Dimensione VC: Quanto è Espressivo un Classificatore?

La dimensione Vapnik-Chervonenkis (VC) di una classe di ipotesi H misura quanto è complessa la classe: il numero maggiore di punti che H può frantumare (classificare correttamente in tutti i 2^n possibili etichettamenti).

Percettrone in ℝ^d: dimensione VC = d + 1. Un iperpiano d-dimensionale può frantumare d + 1 punti (in posizione generale) ma non d + 2.

La dimensione VC determina la complessità del campione: per imparare un'ipotesi con errore di generalizzazione ε con probabilità 1 − δ, hai bisogno di circa n ≥ (d × log(1/ε) + log(1/δ)) / ε campioni, dove d è la dimensione VC.

Un percettrone in ℝ^3 ha dimensione VC 4. Secondo il limite di complessità del campione VC, approssimativamente quanti campioni di training sono necessari per raggiungere un errore di generalizzazione ε = 0.05 con confidenza 1 − δ = 0.95? Usa il limite semplificato n ≥ (d × log(1/ε) + log(1/δ)) / ε con i valori forniti. Mostra tutti i calcoli.

Limiti Decisionali e Limiti di Capacità della Macchina

La geometria dei limiti decisionali si collega direttamente ai limiti di ragionamento della macchina di Hamming.

Un percettrone a strato singolo (classificatore a iperpiano) non può risolvere XOR. Questa era la critica di Minsky & Papert ai percettroni iniziali nel 1969. L'argomento geometrico: XOR non è linearmente separabile. La macchina non può risolverlo, non a causa della mancanza di potenza di calcolo, ma a causa di un'incompatibilità geometrica fondamentale tra la classe di ipotesi e il problema.

La soluzione: le reti multi-strato possono rappresentare limiti non-lineari. I layer nascosti implementano la feature map φ — sollevando i dati a dimensioni superiori dove la separazione lineare diventa possibile. Ogni neurone nascosto calcola un iperpiano; la combinazione di più iperpiani approssima le curve.

Questa storia si mappa sull'osservazione di Hamming: ogni limitazione del ragionamento della macchina ha una struttura geometrica sottostante. Il compito non è discutere se le macchine 'possono pensare' ma identificare i vincoli geometrici e trovare modi per aggirarli.

La critica del 1969 di Minsky & Papert al percettrone ha usato l'argomento della non-separabilità XOR. Il loro libro, 'Perceptrons,' ha quasi ucciso la ricerca sulle reti neurali per un decennio. Ma le reti multi-strato risolvono il problema XOR. Cosa suggerisce questa storia sul modo giusto di interpretare una limitazione dimostrata di un sistema di ragionamento della macchina? Specificamente: una limitazione geometrica dimostrata dovrebbe essere intesa come permanente o come contingente sulla classe di ipotesi attuale? Fornisci una risposta principiata.