I Dati Vivono nello Spazio Geometrico
Tutto è un Vettore
Nel machine learning, i dati vivono nello spazio geometrico. Ogni punto dati con N caratteristiche è un punto nello spazio N-dimensionale. Non è una metafora, è il fondamento matematico letterale di ogni algoritmo.
Un'immagine di una cifra scritta a mano (28×28 pixel) è un punto nello spazio a 784 dimensioni. Ogni pixel è una coordinata. Due cifre che si assomigliano sono punti vicini in quello spazio. Due cifre diverse sono lontani.
Un incorporamento di parole mappa una parola a un punto nello spazio a 300 dimensioni. Parole con significati simili finiscono nello stesso quartiere. 'Cane' e 'cucciolo' sono vicini. 'Cane' e 'parlamento' sono lontani.
Un profilo utente con 50 caratteristiche (età, cronologia acquisti, modelli di clic) è un punto nello spazio a 50 dimensioni. I motori di raccomandazione trovano utenti che sono 'vicini' in questo spazio e suggeriscono quello che i loro vicini geometrici hanno apprezzato.
La geometria è il modo in cui ragioniamo su questi spazi. Distanza, direzione, angolo, proiezione: queste sono le operazioni fondamentali del machine learning.
Operazioni Vettoriali — I Mattoni Fondamentali
Il Prodotto Scalare Alimenta Tutto
Tre operazioni vettoriali sono le più importanti nel machine learning:
Addizione vettoriale — combinazione di caratteristiche o segnali. Se aggiungi due vettori di parole, ottieni un vettore che rappresenta entrambi i concetti fusi insieme.
Moltiplicazione scalare — scalare un vettore cambia la sua grandezza senza cambiare la sua direzione. I tassi di apprendimento nella discesa del gradiente sono moltiplicatori scalari.
Prodotto scalare — questo è il cavallo di battaglia. Il prodotto scalare di due vettori a e b è uguale a |a||b|cos(θ), dove θ è l'angolo tra loro. Quando i vettori sono normalizzati (lunghezza unitaria), il prodotto scalare È il coseno dell'angolo.
Somiglianza del coseno = cos(θ) = (a·b) / (|a||b|)
Questa singola formula alimenta:
- Motori di ricerca — trovare documenti simili a una query
- Meccanismi di attenzione — decidere quali token importano l'uno con l'altro
- Motori di raccomandazione — abbinare profili utente a profili di elementi
- Generazione aumentata da recupero — trovare contesto rilevante per i modelli di linguaggio
cos(θ) = 1 significa che i vettori puntano esattamente nella stessa direzione (significato identico). cos(θ) = 0 significa che sono perpendicolari (non correlati). cos(θ) = -1 significa che puntano in direzioni opposte (significato opposto).
Somiglianza del Coseno
La somiglianza del coseno è una delle metriche più utilizzate nei moderni sistemi di machine learning.
Tre Modi per Misurare la Distanza
La Scelta della Metrica di Distanza Cambia Cosa Significa 'Simile'
Dati due punti nello spazio, ci sono molti modi per misurare la 'distanza' tra loro. Ogni metrica definisce una geometria diversa e quella geometria determina cosa il tuo modello considera 'simile'.
Distanza euclidea (L2) — la distanza in linea retta. d = √(Σ(aᵢ - bᵢ)²). Questa è la distanza 'a volo d'uccello', quella che ti aspetti intuitivamente. Tratta tutte le dimensioni in modo uguale ed è sensibile alla grandezza.
Distanza di Manhattan (L1) — la distanza del percorso in griglia. d = Σ|aᵢ - bᵢ|. Come navigare gli isolati della città: puoi muoverti solo lungo gli assi, mai in diagonale. Più robusta agli outlier nelle singole dimensioni perché non eleva al quadrato le differenze.
Distanza del coseno — misura l'angolo tra i vettori, ignorando completamente la grandezza. d = 1 - cos(θ). Due documenti sullo stesso argomento hanno una piccola distanza del coseno indipendentemente dalla lunghezza. Due documenti ugualmente lunghi su argomenti diversi hanno una grande distanza del coseno.
La scelta non è arbitraria. Se la grandezza importa (dosaggio di un farmaco, temperatura di un reattore), usa Euclidea. Se ti interessa il rapporto piuttosto che gli assoluti (distribuzioni di frequenza delle parole, profili di preferenza degli utenti), usa il coseno. Se le singole differenze di caratteristiche sono più importanti della grandezza aggregata (diagnosi di guasti, dove un sensore che sale è significativo), usa Manhattan.
K-Nearest Neighbors — Geometria Pura
KNN: L'Algoritmo Geometrico Più Semplice
K-Nearest Neighbors è l'algoritmo geometrico più trasparente nel machine learning. Non ha una fase di addestramento: SONO i dati di addestramento.
Per classificare un nuovo punto: trova i K punti più vicini nei dati di addestramento. Lasciaci votare. La classe maggioritaria vince. Ecco tutto l'algoritmo.
Il confine di decisione che KNN produce è un diagramma di Voronoi: una partizione dello spazio dove ogni punto appartiene alla regione del suo esempio di addestramento più vicino. I confini sono gli assi perpendicolari tra i punti di addestramento adiacenti.
Ecco l'intuizione geometrica che importa: la scelta della metrica di distanza cambia completamente il diagramma di Voronoi. La distanza euclidea produce confini curvi e circolari. La distanza di Manhattan produce confini a forma di diamante. La distanza del coseno produce confini angolari a forma di cono.
Stessi dati di addestramento. Stesso K. Metrica di distanza diversa. Modello completamente diverso. La geometria È il modello.
Scegliere una Metrica di Distanza
Le metriche di distanza non sono intercambiabili: la scelta giusta dipende da cosa significa 'simile' per i tuoi dati.
Iperpiani — Confini Piatti in Alte Dimensioni
Ogni Classificatore Lineare Trova un Iperpiano
Un classificatore lineare trova una superficie piatta che separa due classi. La dimensionalità di questa superficie dipende dallo spazio:
- Nello spazio 2D, il confine è una linea (1-dimensionale)
- Nello spazio 3D, il confine è un piano (2-dimensionale)
- Nello spazio a 784D (immagini di cifre MNIST), il confine è un iperpiano a 783 dimensioni
Il modello generale: nello spazio N-dimensionale, il confine di decisione è una superficie piatta (N-1)-dimensionale chiamata iperpiano.
La regressione logistica, le macchine a vettori di supporto e i percettroni a strato singolo sono tutti ricercatori di iperpiani. Differiscono nel COME trovano il miglior iperpiano:
- Regressione logistica massimizza la probabilità di classificazione corretta
- SVM massimizzano il margine geometrico: la distanza dall'iperpiano ai punti dati più vicini
- Percettroni semplicemente trovano qualsiasi iperpiano che separa i dati, senza garantire l'ottimalità
Il vettore peso di un classificatore lineare È il vettore normale all'iperpiano. Il termine bias sposta l'iperpiano lontano dall'origine. Questi sono oggetti geometrici con interpretazioni geometriche.
Oltre i Confini Piatti
Quando i Dati Non Sono Linearmente Separabili
Molti problemi del mondo reale non possono essere risolti con un confine piatto. Considera la classificazione di immagini di gatti rispetto a cani: nessun singolo iperpiano nello spazio dei pixel li separa in modo netto.
Esistono due strategie geometriche:
Strategia 1: Il trucco del kernel — Trasforma i dati in uno spazio di dimensione superiore dove SONO linearmente separabili. Un esempio classico: punti all'interno di un cerchio (classe A) e punti all'esterno (classe B) in 2D. Nessuna linea li separa. Ma aggiungi una terza dimensione z = x² + y², e i punti interni (piccolo x² + y²) si siedono in basso mentre i punti esterni (grande x² + y²) si siedono in alto. Ora un piano piatto li separa perfettamente.
Le SVM con funzioni kernel lo fanno implicitamente: calcolano prodotti scalari nello spazio ad alta dimensionalità senza costruire mai i vettori ad alta dimensionalità reali. Questo si chiama 'trucco del kernel' ed è un'intuizione puramente geometrica.
Strategia 2: Reti neurali — Impila trasformazioni lineari con funzioni di attivazione non lineari. Ogni strato applica una trasformazione lineare (moltiplicazione di matrice = rotazione + ridimensionamento + distorsione) seguita da un 'piegamento' non lineare (ReLU, sigmoid, tanh). La composizione di molte operazioni di bending lineare può approssimare qualsiasi forma di confine continuo.
Una rete neurale profonda è una sequenza di trasformazioni geometriche che deformano lo spazio di input fino a quando le classi diventano linearmente separabili nello strato finale.
Separazione dei Dati Circolari
Questo è uno dei problemi geometrici più importanti nel machine learning.
La Superficie di Perdita
Addestramento = Camminare in Discesa su una Superficie
Ogni modello di machine learning ha parametri: pesi e bias. La funzione di perdita misura quanto sono sbagliate le previsioni del modello. Insieme, questi definiscono una superficie di perdita: un paesaggio dove ogni punto corrisponde a una serie specifica di valori di parametri e l'altezza è la perdita.
Per un modello con 2 parametri, la superficie di perdita è un paesaggio 3D che puoi visualizzare: colline, valli e pianure. Per un modello con 175 miliardi di parametri (come GPT-3), la superficie di perdita esiste nello spazio a 175 miliardi di dimensioni. La matematica è identica.
La discesa del gradiente è l'algoritmo che naviga questa superficie. Il gradiente è un oggetto geometrico: un vettore che punta nella direzione della salita più ripida. Per ridurre la perdita, muoviti nella direzione opposta: il gradiente negativo. Questo è letteralmente camminare in discesa.
Il tasso di apprendimento controlla la dimensione del passo. Troppo grande e overshooti le valli. Troppo piccolo e strisci. Il gradiente ti dice la direzione; il tasso di apprendimento ti dice quanto lontano fare un passo.
Punti di Sella, Minimi e la Geometria delle Alte Dimensioni
Il Paesaggio di Perdita Non È una Semplice Ciotola
Un'ingenua immagine dell'addestramento immagina una ciotola liscia con un unico punto più basso. La realtà è molto più complessa:
Minimi locali — valli che non sono le più profonde. La discesa del gradiente può rimanere bloccata qui, soddisfatta che ogni direzione vada su, anche se una valle più profonda esiste altrove.
Punti di sella — a forma di sella di cavallo. La perdita curva verso il basso in alcune dimensioni e verso l'alto in altre. In 2D questo è raro. In alte dimensioni, i punti di sella sono esponenzialmente più comuni dei minimi locali. Un punto critico nello spazio a 1000 dimensioni deve curvare verso l'alto in TUTTE le 1000 dimensioni per essere un minimo locale. Se anche una sola dimensione curva verso il basso, è un punto di sella.
Altipiani piatti — regioni dove il gradiente è vicino a zero. L'addestramento si blocca perché non c'è pendenza da seguire.
Minimi acuti vs piatti — un minimo acuto è una valle stretta. Un minimo piatto è una valle larga. La ricerca suggerisce che i minimi piatti si generalizzano meglio ai dati non visti, perché le piccole perturbazioni ai parametri (dal rumore nei nuovi dati) non cambiano drasticamente la perdita.
SGD con momentum aiuta a scappare dai punti di sella e dai minimi acuti. La casualità della discesa del gradiente stocastico agisce come scuotere una palla sulla superficie: rimbalza fuori dalle trappole strette e trova valli più larghe e piatte.
SGD vs Discesa del Gradiente a Batch Completo
Questo è uno dei più importanti intuizioni pratiche nell'addestramento del machine learning.
Parole come Vettori — Aritmetica Semantica
Il Significato Ha Direzione
Word2Vec, GloVe e gli incorporamenti dei moderni transformer mappano i token discreti (parole, sub-parole) a spazi vettoriali continui. Il risultato è un mondo geometrico dove il significato ha coordinate.
L'esempio famoso: king - man + woman ≈ queen (re - uomo + donna ≈ regina)
Questa è aritmetica vettoriale. Il vettore da 'man' a 'king' rappresenta il concetto 'regalità applicata a un maschio'. Il vettore da 'woman' a 'queen' rappresenta 'regalità applicata a una femmina'. Questi vettori sono approssimativamente paralleli: stessa direzione, stessa relazione, diversi punti di partenza.
Altre relazioni geometriche che emergono dall'addestramento su testo:
- Parigi - Francia + Italia ≈ Roma (relazione capitale-di)
- walked - walk + swim ≈ swam (trasformazione passato)
- bigger - big + small ≈ smaller (forma comparativa)
Nessuno ha programmato queste relazioni. Il modello ha scoperto che il significato ha struttura geometrica leggendo miliardi di parole. Le direzioni nello spazio di incorporamento corrispondono a relazioni semantiche. Questo è uno dei più importanti scoperte geometriche nel machine learning.
L'Ipotesi dei Molteplici (Manifold)
I Dati ad Alta Dimensione Vivono su Superfici a Bassa Dimensione
Un'immagine di un volto in scala di grigi 64×64 ha 4.096 valori di pixel: è un punto nello spazio a 4.096 dimensioni. Ma non ogni punto in quello spazio è un volto valido. La maggior parte dei vettori a 4.096 dimensioni casuali assomiglia a rumore statico, non a volti.
L'ipotesi dei molteplici afferma che i dati reali e ad alta dimensione effettivamente si trovano su o vicino a superfici curve a bassa dimensione (molteplici) incorporate nello spazio ad alta dimensione. Il molteplice dei volti potrebbe essere solo 50-dimensionale: parametrizzato da fattori come l'angolo di illuminazione, la posizione della testa, l'espressione, il tono della pelle, l'età.
Questo è un'affermazione geometrica con conseguenze pratiche:
- Riduzione della dimensionalità (PCA, t-SNE, UMAP) funziona perché i dati sono approssimativamente a bassa dimensione. Questi algoritmi trovano il molteplice e proiettano su di esso.
- Autoencodificatori imparano a comprimere i dati in uno spazio latente a bassa dimensione (il molteplice) e ricostruire da esso.
- Modelli generativi (VAE, modelli di diffusione) imparano il molteplice e campionano nuovi punti su di esso: generando nuovi volti, nuova musica, nuovo testo che sembra reale perché giace sul molteplice appreso.
Quando il tuo modello fallisce a generalizzare, una spiegazione geometrica è: ha imparato il molteplice sbagliato. I dati di addestramento tracciavano una superficie che non corrisponde alla vera distribuzione dei dati.
Analogie Vettoriali
La struttura geometrica degli spazi di incorporamento è uno dei risultati più sorprendenti nel machine learning moderno.
Curve ROC — Qualità della Classificazione come Area
Le Metriche di Valutazione Vivono in Spazi Geometrici
Una curva ROC (Receiver Operating Characteristic) traccia il True Positive Rate (asse Y) rispetto al False Positive Rate (asse X) mentre spazzi la soglia di classificazione da 0 a 1.
Questo è uno spazio geometrico con punti di riferimento significativi:
- (0, 1) — l'angolo in alto a sinistra — classificazione perfetta. Ogni positivo rilevato, zero falsi allarmi.
- (0, 0) — il basso a sinistra — il modello classifica tutto come negativo.
- (1, 1) — in alto a destra — il modello classifica tutto come positivo.
- La diagonale da (0,0) a (1,1) — un classificatore casuale. Ad ogni soglia, ha tassi di vero positivo e falso positivo uguali.
AUC (Area Under the Curve) è letteralmente una misurazione di area geometrica. AUC = 0,5 significa che il modello è casuale (l'area sotto la diagonale). AUC = 1,0 significa classificazione perfetta (l'intero quadrato unitario). Un buon modello ha una curva ROC che si inarca verso l'angolo in alto a sinistra, racchiudendo più area.
AUC ha una bella interpretazione probabilistica: è uguale alla probabilità che il modello valuti un esempio positivo casuale più in alto di un esempio negativo casuale. Ma geometricamente, è solo area: e quella semplicità geometrica è quello che lo rende intuitivo.
Spazio Precisione-Recall
Un Tradeoff Geometrico Diverso
Le curve precisione-recall vivono in uno spazio geometrico diverso rispetto alle curve ROC e raccontano una storia diversa.
Precisione = di tutto ciò che il modello ha contrassegnato come positivo, quale frazione era effettivamente positiva?
Recall = di tutti i positivi effettivi, quale frazione ha il modello trovato?
Mentre abbassi la soglia di classificazione (contrassegni più cose come positive), il recall aumenta (catturi più positivi reali) ma la precisione generalmente diminuisce (catturi anche più falsi positivi). Questo compromesso traccia una curva nello spazio precisione-recall.
Punteggio F1 = 2 × (precisione × recall) / (precisione + recall) — la media armonica. Geometricamente, il punteggio F1 è uguale al punto sulla curva precisione-recall dove la precisione è uguale al recall. È dove la curva interseca la diagonale del quadrato precisione-recall.
Average Precision (AP) = l'area sotto la curva precisione-recall. Come AUC-ROC, riassume l'intera curva in un singolo numero che rappresenta l'area geometrica.
Le curve ROC e le curve precisione-recall sono viste geometriche complementari dello stesso modello. Le curve ROC possono essere ingannevoli su set di dati squilibrati (99% classe negativa). Le curve precisione-recall rimangono informative perché si concentrano sulla classe positiva.
Interpretazione AUC-ROC
Capire cosa misura AUC-ROC geometricamente ti aiuta a scegliere tra modelli.
Transformer — Prodotti Scalari come Attenzione
L'Attenzione è una Misura di Somiglianza Geometrica
L'architettura del transformer, il fondamento dei modelli di linguaggio moderni, è costruita su un'operazione geometrica: il prodotto scalare.
Per ogni token in una sequenza, il transformer calcola tre vettori: Query (Q), Chiave (K) e Valore (V), ottenuti moltiplicando l'incorporamento di input per matrici di peso apprese.
Il punteggio di attenzione tra due token è: punteggio = Q · K^T / √d
Questo è un prodotto scalare scalato: una misura di somiglianza geometrica. Quando Q e K puntano nella stessa direzione (piccolo angolo tra loro), il prodotto scalare è grande: questa chiave è altamente rilevante per questa query. Quando sono perpendicolari, il prodotto scalare è zero: irrilevante.
I punteggi vengono passati attraverso softmax per creare una distribuzione di probabilità: pesi di attenzione che sommano a 1. L'output è la somma ponderata dei vettori di Valore, dove i pesi sono determinati dall'allineamento geometrico.
In una frase come 'The cat sat on the mat because it was tired' (Il gatto sedeva sul tappeto perché era stanco), l'attenzione calcola: per la parola 'it', quali altre parole hanno l'allineamento geometrico più elevato? Se il vettore Q per 'it' si allinea più strettamente con il vettore K per 'cat', il modello presta attenzione a 'cat': risolvendo il riferimento del pronome attraverso la geometria.
Attenzione Multi-Head — Prospettive Geometriche Multiple
Perché Multipli Head?
L'auto-attenzione con un singolo insieme di matrici Q, K, V calcola un tipo di allineamento geometrico. Ma il linguaggio ha molti tipi di relazioni: sintattica, semantica, posizionale, referenziale.
L'attenzione multi-head utilizza più insiemi di matrici di proiezione Q, K, V, ognuna proiettando in un diverso sottospazio dell'incorporamento. Ogni head misura l'allineamento nel suo proprio sottospazio geometrico.
Ciò che i ricercatori osservano quando controllano gli head di attenzione:
- Head 1 potrebbe prestare attenzione alla parola precedente (prossimità posizionale)
- Head 2 potrebbe prestare attenzione al verbo del soggetto (dipendenza sintattica)
- Head 3 potrebbe prestare attenzione alle parole semanticamente correlate più indietro nel contesto
- Head 4 potrebbe prestare attenzione al nome più recente (correzione del riferimento)
Ogni head è una diversa lente geometrica sugli stessi dati. Le proiezioni ruotano e scalano lo spazio di incorporamento in modo diverso, rendendo visibili diverse relazioni attraverso l'allineamento.
Ecco perché i transformer superano i modelli con un singolo meccanismo di attenzione. Un singolo prodotto scalare nello spazio di incorporamento completo cattura una nozione di somiglianza. Multipli prodotti scalari in sottospazi diversi catturano più nozioni complementari simultaneamente.
Attenzione Multi-Head
L'attenzione multi-head è una delle innovazioni architettoniche chiave del transformer.
Il Machine Learning è Geometria Applicata
Il Filo Conduttore Unificatore
Guarda quello che abbiamo coperto. Ogni concetto principale nel machine learning ha un nucleo geometrico:
Dati = punti nello spazio ad alta dimensione
Caratteristiche = dimensioni di quello spazio
Somiglianza = distanza o angolo tra i punti
Classificazione = trovare confini geometrici tra classi
Addestramento = navigare una superficie di perdita seguendo i gradienti
Incorporamenti = sistemi di coordinate appresi dove la geometria codifica il significato
Valutazione = aree sotto curve in spazi metrici
Attenzione = prodotti scalari che misurano l'allineamento angolare
Questo non è una coincidenza. Il machine learning ha ereditato il suo quadro matematico dall'algebra lineare e dalla geometria differenziale: campi che riguardano fondamentalmente lo spazio, la forma e la trasformazione.
Capire la geometria ti dà qualcosa che memorizzare gli algoritmi non può: intuizione. Quando il tuo modello fallisce, la visione geometrica suggerisce dove guardare. Le classi non sono separabili? Guarda il confine. L'addestramento è bloccato? Esamina il paesaggio di perdita. Gli incorporamenti sono scarsi? Controlla se gli elementi simili sono geometricamente vicini. L'attenzione è dispersa? Ispeziona le proiezioni del sottospazio.
La geometria è la stessa se lavori con 3 dimensioni o 3 miliardi. La matematica si scalpa. L'intuizione si trasferisce. Questo è quello che rende la geometria il linguaggio universale del machine learning.
Debug Geometrico
Abbiamo coperto vettori, distanze, confini, addestramento, incorporamenti, valutazione e attenzione: tutti attraverso la lente della geometria.