Les Données Vivent dans l'Espace Géométrique
Tout est un Vecteur
En apprentissage automatique, les données vivent dans l'espace géométrique. Chaque point de données ayant N caractéristiques est un point dans un espace à N dimensions. Ce n'est pas une métaphore — c'est le fondement mathématique littéral de chaque algorithme.
Une image de chiffre manuscrit (28×28 pixels) est un point dans un espace à 784 dimensions. Chaque pixel est une coordonnée. Deux chiffres ressemblant — sont des points voisins dans cet espace. Deux chiffres différents sont éloignés.
Un intégration de mots (word embedding) mappe un mot à un point dans un espace à 300 dimensions. Les mots ayant des significations similaires se retrouvent dans le même voisinage. « Chien » & « chiot » sont proches. « Chien » & « parlement » sont loin.
Un profil utilisateur avec 50 caractéristiques (âge, historique d'achat, modèles de clics) est un point dans un espace à 50 dimensions. Les moteurs de recommandation trouvent les utilisateurs « à proximité » dans cet espace & suggèrent ce que leurs voisins géométriques ont aimé.
La géométrie est comment nous raisonnons sur ces espaces. La distance, la direction, l'angle, la projection — ce sont les opérations fondamentales de l'apprentissage automatique.
Opérations Vectorielles — Les Éléments Fondamentaux
Le Produit Scalaire Alimente Tout
Trois opérations vectorielles importent le plus en apprentissage automatique:
Addition vectorielle — combinaison de caractéristiques ou de signaux. Si vous additionnez deux vecteurs de mots, vous obtenez un vecteur représentant les deux concepts mélangés ensemble.
Multiplication scalaire — mettre à l'échelle un vecteur change sa magnitude sans changer sa direction. Les taux d'apprentissage en descente de gradient sont des multiplicateurs scalaires.
Produit scalaire — c'est la bête de somme. Le produit scalaire de deux vecteurs a & b égale |a||b|cos(θ), où θ est l'angle entre eux. Quand les vecteurs sont normalisés (longueur unitaire), le produit scalaire EST le cosinus de l'angle.
Similarité Cosinus = cos(θ) = (a·b) / (|a||b|)
Cette seule formule alimente:
- Moteurs de recherche — trouver les documents similaires à une requête
- Mécanismes d'attention — décider quels tokens importent les uns pour les autres
- Moteurs de recommandation — correspondre les profils utilisateurs aux profils d'éléments
- Génération augmentée par récupération — trouver le contexte pertinent pour les modèles linguistiques
cos(θ) = 1 signifie que les vecteurs pointent exactement dans la même direction (signification identique). cos(θ) = 0 signifie qu'ils sont perpendiculaires (non liés). cos(θ) = -1 signifie qu'ils pointent dans des directions opposées (signification opposée).
Similarité Cosinus
La similarité cosinus est l'une des métriques les plus utilisées dans les systèmes d'apprentissage automatique modernes.
Trois Façons de Mesurer la Distance
Le Choix de la Métrique de Distance Change ce que « Similaire » Signifie
Étant donné deux points dans l'espace, il y a plusieurs façons de mesurer la « distance » entre eux. Chaque métrique définit une géométrie différente, & cette géométrie détermine ce que votre modèle considère « similaire ».
Distance euclidienne (L2) — la distance en ligne droite. d = √(Σ(aᵢ - bᵢ)²). C'est la distance « à vol d'oiseau », celle à laquelle votre intuition s'attend. Elle traite toutes les dimensions de manière égale & est sensible à la magnitude.
Distance de Manhattan (L1) — la distance de marche en grille. d = Σ|aᵢ - bᵢ|. Comme naviguer dans les pâtés de maisons — vous ne pouvez vous déplacer que le long des axes, jamais en diagonale. Plus robuste aux valeurs aberrantes dans les dimensions uniques car elle ne met pas au carré les différences.
Distance cosinus — mesure l'angle entre les vecteurs, ignorant complètement la magnitude. d = 1 - cos(θ). Deux documents sur le même sujet ont une petite distance cosinus indépendamment de la longueur. Deux documents de longueur égale sur des sujets différents ont une grande distance cosinus.
Le choix n'est pas arbitraire. Si la magnitude importa (dose d'un médicament, température d'un réacteur), utilisez la distance euclidienne. Si vous vous souciez des proportions plutôt que des absolus (distributions de fréquences de mots, profils de préférences utilisateurs), utilisez la distance cosinus. Si les différences de caractéristiques individuelles importent plus que la magnitude agrégée (diagnostic de pannes, où un capteur qui monte en flèche est significatif), utilisez Manhattan.
K-Plus Proches Voisins — Géométrie Pure
KNN: L'Algorithme Géométrique le Plus Simple
K-Plus Proches Voisins est l'algorithme géométrique le plus transparent du machine learning. Il n'a pas de phase d'entraînement — il EST les données d'entraînement.
Pour classer un nouveau point: trouvez les K points les plus proches dans les données d'entraînement. Laissez-les voter. La classe majoritaire gagne. C'est tout l'algorithme.
La limite de décision que KNN produit est un diagramme de Voronoï — une partition de l'espace où chaque point appartient à la région de son exemple d'entraînement le plus proche. Les limites sont les bisectrices perpendiculaires entre les points d'entraînement adjacents.
Voici l'insight géométrique qui importe: le choix de la métrique de distance change complètement le diagramme de Voronoï. La distance euclidienne produit des limites courbes & circulaires. La distance de Manhattan produit des limites en forme de diamant. La distance cosinus produit des limites angulaires en forme de cône.
Même données d'entraînement. Même K. Métrique de distance différente. Modèle complètement différent. La géométrie EST le modèle.
Choisir une Métrique de Distance
Les métriques de distance ne sont pas interchangeables — le bon choix dépend de ce que « similaire » signifie pour vos données.
Hyperplans — Limites Plates dans les Dimensions Élevées
Chaque Classificateur Linéaire Trouve un Hyperplan
Un classificateur linéaire trouve une surface plate qui sépare deux classes. La dimensionnalité de cette surface dépend de l'espace:
- Dans l'espace 2D, la limite est une ligne (1-dimensionnelle)
- Dans l'espace 3D, la limite est un plan (2-dimensionnel)
- Dans l'espace 784D (images de chiffres MNIST), la limite est un hyperplan à 783 dimensions
Le modèle général: dans un espace à N dimensions, la limite de décision est une surface plate (N-1)-dimensionnelle appelée un hyperplan.
La régression logistique, les machines à vecteurs de support & les perceptrons à couche simple sont tous des chercheurs d'hyperplans. Ils diffèrent dans la FAÇON dont ils trouvent le meilleur hyperplan:
- La régression logistique maximise la probabilité de classification correcte
- Les SVMs maximisent la marge géométrique — la distance entre l'hyperplan & les points de données les plus proches
- Les perceptrons trouvent simplement tout hyperplan qui sépare les données, sans garantie d'optimalité
Le vecteur de poids d'un classificateur linéaire EST le vecteur normal à l'hyperplan. Le terme de biais décale l'hyperplan loin de l'origine. Ce sont des objets géométriques avec des interprétations géométriques.
Au-delà des Limites Plates
Quand les Données Sont Non Séparable Linéairement
Beaucoup de problèmes du monde réel ne peuvent pas être résolus avec une limite plate. Considérez la classification d'images de chats vs chiens — aucun hyperplan simple dans l'espace des pixels ne les sépare proprement.
Deux stratégies géométriques existent:
Stratégie 1: L'astuce du kernel — Transformez les données dans un espace de dimension supérieure où elles SONT linéairement séparables. Un exemple classique: points à l'intérieur d'un cercle (classe A) & points à l'extérieur (classe B) en 2D. Aucune ligne ne les sépare. Mais ajoutez une troisième dimension z = x² + y², & les points intérieurs (petit x² + y²) s'assoient bas tandis que les points extérieurs (grand x² + y²) s'assoient haut. Maintenant, un plan plat les sépare parfaitement.
Les SVMs avec des fonctions kernel le font implicitement — ils calculent les produits scalaires dans l'espace de dimension supérieure sans jamais construire les vecteurs réels de dimension supérieure. C'est ce qu'on appelle « l'astuce du kernel » & c'est un insight purement géométrique.
Stratégie 2: Réseaux de neurones — Empilez les transformations linéaires avec les fonctions d'activation non-linéaires. Chaque couche applique une transformation linéaire (multiplication matricielle = rotation + mise à l'échelle + cisaillement) suivie d'une « courbure » non-linéaire (ReLU, sigmoïde, tanh). La composition de nombreuses opérations linéaire-puis-courbure peut approximer tout forme de limite continue.
Un réseau de neurones profond est une séquence de transformations géométriques qui déforme l'espace d'entrée jusqu'à ce que les classes deviennent séparable linéairement dans la couche finale.
Séparer les Données Circulaires
C'est l'un des problèmes géométriques les plus importants en apprentissage automatique.
La Surface de Perte
L'Entraînement = Marcher en Descente sur une Surface
Chaque modèle d'apprentissage automatique a des paramètres — poids & biais. La fonction de perte mesure combien les prédictions du modèle sont fausses. Ensemble, ils définissent une surface de perte: un paysage où chaque point correspond à un ensemble spécifique de valeurs de paramètres, & la hauteur est la perte.
Pour un modèle avec 2 paramètres, la surface de perte est un paysage 3D que vous pouvez visualiser — collines, vallées & plaines. Pour un modèle avec 175 milliards de paramètres (comme GPT-3), la surface de perte existe dans un espace à 175 milliards de dimensions. Les mathématiques sont identiques.
La descente de gradient est l'algorithme qui navigue cette surface. Le gradient est un objet géométrique — un vecteur qui pointe dans la direction de la montée la plus raide. Pour réduire la perte, déplacez-vous dans la direction opposée: le gradient négatif. C'est littéralement marcher en descente.
Le taux d'apprentissage contrôle la taille des pas. Trop grand & vous dépassez les vallées. Trop petit & vous rampez. Le gradient vous dit la direction; le taux d'apprentissage vous dit à quelle distance marcher.
Points-Selle, Minima & la Géométrie des Dimensions Élevées
La Surface de Perte N'est Pas un Bol Simple
Une image naïve de l'entraînement imagine un bol lisse avec un seul point le plus bas. La réalité est beaucoup plus complexe:
Minima locaux — des vallées qui ne sont pas les plus profondes. La descente de gradient peut rester bloquée ici, satisfaite que chaque direction monte, même si une vallée plus profonde existe ailleurs.
Points-selle — façonnés comme une selle de cheval. La perte se courbe vers le bas dans certaines dimensions & vers le haut dans d'autres. En 2D c'est rare. Dans les dimensions élevées, les points-selle sont exponentiellement plus communs que les minima locaux. Un point critique dans un espace de 1000 dimensions doit se courber vers le haut dans LES 1000 dimensions pour être un minimum local. Si même une dimension se courbe vers le bas, c'est un point-selle.
Plateaux plats — des régions où le gradient est proche de zéro. L'entraînement stagne car il n'y a pas de pente à suivre.
Minima aigus vs plats — un minimum aigu est une vallée étroite. Un minimum plat est une vallée large. La recherche suggère que les minima plats généralisent mieux aux données non vues, car les petites perturbations des paramètres (du bruit dans les nouvelles données) ne changent pas dramatiquement la perte.
SGD avec momentum aide à s'échapper des points-selle & des minima aigus. La nature aléatoire de la descente de gradient stochastique agit comme secouer une balle sur la surface — elle rebondit hors des pièges étroits & trouve des vallées plus larges & plus plates.
SGD vs Descente de Gradient Batch Complet
C'est l'un des insights pratiques les plus importants dans l'entraînement d'apprentissage automatique.
Les Mots comme Vecteurs — Arithmétique Sémantique
Le Sens a une Direction
Word2Vec, GloVe & les intégrations modernes basées sur les transformateurs mappent les tokens discrets (mots, sous-mots) à des espaces vectoriels continus. Le résultat est un monde géométrique où le sens a des coordonnées.
L'exemple célèbre: roi - homme + femme ≈ reine
C'est de l'arithmétique vectorielle. Le vecteur de « homme » à « roi » représente le concept « royauté appliquée à un mâle ». Le vecteur de « femme » à « reine » représente « royauté appliquée à une femelle ». Ces vecteurs sont approximativement parallèles — même direction, même relation, points de départ différents.
D'autres relations géométriques qui émergent de l'entraînement sur du texte:
- Paris - France + Italie ≈ Rome (relation capitale-de)
- a marché - marcher + nager ≈ a nagé (transformation temps passé)
- plus gros - gros + petit ≈ plus petit (forme comparative)
Personne n'a programmé ces relations. Le modèle a découvert que le sens a une structure géométrique en lisant des milliards de mots. Les directions dans l'espace d'intégration correspondent aux relations sémantiques. C'est l'une des découvertes géométriques les plus profonde en apprentissage automatique.
L'Hypothèse de la Variété
Les Données de Dimension Élevée Vivent sur des Surfaces de Dimension Inférieure
Une image de visage 64×64 en nuances de gris a 4 096 valeurs de pixels — c'est un point dans un espace à 4 096 dimensions. Mais pas chaque point dans cet espace est un visage valide. La plupart des vecteurs 4 096-dimensionnels aléatoires ressemblent à du bruit statique, pas à des visages.
L'hypothèse de la variété stipule que les données du monde réel, de dimension élevée, vivent réellement sur ou près de surfaces courbes de dimension inférieure (variétés) intégrées dans l'espace de dimension élevée. La variété des visages pourrait être seulement de 50 dimensions — paramétrées par des facteurs comme l'angle d'éclairage, la pose de la tête, l'expression, la teinte de peau, l'âge.
C'est une affirmation géométrique avec des conséquences pratiques:
- La réduction de dimensionnalité (ACP, t-SNE, UMAP) fonctionne parce que les données sont approximativement de basse dimension. Ces algorithmes trouvent la variété & projettent sur elle.
- Les autoencodeurs apprennent à compresser les données dans un espace latent de basse dimension (la variété) & à reconstruire à partir d'elle.
- Les modèles génératifs (VAEs, modèles de diffusion) apprennent la variété & échantillonnent de nouveaux points sur elle — générant de nouveaux visages, de la nouvelle musique, du nouveau texte qui semble réel car il se trouve sur la variété apprise.
Quand votre modèle ne généralise pas, une explication géométrique est: il a appris la mauvaise variété. Les données d'entraînement tracent une surface qui ne correspond pas à la vraie distribution des données.
Analogies Vectorielles
La structure géométrique des espaces d'intégration est l'un des résultats les plus surprenants de l'apprentissage automatique moderne.
Courbes ROC — Qualité de Classification comme Aire
Les Métriques d'Évaluation Vivent dans des Espaces Géométriques
Une courbe ROC (Caractéristique de Fonctionnement du Récepteur) trace le Taux de Vrais Positifs (axe y) par rapport au Taux de Faux Positifs (axe x) à mesure que vous balayez le seuil de classification de 0 à 1.
C'est un espace géométrique avec des repères significatifs:
- (0, 1) — le coin en haut à gauche — classification parfaite. Chaque positif détecté, zéro fausses alarmes.
- (0, 0) — le coin en bas à gauche — le modèle classe tout comme négatif.
- (1, 1) — le coin en haut à droite — le modèle classe tout comme positif.
- La diagonale de (0,0) à (1,1) — un classificateur aléatoire. À chaque seuil, il a des taux de vrais positifs & de faux positifs égaux.
AUC (Aire Sous la Courbe) est littéralement une mesure d'aire géométrique. AUC = 0,5 signifie que le modèle est aléatoire (l'aire sous la diagonale). AUC = 1,0 signifie une classification parfaite (tout le carré unité). Un bon modèle a sa courbe ROC qui s'incurve vers le coin en haut à gauche, enfermant plus d'aire.
L'AUC a une belle interprétation probabiliste: elle égale la probabilité que le modèle classe un exemple positif aléatoire plus haut qu'un exemple négatif aléatoire. Mais géométriquement, c'est juste une aire — & cette simplicité géométrique est ce qui la rend intuitive.
Espace Précision-Rappel
Un Tradeoff Géométrique Différent
Les courbes de précision-rappel vivent dans un espace géométrique différent des courbes ROC, & ils racontent une histoire différente.
Précision = de tout ce que le modèle a marqué comme positif, quelle fraction était réellement positive?
Rappel = de tous les positifs réels, quelle fraction le modèle a-t-il trouvé?
À mesure que vous abaissez le seuil de classification (marquez plus de choses comme positives), le rappel augmente (vous capturez plus de vrais positifs) mais la précision diminue généralement (vous capturez également plus de faux positifs). Ce tradeoff trace une courbe dans l'espace précision-rappel.
Score F1 = 2 × (précision × rappel) / (précision + rappel) — la moyenne harmonique. Géométriquement, le score F1 égale le point sur la courbe de précision-rappel où la précision égale le rappel. C'est là où la courbe intersecte la diagonale du carré de précision-rappel.
Précision Moyenne (AP) = l'aire sous la courbe de précision-rappel. Comme AUC-ROC, elle résume l'intégralité de la courbe en un seul nombre qui représente une aire géométrique.
Les courbes ROC & les courbes de précision-rappel sont des vues géométriques complémentaires du même modèle. Les courbes ROC peuvent être trompeusement optimistes sur les ensembles déséquilibrés (classe 99% négative). Les courbes de précision-rappel restent informatives car elles se concentrent sur la classe positive.
Interprétation AUC-ROC
Comprendre ce que mesure AUC-ROC géométriquement vous aide à choisir entre les modèles.
Transformers — Produits Scalaires comme Attention
L'Attention Est une Mesure de Similarité Géométrique
L'architecture des transformers — la fondation des modèles linguistiques modernes — est construite sur une opération géométrique: le produit scalaire.
Pour chaque token dans une séquence, le transformer calcule trois vecteurs: Requête (Q), Clé (K) & Valeur (V), chacun obtenu en multipliant l'intégration d'entrée par des matrices de poids apprises.
Le score d'attention entre deux tokens est: score = Q · K^T / √d
C'est un produit scalaire mis à l'échelle — une mesure de similarité géométrique. Quand Q & K pointent dans la même direction (petit angle entre eux), le produit scalaire est grand: cette clé est très pertinente pour cette requête. Quand ils sont perpendiculaires, le produit scalaire est zéro: non pertinent.
Les scores sont passés par softmax pour créer une distribution de probabilité: les poids d'attention qui somment à 1. La sortie est la somme pondérée des vecteurs Valeur, où les poids sont déterminés par l'alignement géométrique.
Dans une phrase comme « Le chat s'est assis sur le tapis parce qu'il était fatigué », l'attention calcule: pour le mot « il », quels autres mots ont l'alignement géométrique le plus proche? Si le vecteur Q pour « il » s'aligne plus étroitement avec le vecteur K pour « chat », le modèle attend « chat » — résolvant la référence pronominale par la géométrie.
Attention Multi-Têtes — Perspectives Géométriques Multiples
Pourquoi Plusieurs Têtes?
L'auto-attention avec un seul ensemble de matrices Q, K, V calcule un type d'alignement géométrique. Mais le langage a de nombreux types de relations — syntaxiques, sémantiques, positionnelles, référentielles.
L'attention multi-têtes utilise plusieurs ensembles de matrices de projection Q, K, V, chacune se projetant dans un sous-espace différent de l'intégration. Chaque tête mesure l'alignement dans son propre sous-espace géométrique.
Ce que les chercheurs observent quand ils inspectent les têtes d'attention:
- Tête 1 pourrait assister au mot précédent (proximité positionnelle)
- Tête 2 pourrait assister au verbe du sujet (dépendance syntaxique)
- Tête 3 pourrait assister aux mots sémantiquement liés plus tôt dans le contexte
- Tête 4 pourrait assister au nom le plus récent (coréférence)
Chaque tête est une lentille géométrique différente sur les mêmes données. Les projections font pivoter & mettent à l'échelle l'espace d'intégration différemment, rendant les différentes relations visibles par l'alignement.
C'est pourquoi les transformers surpassent les modèles avec un seul mécanisme d'attention. Un seul produit scalaire dans l'espace d'intégration complet capture une notion de similarité. Plusieurs produits scalaires dans des sous-espaces différents capturent plusieurs notions complémentaires simultanément.
Attention Multi-Têtes
L'attention multi-têtes est l'une des innovations architecturales clés du transformer.
L'Apprentissage Automatique Est de la Géométrie Appliquée
Le Fil Conducteur Unificateur
Regardez ce que nous avons couvert. Chaque concept majeur de l'apprentissage automatique a un cœur géométrique:
Données = points dans l'espace de dimension élevée
Caractéristiques = dimensions de cet espace
Similarité = distance ou angle entre les points
Classification = trouver des limites géométriques entre les classes
Entraînement = naviguer une surface de perte en suivant les gradients
Intégrations = systèmes de coordonnées appris où la géométrie encode le sens
Évaluation = aires sous les courbes dans les espaces de métriques
Attention = produits scalaires mesurant l'alignement angulaire
Ce n'est pas une coïncidence. L'apprentissage automatique a hérité de son cadre mathématique de l'algèbre linéaire & de la géométrie différentielle — des domaines qui portent fondamentalement sur l'espace, la forme & la transformation.
Comprendre la géométrie vous donne quelque chose que mémoriser les algorithmes ne peut pas: intuition. Quand votre modèle échoue, la vue géométrique suggère où chercher. Les classes ne sont-elles pas séparables? Regardez la limite. L'entraînement est-il bloqué? Examinez le paysage de perte. Les intégrations sont-elles mauvaises? Vérifiez si les éléments similaires sont géométriquement proches. L'attention est-elle diffuse? Inspectez les projections du sous-espace.
La géométrie est la même si vous travaillez avec 3 dimensions ou 3 milliards. Les mathématiques s'adaptent. L'intuition se transfère. C'est ce qui rend la géométrie le langage universel de l'apprentissage automatique.
Débogage Géométrique
Nous avons couvert les vecteurs, les distances, les limites, l'entraînement, les intégrations, l'évaluation & l'attention — tout par la lentille de la géométrie.