un — Géométrie en Informatique et Apprentissage Automatique

un

invité

1 / ?

retour aux leçons

Les Données Vivent dans l'Espace Géométrique

Tout est un Vecteur

Vecteurs d'Intégration de Mots — Similarité en tant que Direction

En apprentissage automatique, les données vivent dans l'espace géométrique. Chaque point de données ayant N caractéristiques est un point dans un espace à N dimensions. Ce n'est pas une métaphore — c'est le fondement mathématique littéral de chaque algorithme.

Une image de chiffre manuscrit (28×28 pixels) est un point dans un espace à 784 dimensions. Chaque pixel est une coordonnée. Deux chiffres ressemblant — sont des points voisins dans cet espace. Deux chiffres différents sont éloignés.

Un intégration de mots (word embedding) mappe un mot à un point dans un espace à 300 dimensions. Les mots ayant des significations similaires se retrouvent dans le même voisinage. « Chien » & « chiot » sont proches. « Chien » & « parlement » sont loin.

Un profil utilisateur avec 50 caractéristiques (âge, historique d'achat, modèles de clics) est un point dans un espace à 50 dimensions. Les moteurs de recommandation trouvent les utilisateurs « à proximité » dans cet espace & suggèrent ce que leurs voisins géométriques ont aimé.

La géométrie est comment nous raisonnons sur ces espaces. La distance, la direction, l'angle, la projection — ce sont les opérations fondamentales de l'apprentissage automatique.

Opérations Vectorielles — Les Éléments Fondamentaux

Le Produit Scalaire Alimente Tout

Trois opérations vectorielles importent le plus en apprentissage automatique:

Addition vectorielle — combinaison de caractéristiques ou de signaux. Si vous additionnez deux vecteurs de mots, vous obtenez un vecteur représentant les deux concepts mélangés ensemble.

Multiplication scalaire — mettre à l'échelle un vecteur change sa magnitude sans changer sa direction. Les taux d'apprentissage en descente de gradient sont des multiplicateurs scalaires.

Produit scalaire — c'est la bête de somme. Le produit scalaire de deux vecteurs a & b égale |a||b|cos(θ), où θ est l'angle entre eux. Quand les vecteurs sont normalisés (longueur unitaire), le produit scalaire EST le cosinus de l'angle.

Similarité Cosinus = cos(θ) = (a·b) / (|a||b|)

Cette seule formule alimente:

- Moteurs de recherche — trouver les documents similaires à une requête

- Mécanismes d'attention — décider quels tokens importent les uns pour les autres

- Moteurs de recommandation — correspondre les profils utilisateurs aux profils d'éléments

- Génération augmentée par récupération — trouver le contexte pertinent pour les modèles linguistiques

cos(θ) = 1 signifie que les vecteurs pointent exactement dans la même direction (signification identique). cos(θ) = 0 signifie qu'ils sont perpendiculaires (non liés). cos(θ) = -1 signifie qu'ils pointent dans des directions opposées (signification opposée).

Similarité Cosinus

La similarité cosinus est l'une des métriques les plus utilisées dans les systèmes d'apprentissage automatique modernes.

Deux vecteurs d'intégration de mots ont une similarité cosinus de 0,95. Une autre paire a une similarité cosinus de 0,12. Que chaque nombre vous dit-il sur la relation entre les mots dans chaque paire?

Trois Façons de Mesurer la Distance

Le Choix de la Métrique de Distance Change ce que « Similaire » Signifie

Trois Métriques de Distance — Même Points, Significations Différentes

Étant donné deux points dans l'espace, il y a plusieurs façons de mesurer la « distance » entre eux. Chaque métrique définit une géométrie différente, & cette géométrie détermine ce que votre modèle considère « similaire ».

Distance euclidienne (L2) — la distance en ligne droite. d = √(Σ(aᵢ - bᵢ)²). C'est la distance « à vol d'oiseau », celle à laquelle votre intuition s'attend. Elle traite toutes les dimensions de manière égale & est sensible à la magnitude.

Distance de Manhattan (L1) — la distance de marche en grille. d = Σ|aᵢ - bᵢ|. Comme naviguer dans les pâtés de maisons — vous ne pouvez vous déplacer que le long des axes, jamais en diagonale. Plus robuste aux valeurs aberrantes dans les dimensions uniques car elle ne met pas au carré les différences.

Distance cosinus — mesure l'angle entre les vecteurs, ignorant complètement la magnitude. d = 1 - cos(θ). Deux documents sur le même sujet ont une petite distance cosinus indépendamment de la longueur. Deux documents de longueur égale sur des sujets différents ont une grande distance cosinus.

Le choix n'est pas arbitraire. Si la magnitude importa (dose d'un médicament, température d'un réacteur), utilisez la distance euclidienne. Si vous vous souciez des proportions plutôt que des absolus (distributions de fréquences de mots, profils de préférences utilisateurs), utilisez la distance cosinus. Si les différences de caractéristiques individuelles importent plus que la magnitude agrégée (diagnostic de pannes, où un capteur qui monte en flèche est significatif), utilisez Manhattan.

K-Plus Proches Voisins — Géométrie Pure

KNN: L'Algorithme Géométrique le Plus Simple

K-Plus Proches Voisins est l'algorithme géométrique le plus transparent du machine learning. Il n'a pas de phase d'entraînement — il EST les données d'entraînement.

Pour classer un nouveau point: trouvez les K points les plus proches dans les données d'entraînement. Laissez-les voter. La classe majoritaire gagne. C'est tout l'algorithme.

La limite de décision que KNN produit est un diagramme de Voronoï — une partition de l'espace où chaque point appartient à la région de son exemple d'entraînement le plus proche. Les limites sont les bisectrices perpendiculaires entre les points d'entraînement adjacents.

Voici l'insight géométrique qui importe: le choix de la métrique de distance change complètement le diagramme de Voronoï. La distance euclidienne produit des limites courbes & circulaires. La distance de Manhattan produit des limites en forme de diamant. La distance cosinus produit des limites angulaires en forme de cône.

Même données d'entraînement. Même K. Métrique de distance différente. Modèle complètement différent. La géométrie EST le modèle.

Choisir une Métrique de Distance

Les métriques de distance ne sont pas interchangeables — le bon choix dépend de ce que « similaire » signifie pour vos données.

Pourquoi pourriez-vous utiliser la distance cosinus au lieu de la distance euclidienne lors de la comparaison de documents? Pensez à ce qui se passe quand deux documents discutent du même sujet mais que l'un est beaucoup plus long.

Hyperplans — Limites Plates dans les Dimensions Élevées

Chaque Classificateur Linéaire Trouve un Hyperplan

Limites de Décision — Linéaire, Non-linéaire & l'Astuce du Kernel

Un classificateur linéaire trouve une surface plate qui sépare deux classes. La dimensionnalité de cette surface dépend de l'espace:

- Dans l'espace 2D, la limite est une ligne (1-dimensionnelle)

- Dans l'espace 3D, la limite est un plan (2-dimensionnel)

- Dans l'espace 784D (images de chiffres MNIST), la limite est un hyperplan à 783 dimensions

Le modèle général: dans un espace à N dimensions, la limite de décision est une surface plate (N-1)-dimensionnelle appelée un hyperplan.

La régression logistique, les machines à vecteurs de support & les perceptrons à couche simple sont tous des chercheurs d'hyperplans. Ils diffèrent dans la FAÇON dont ils trouvent le meilleur hyperplan:

- La régression logistique maximise la probabilité de classification correcte

- Les SVMs maximisent la marge géométrique — la distance entre l'hyperplan & les points de données les plus proches

- Les perceptrons trouvent simplement tout hyperplan qui sépare les données, sans garantie d'optimalité

Le vecteur de poids d'un classificateur linéaire EST le vecteur normal à l'hyperplan. Le terme de biais décale l'hyperplan loin de l'origine. Ce sont des objets géométriques avec des interprétations géométriques.

Au-delà des Limites Plates

Quand les Données Sont Non Séparable Linéairement

Beaucoup de problèmes du monde réel ne peuvent pas être résolus avec une limite plate. Considérez la classification d'images de chats vs chiens — aucun hyperplan simple dans l'espace des pixels ne les sépare proprement.

Deux stratégies géométriques existent:

Stratégie 1: L'astuce du kernel — Transformez les données dans un espace de dimension supérieure où elles SONT linéairement séparables. Un exemple classique: points à l'intérieur d'un cercle (classe A) & points à l'extérieur (classe B) en 2D. Aucune ligne ne les sépare. Mais ajoutez une troisième dimension z = x² + y², & les points intérieurs (petit x² + y²) s'assoient bas tandis que les points extérieurs (grand x² + y²) s'assoient haut. Maintenant, un plan plat les sépare parfaitement.

Les SVMs avec des fonctions kernel le font implicitement — ils calculent les produits scalaires dans l'espace de dimension supérieure sans jamais construire les vecteurs réels de dimension supérieure. C'est ce qu'on appelle « l'astuce du kernel » & c'est un insight purement géométrique.

Stratégie 2: Réseaux de neurones — Empilez les transformations linéaires avec les fonctions d'activation non-linéaires. Chaque couche applique une transformation linéaire (multiplication matricielle = rotation + mise à l'échelle + cisaillement) suivie d'une « courbure » non-linéaire (ReLU, sigmoïde, tanh). La composition de nombreuses opérations linéaire-puis-courbure peut approximer tout forme de limite continue.

Un réseau de neurones profond est une séquence de transformations géométriques qui déforme l'espace d'entrée jusqu'à ce que les classes deviennent séparable linéairement dans la couche finale.

Séparer les Données Circulaires

C'est l'un des problèmes géométriques les plus importants en apprentissage automatique.

En 2D, vous avez des points rouges à l'intérieur d'un cercle & des points bleus à l'extérieur. Une ligne droite ne peut pas les séparer. Décrivez deux stratégies géométriques pour résoudre cela.

La Surface de Perte

L'Entraînement = Marcher en Descente sur une Surface

Paysage de Perte — Naviguer la Surface

Chaque modèle d'apprentissage automatique a des paramètres — poids & biais. La fonction de perte mesure combien les prédictions du modèle sont fausses. Ensemble, ils définissent une surface de perte: un paysage où chaque point correspond à un ensemble spécifique de valeurs de paramètres, & la hauteur est la perte.

Pour un modèle avec 2 paramètres, la surface de perte est un paysage 3D que vous pouvez visualiser — collines, vallées & plaines. Pour un modèle avec 175 milliards de paramètres (comme GPT-3), la surface de perte existe dans un espace à 175 milliards de dimensions. Les mathématiques sont identiques.

La descente de gradient est l'algorithme qui navigue cette surface. Le gradient est un objet géométrique — un vecteur qui pointe dans la direction de la montée la plus raide. Pour réduire la perte, déplacez-vous dans la direction opposée: le gradient négatif. C'est littéralement marcher en descente.

Le taux d'apprentissage contrôle la taille des pas. Trop grand & vous dépassez les vallées. Trop petit & vous rampez. Le gradient vous dit la direction; le taux d'apprentissage vous dit à quelle distance marcher.

Points-Selle, Minima & la Géométrie des Dimensions Élevées

La Surface de Perte N'est Pas un Bol Simple

Une image naïve de l'entraînement imagine un bol lisse avec un seul point le plus bas. La réalité est beaucoup plus complexe:

Minima locaux — des vallées qui ne sont pas les plus profondes. La descente de gradient peut rester bloquée ici, satisfaite que chaque direction monte, même si une vallée plus profonde existe ailleurs.

Points-selle — façonnés comme une selle de cheval. La perte se courbe vers le bas dans certaines dimensions & vers le haut dans d'autres. En 2D c'est rare. Dans les dimensions élevées, les points-selle sont exponentiellement plus communs que les minima locaux. Un point critique dans un espace de 1000 dimensions doit se courber vers le haut dans LES 1000 dimensions pour être un minimum local. Si même une dimension se courbe vers le bas, c'est un point-selle.

Plateaux plats — des régions où le gradient est proche de zéro. L'entraînement stagne car il n'y a pas de pente à suivre.

Minima aigus vs plats — un minimum aigu est une vallée étroite. Un minimum plat est une vallée large. La recherche suggère que les minima plats généralisent mieux aux données non vues, car les petites perturbations des paramètres (du bruit dans les nouvelles données) ne changent pas dramatiquement la perte.

SGD avec momentum aide à s'échapper des points-selle & des minima aigus. La nature aléatoire de la descente de gradient stochastique agit comme secouer une balle sur la surface — elle rebondit hors des pièges étroits & trouve des vallées plus larges & plus plates.

SGD vs Descente de Gradient Batch Complet

C'est l'un des insights pratiques les plus importants dans l'entraînement d'apprentissage automatique.

Pourquoi la descente de gradient stochastique (SGD) trouve-t-elle souvent de meilleures solutions que la descente de gradient batch complet, d'une perspective géométrique?

Les Mots comme Vecteurs — Arithmétique Sémantique

Le Sens a une Direction

Espace d'Intégration de Mots — Géométrie Sémantique

Word2Vec, GloVe & les intégrations modernes basées sur les transformateurs mappent les tokens discrets (mots, sous-mots) à des espaces vectoriels continus. Le résultat est un monde géométrique où le sens a des coordonnées.

L'exemple célèbre: roi - homme + femme ≈ reine

C'est de l'arithmétique vectorielle. Le vecteur de « homme » à « roi » représente le concept « royauté appliquée à un mâle ». Le vecteur de « femme » à « reine » représente « royauté appliquée à une femelle ». Ces vecteurs sont approximativement parallèles — même direction, même relation, points de départ différents.

D'autres relations géométriques qui émergent de l'entraînement sur du texte:

- Paris - France + Italie ≈ Rome (relation capitale-de)

- a marché - marcher + nager ≈ a nagé (transformation temps passé)

- plus gros - gros + petit ≈ plus petit (forme comparative)

Personne n'a programmé ces relations. Le modèle a découvert que le sens a une structure géométrique en lisant des milliards de mots. Les directions dans l'espace d'intégration correspondent aux relations sémantiques. C'est l'une des découvertes géométriques les plus profonde en apprentissage automatique.

L'Hypothèse de la Variété

Les Données de Dimension Élevée Vivent sur des Surfaces de Dimension Inférieure

Une image de visage 64×64 en nuances de gris a 4 096 valeurs de pixels — c'est un point dans un espace à 4 096 dimensions. Mais pas chaque point dans cet espace est un visage valide. La plupart des vecteurs 4 096-dimensionnels aléatoires ressemblent à du bruit statique, pas à des visages.

L'hypothèse de la variété stipule que les données du monde réel, de dimension élevée, vivent réellement sur ou près de surfaces courbes de dimension inférieure (variétés) intégrées dans l'espace de dimension élevée. La variété des visages pourrait être seulement de 50 dimensions — paramétrées par des facteurs comme l'angle d'éclairage, la pose de la tête, l'expression, la teinte de peau, l'âge.

C'est une affirmation géométrique avec des conséquences pratiques:

- La réduction de dimensionnalité (ACP, t-SNE, UMAP) fonctionne parce que les données sont approximativement de basse dimension. Ces algorithmes trouvent la variété & projettent sur elle.

- Les autoencodeurs apprennent à compresser les données dans un espace latent de basse dimension (la variété) & à reconstruire à partir d'elle.

- Les modèles génératifs (VAEs, modèles de diffusion) apprennent la variété & échantillonnent de nouveaux points sur elle — générant de nouveaux visages, de la nouvelle musique, du nouveau texte qui semble réel car il se trouve sur la variété apprise.

Quand votre modèle ne généralise pas, une explication géométrique est: il a appris la mauvaise variété. Les données d'entraînement tracent une surface qui ne correspond pas à la vraie distribution des données.

Analogies Vectorielles

La structure géométrique des espaces d'intégration est l'un des résultats les plus surprenants de l'apprentissage automatique moderne.

Si les intégrations de mots capturent le sens géométriquement, que cela signifie-t-il quand nous disons que le vecteur de « homme » à « roi » est approximativement parallèle au vecteur de « femme » à « reine »? Quel concept géométrique est à l'œuvre?

Courbes ROC — Qualité de Classification comme Aire

Les Métriques d'Évaluation Vivent dans des Espaces Géométriques

Espace ROC — Qualité de Classification comme Géométrie

Une courbe ROC (Caractéristique de Fonctionnement du Récepteur) trace le Taux de Vrais Positifs (axe y) par rapport au Taux de Faux Positifs (axe x) à mesure que vous balayez le seuil de classification de 0 à 1.

C'est un espace géométrique avec des repères significatifs:

- (0, 1) — le coin en haut à gauche — classification parfaite. Chaque positif détecté, zéro fausses alarmes.

- (0, 0) — le coin en bas à gauche — le modèle classe tout comme négatif.

- (1, 1) — le coin en haut à droite — le modèle classe tout comme positif.

- La diagonale de (0,0) à (1,1) — un classificateur aléatoire. À chaque seuil, il a des taux de vrais positifs & de faux positifs égaux.

AUC (Aire Sous la Courbe) est littéralement une mesure d'aire géométrique. AUC = 0,5 signifie que le modèle est aléatoire (l'aire sous la diagonale). AUC = 1,0 signifie une classification parfaite (tout le carré unité). Un bon modèle a sa courbe ROC qui s'incurve vers le coin en haut à gauche, enfermant plus d'aire.

L'AUC a une belle interprétation probabiliste: elle égale la probabilité que le modèle classe un exemple positif aléatoire plus haut qu'un exemple négatif aléatoire. Mais géométriquement, c'est juste une aire — & cette simplicité géométrique est ce qui la rend intuitive.

Espace Précision-Rappel

Un Tradeoff Géométrique Différent

Les courbes de précision-rappel vivent dans un espace géométrique différent des courbes ROC, & ils racontent une histoire différente.

Précision = de tout ce que le modèle a marqué comme positif, quelle fraction était réellement positive?

Rappel = de tous les positifs réels, quelle fraction le modèle a-t-il trouvé?

À mesure que vous abaissez le seuil de classification (marquez plus de choses comme positives), le rappel augmente (vous capturez plus de vrais positifs) mais la précision diminue généralement (vous capturez également plus de faux positifs). Ce tradeoff trace une courbe dans l'espace précision-rappel.

Score F1 = 2 × (précision × rappel) / (précision + rappel) — la moyenne harmonique. Géométriquement, le score F1 égale le point sur la courbe de précision-rappel où la précision égale le rappel. C'est là où la courbe intersecte la diagonale du carré de précision-rappel.

Précision Moyenne (AP) = l'aire sous la courbe de précision-rappel. Comme AUC-ROC, elle résume l'intégralité de la courbe en un seul nombre qui représente une aire géométrique.

Les courbes ROC & les courbes de précision-rappel sont des vues géométriques complémentaires du même modèle. Les courbes ROC peuvent être trompeusement optimistes sur les ensembles déséquilibrés (classe 99% négative). Les courbes de précision-rappel restent informatives car elles se concentrent sur la classe positive.

Interprétation AUC-ROC

Comprendre ce que mesure AUC-ROC géométriquement vous aide à choisir entre les modèles.

Deux modèles ont la même précision (85%). Le modèle A a une AUC-ROC de 0,92. Le modèle B a une AUC-ROC de 0,78. Pourquoi préféreriez-vous le modèle A? Que vous dit la différence géométrique dans leurs courbes ROC?

Transformers — Produits Scalaires comme Attention

L'Attention Est une Mesure de Similarité Géométrique

Attention = Alignement Géométrique Entre Requête & Clés

L'architecture des transformers — la fondation des modèles linguistiques modernes — est construite sur une opération géométrique: le produit scalaire.

Pour chaque token dans une séquence, le transformer calcule trois vecteurs: Requête (Q), Clé (K) & Valeur (V), chacun obtenu en multipliant l'intégration d'entrée par des matrices de poids apprises.

Le score d'attention entre deux tokens est: score = Q · K^T / √d

C'est un produit scalaire mis à l'échelle — une mesure de similarité géométrique. Quand Q & K pointent dans la même direction (petit angle entre eux), le produit scalaire est grand: cette clé est très pertinente pour cette requête. Quand ils sont perpendiculaires, le produit scalaire est zéro: non pertinent.

Les scores sont passés par softmax pour créer une distribution de probabilité: les poids d'attention qui somment à 1. La sortie est la somme pondérée des vecteurs Valeur, où les poids sont déterminés par l'alignement géométrique.

Dans une phrase comme « Le chat s'est assis sur le tapis parce qu'il était fatigué », l'attention calcule: pour le mot « il », quels autres mots ont l'alignement géométrique le plus proche? Si le vecteur Q pour « il » s'aligne plus étroitement avec le vecteur K pour « chat », le modèle attend « chat » — résolvant la référence pronominale par la géométrie.

Attention Multi-Têtes — Perspectives Géométriques Multiples

Pourquoi Plusieurs Têtes?

L'auto-attention avec un seul ensemble de matrices Q, K, V calcule un type d'alignement géométrique. Mais le langage a de nombreux types de relations — syntaxiques, sémantiques, positionnelles, référentielles.

L'attention multi-têtes utilise plusieurs ensembles de matrices de projection Q, K, V, chacune se projetant dans un sous-espace différent de l'intégration. Chaque tête mesure l'alignement dans son propre sous-espace géométrique.

Ce que les chercheurs observent quand ils inspectent les têtes d'attention:

- Tête 1 pourrait assister au mot précédent (proximité positionnelle)

- Tête 2 pourrait assister au verbe du sujet (dépendance syntaxique)

- Tête 3 pourrait assister aux mots sémantiquement liés plus tôt dans le contexte

- Tête 4 pourrait assister au nom le plus récent (coréférence)

Chaque tête est une lentille géométrique différente sur les mêmes données. Les projections font pivoter & mettent à l'échelle l'espace d'intégration différemment, rendant les différentes relations visibles par l'alignement.

C'est pourquoi les transformers surpassent les modèles avec un seul mécanisme d'attention. Un seul produit scalaire dans l'espace d'intégration complet capture une notion de similarité. Plusieurs produits scalaires dans des sous-espaces différents capturent plusieurs notions complémentaires simultanément.

Attention Multi-Têtes

L'attention multi-têtes est l'une des innovations architecturales clés du transformer.

Dans un transformer, pourquoi l'utilisation de plusieurs têtes d'attention aide-t-elle par rapport à une seule tête? Répondez en termes de sous-espaces géométriques.

L'Apprentissage Automatique Est de la Géométrie Appliquée

Le Fil Conducteur Unificateur

Regardez ce que nous avons couvert. Chaque concept majeur de l'apprentissage automatique a un cœur géométrique:

Données = points dans l'espace de dimension élevée

Caractéristiques = dimensions de cet espace

Similarité = distance ou angle entre les points

Classification = trouver des limites géométriques entre les classes

Entraînement = naviguer une surface de perte en suivant les gradients

Intégrations = systèmes de coordonnées appris où la géométrie encode le sens

Évaluation = aires sous les courbes dans les espaces de métriques

Attention = produits scalaires mesurant l'alignement angulaire

Ce n'est pas une coïncidence. L'apprentissage automatique a hérité de son cadre mathématique de l'algèbre linéaire & de la géométrie différentielle — des domaines qui portent fondamentalement sur l'espace, la forme & la transformation.

Comprendre la géométrie vous donne quelque chose que mémoriser les algorithmes ne peut pas: intuition. Quand votre modèle échoue, la vue géométrique suggère où chercher. Les classes ne sont-elles pas séparables? Regardez la limite. L'entraînement est-il bloqué? Examinez le paysage de perte. Les intégrations sont-elles mauvaises? Vérifiez si les éléments similaires sont géométriquement proches. L'attention est-elle diffuse? Inspectez les projections du sous-espace.

La géométrie est la même si vous travaillez avec 3 dimensions ou 3 milliards. Les mathématiques s'adaptent. L'intuition se transfère. C'est ce qui rend la géométrie le langage universel de l'apprentissage automatique.

Débogage Géométrique

Nous avons couvert les vecteurs, les distances, les limites, l'entraînement, les intégrations, l'évaluation & l'attention — tout par la lentille de la géométrie.

Choisissez un concept de cette leçon & expliquez comment la compréhension de sa nature géométrique change COMMENT vous débogueriez ou amélioreriez un modèle qui l'utilise. Soyez spécifique.