Dados Vivem em Espaço Geométrico
Tudo É um Vetor
Em aprendizado de máquina, dados vivem em espaço geométrico. Cada ponto de dados com N características é um ponto em espaço N-dimensional. Isto não é uma metáfora — é a base matemática literal de cada algoritmo.
Uma imagem de dígito manuscrito (28×28 pixels) é um ponto em espaço 784-dimensional. Cada pixel é uma coordenada. Dois dígitos parecidos são pontos próximos naquele espaço. Dois dígitos diferentes estão longe.
Um embedding de palavra mapeia uma palavra para um ponto em espaço 300-dimensional. Palavras com significados semelhantes terminam na mesma vizinhança. 'Cachorro' & 'filhote' estão próximos. 'Cachorro' & 'parlamento' estão longe.
Um perfil de usuário com 50 características (idade, histórico de compras, padrões de clique) é um ponto em espaço 50-dimensional. Motores de recomendação encontram usuários que estão 'próximos' neste espaço & sugerem o que seus vizinhos geométricos apreciaram.
Geometria é como raciocínamos sobre estes espaços. Distância, direção, ângulo, projeção — estas são as operações fundamentais do aprendizado de máquina.
Operações Vetoriais — Os Blocos de Construção
O Produto Escalar Alimenta Tudo
Três operações vetoriais importam mais em aprendizado de máquina:
Adição de vetores — combinando características ou sinais. Se você adiciona dois vetores de palavras, obtém um vetor representando ambos os conceitos misturados.
Multiplicação escalar — escalar um vetor muda sua magnitude sem mudar sua direção. Taxas de aprendizado em descida de gradiente são multiplicadores escalares.
Produto escalar — este é o trabalhador. O produto escalar de dois vetores a & b equals |a||b|cos(θ), onde θ é o ângulo entre eles. Quando os vetores são normalizados (comprimento unitário), o produto escalar É o cosseno do ângulo.
Similaridade de cosseno = cos(θ) = (a·b) / (|a||b|)
Esta fórmula única alimenta:
- Motores de busca — encontrando documentos similares a uma consulta
- Mecanismos de atenção — decidindo quais tokens importam um para o outro
- Motores de recomendação — combinando perfis de usuários com perfis de itens
- Geração aumentada por recuperação — encontrando contexto relevante para modelos de linguagem
cos(θ) = 1 significa que os vetores apontam na mesma direção (significado idêntico). cos(θ) = 0 significa que são perpendiculares (não relacionados). cos(θ) = -1 significa que apontam em direções opostas (significado oposto).
Similaridade de Cosseno
Similaridade de cosseno é uma das métricas mais usadas em sistemas modernos de aprendizado de máquina.
Três Maneiras de Medir Distância
A Escolha da Métrica de Distância Muda o Que Significa 'Semelhante'
Dados dois pontos no espaço, existem muitas maneiras de medir a 'distância' entre eles. Cada métrica define uma geometria diferente, & aquela geometria determina o que seu modelo considera 'semelhante.'
Distância Euclidiana (L2) — a distância em linha reta. d = √(Σ(aᵢ - bᵢ)²). Esta é a distância 'como o corvo voa', a que sua intuição espera. Trata todas as dimensões igualmente & é sensível à magnitude.
Distância Manhattan (L1) — a distância de caminhada em grade. d = Σ|aᵢ - bᵢ|. Como navegar em blocos de cidade — você só pode se mover ao longo dos eixos, nunca na diagonal. Mais robusta a outliers em dimensões únicas porque não eleva ao quadrado as diferenças.
Distância de cosseno — mede o ângulo entre vetores, ignorando completamente a magnitude. d = 1 - cos(θ). Dois documentos sobre o mesmo tópico têm pequena distância de cosseno independentemente do comprimento. Dois documentos igualmente longos sobre diferentes tópicos têm grande distância de cosseno.
A escolha não é arbitrária. Se a magnitude importa (dosagem de um medicamento, temperatura de um reator), use Euclidiana. Se você se importa com proporções em vez de absolutos (distribuições de frequência de palavras, perfis de preferência de usuários), use cosseno. Se diferenças de características individuais importam mais que a magnitude agregada (diagnóstico de falhas, onde um sensor disparando é significativo), use Manhattan.
K-Vizinhos Mais Próximos — Geometria Pura
KNN: O Algoritmo Geométrico Mais Simples
K-Vizinhos Mais Próximos é o algoritmo geométrico mais transparente em aprendizado de máquina. Ele não tem uma fase de treinamento — ELE É os dados de treinamento.
Para classificar um novo ponto: encontre os K pontos mais próximos nos dados de treinamento. Deixe-os votar. A classe majoritária vence. Esse é o algoritmo inteiro.
O limite de decisão que KNN produz é um diagrama de Voronoi — uma partição do espaço onde cada ponto pertence à região de seu exemplo de treinamento mais próximo. Os limites são os bissetores perpendiculares entre pontos de treinamento adjacentes.
Aqui está a visão geométrica que importa: a escolha da métrica de distância completamente muda o diagrama de Voronoi. Distância Euclidiana produz limites curvos e circulares. Distância Manhattan produz limites em forma de diamante. Distância de cosseno produz limites angulares em forma de cone.
Mesmos dados de treinamento. Mesmo K. Métrica de distância diferente. Modelo completamente diferente. A geometria É o modelo.
Escolhendo uma Métrica de Distância
Métricas de distância não são intercambiáveis — a escolha correta depende do que 'semelhante' significa para seus dados.
Hiperplanos — Limites Planos em Altas Dimensões
Cada Classificador Linear Encontra um Hiperplano
Um classificador linear encontra uma superfície plana que separa duas classes. A dimensionalidade desta superfície depende do espaço:
- Em espaço 2D, o limite é uma linha (1-dimensional)
- Em espaço 3D, o limite é um plano (2-dimensional)
- Em espaço 784D (imagens de dígitos MNIST), o limite é um hiperplano 783-dimensional
O padrão geral: em espaço N-dimensional, o limite de decisão é uma superfície plana (N-1)-dimensional chamada hiperplano.
Regressão logística, máquinas de vetor de suporte & perceptrons de uma camada são todos buscadores de hiperplano. Eles diferem em COMO encontram o melhor hiperplano:
- Regressão logística maximiza a probabilidade de classificação correta
- SVMs maximizam a margem geométrica — a distância do hiperplano aos pontos de dados mais próximos
- Perceptrons simplesmente encontram qualquer hiperplano que separa os dados, sem garantia de otimalidade
O vetor de peso de um classificador linear É o vetor normal ao hiperplano. O termo de viés desloca o hiperplano longe da origem. Estes são objetos geométricos com interpretações geométricas.
Além dos Limites Planos
Quando Dados Não São Linearmente Separáveis
Muitos problemas do mundo real não podem ser resolvidos com um limite plano. Considere classificar imagens de gatos versus cães — nenhum hiperplano único em espaço de pixels os separa limpo.
Duas estratégias geométricas existem:
Estratégia 1: O truque do kernel — Transformar os dados em espaço de maior dimensionalidade onde É linearmente separável. Um exemplo clássico: pontos dentro de um círculo (classe A) & pontos fora (classe B) em 2D. Nenhuma linha os separa. Mas adicione uma terceira dimensão z = x² + y², & os pontos internos (pequeno x² + y²) sentam-se baixos enquanto os pontos externos (grande x² + y²) sentam-se altos. Agora um plano plano os separa perfeitamente.
SVMs com funções de kernel fazem isto implicitamente — eles computam produtos escalares no espaço de alta dimensão sem nunca construir os vetores reais de alta dimensão. Isto é chamado o 'truque do kernel' & é uma visão puramente geométrica.
Estratégia 2: Redes neurais — Empilhe transformações lineares com funções de ativação não-lineares. Cada camada aplica uma transformação linear (multiplicação de matriz = rotação + escala + cisalhamento) seguida por um 'dobramento' não-linear (ReLU, sigmoid, tanh). A composição de muitas operações linear-depois-dobramento pode aproximar qualquer forma de limite contínuo.
Uma rede neural profunda é uma sequência de transformações geométricas que deformam o espaço de entrada até que as classes se tornem linearmente separáveis na camada final.
Separando Dados Circulares
Este é um dos problemas geométricos mais importantes em aprendizado de máquina.
A Superfície de Perda
Treinamento = Caminhando Ladeira Abaixo em uma Superfície
Todo modelo de aprendizado de máquina tem parâmetros — pesos & vieses. A função de perda mede o quão erradas estão as previsões do modelo. Juntas, estas definem uma superfície de perda: uma paisagem onde cada ponto corresponde a um conjunto específico de valores de parâmetro, & a altura é a perda.
Para um modelo com 2 parâmetros, a superfície de perda é uma paisagem 3D que você pode visualizar — colinas, vales & planícies. Para um modelo com 175 bilhões de parâmetros (como GPT-3), a superfície de perda existe em espaço 175-bilhões-dimensional. A matemática é idêntica.
Descida de gradiente é o algoritmo que navega esta superfície. O gradiente é um objeto geométrico — um vetor que aponta na direção de ascensão mais acentuada. Para reduzir perda, mova-se na direção oposta: o gradiente negativo. Isto é literalmente caminhar ladeira abaixo.
A taxa de aprendizado controla o tamanho do passo. Muito grande & você ultrapassa vales. Muito pequeno & você caminha. O gradiente diz a você a direção; a taxa de aprendizado diz a você o quão longe caminhar.
Pontos de Sela, Mínimos & a Geometria de Altas Dimensões
A Paisagem de Perda Não É um Simples Tigela
Uma imagem ingênua de treinamento imagina um tigela lisa com um único ponto mais baixo. A realidade é muito mais complexa:
Mínimos locais — vales que não são os mais profundos. Descida de gradiente pode ficar presa aqui, satisfeita que cada direção sobe, mesmo que um vale mais profundo exista em outro lugar.
Pontos de sela — moldados como uma sela de cavalo. A perda curva-se para baixo em algumas dimensões & para cima em outras. Em 2D isto é raro. Em altas dimensões, pontos de sela são exponencialmente mais comuns que mínimos locais. Um ponto crítico em espaço 1000-dimensional tem que curvar para cima em TODAS as 1000 dimensões para ser um mínimo local. Se até uma dimensão curva para baixo, é um ponto de sela.
Planaltos planos — regiões onde o gradiente está perto de zero. O treinamento trava porque não há inclinação para seguir.
Mínimos afiados versus planos — um mínimo afiado é um vale estreito. Um mínimo plano é um vale amplo. Pesquisa sugere que mínimos planos generalizam melhor para dados não vistos, porque pequenas perturbações aos parâmetros (de ruído em dados novos) não mudam dramaticamente a perda.
SGD com momentum ajuda a escapar de pontos de sela & mínimos afiados. A aleatoriedade de descida de gradiente estocástica atua como sacudir uma bola na superfície — ela pula para fora de armadilhas estreitas & encontra vales mais amplos & planos.
SGD versus Descida de Gradiente em Lote Completo
Esta é uma das visões práticas mais importantes em treinamento de aprendizado de máquina.
Palavras como Vetores — Aritmética Semântica
O Significado Tem Direção
Word2Vec, GloVe & embeddings de transformadores modernos mapeiam tokens discretos (palavras, subpalavras) para espaços vetoriais contínuos. O resultado é um mundo geométrico onde significado tem coordenadas.
O exemplo famoso: king - man + woman ≈ queen
Esta é aritmética vetorial. O vetor de 'man' para 'king' representa o conceito 'realeza aplicada a um macho.' O vetor de 'woman' para 'queen' representa 'realeza aplicada a uma fêmea.' Estes vetores são aproximadamente paralelos — mesma direção, mesma relação, diferentes pontos de partida.
Outros relacionamentos geométricos que emergem do treinamento em texto:
- Paris - France + Italy ≈ Rome (relação capital-de)
- walked - walk + swim ≈ swam (transformação de tempo passado)
- bigger - big + small ≈ smaller (forma comparativa)
Ninguém programou estes relacionamentos. O modelo descobriu que significado tem estrutura geométrica lendo bilhões de palavras. Direções em espaço de embedding correspondem a relacionamentos semânticos. Esta é uma das descobertas geométricas mais profundas em aprendizado de máquina.
A Hipótese da Variedade
Dados de Alta Dimensão Vivem em Superfícies de Baixa Dimensão
Uma imagem de rosto em escala de cinza 64×64 tem 4.096 valores de pixel — é um ponto em espaço 4.096-dimensional. Mas nem todo ponto naquele espaço é um rosto válido. A maioria de vetores 4.096-dimensional aleatórios parecem ruído estático, não rostos.
A hipótese da variedade afirma que dados de alta dimensão reais, mundo real, vivem em ou perto de superfícies curvadas de baixa dimensão (variedades) embutidas no espaço de alta dimensão. A variedade de rostos pode ser apenas 50-dimensional — parametrizada por fatores como ângulo de iluminação, postura de cabeça, expressão, tom de pele, idade.
Isto é uma afirmação geométrica com consequências práticas:
- Redução de dimensionalidade (PCA, t-SNE, UMAP) funciona porque os dados são aproximadamente de baixa dimensão. Estes algoritmos encontram a variedade & projetam nela.
- Autoencoders aprendem a comprimir dados em espaço latente de baixa dimensão (a variedade) & reconstruir a partir dela.
- Modelos geradores (VAEs, modelos de difusão) aprendem a variedade & amostra novos pontos nela — gerando novos rostos, nova música, novo texto que pareça real porque vive na variedade aprendida.
Quando seu modelo falha em generalizar, uma explicação geométrica é: ele aprendeu a variedade errada. Os dados de treinamento traçaram uma superfície que não corresponde à distribuição de dados verdadeira.
Analogias Vetoriais
A estrutura geométrica de espaços de embedding é um dos resultados mais surpreendentes em aprendizado de máquina moderno.
Curvas ROC — Qualidade de Classificação como Área
Métricas de Avaliação Vivem em Espaços Geométricos
Uma curva ROC (Característica de Operação do Receptor) plota Taxa de Verdadeiro Positivo (eixo y) contra Taxa de Falso Positivo (eixo x) conforme você varre o limiar de classificação de 0 a 1.
Este é um espaço geométrico com marcos significativos:
- (0, 1) — o canto superior esquerdo — classificação perfeita. Cada positivo detectado, zero alarmes falsos.
- (0, 0) — o canto inferior esquerdo — o modelo classifica tudo como negativo.
- (1, 1) — o canto superior direito — o modelo classifica tudo como positivo.
- A diagonal de (0,0) a (1,1) — um classificador aleatório. Em cada limiar, tem taxas de verdadeiro positivo & falso positivo iguais.
AUC (Área Sob a Curva) é literalmente uma medição de área geométrica. AUC = 0.5 significa o modelo é aleatório (a área sob a diagonal). AUC = 1.0 significa classificação perfeita (o quadrado unitário inteiro). Um bom modelo curva sua curva ROC em direção ao canto superior esquerdo, encerrando mais área.
AUC tem uma bela interpretação probabilística: iguala a probabilidade de que o modelo marque um exemplo positivo aleatório mais alto que um exemplo negativo aleatório. Mas geometricamente, é apenas área — & aquela simplicidade geométrica é o que torna intuitivo.
Espaço Precisão-Recall
Um Tradeoff Geométrico Diferente
Curvas de precisão-recall vivem em um espaço geométrico diferente de curvas ROC, & contam uma história diferente.
Precisão = de tudo o que o modelo marcou como positivo, que fração era realmente positivo?
Recall = de todos os verdadeiros positivos, que fração o modelo encontrou?
Conforme você baixa o limiar de classificação (marca mais coisas como positivas), recall aumenta (você captura mais verdadeiros positivos) mas precisão típicamente diminui (você também captura mais falsos positivos). Este tradeoff traça uma curva no espaço de precisão-recall.
Escore F1 = 2 × (precisão × recall) / (precisão + recall) — a média harmônica. Geometricamente, o escore F1 iguala o ponto na curva de precisão-recall onde precisão iguala recall. É onde a curva intersecta a diagonal do quadrado de precisão-recall.
Precisão Média (AP) = a área sob a curva de precisão-recall. Como AUC-ROC, resume a curva inteira em um único número que representa área geométrica.
Curvas ROC & curvas de precisão-recall são visões geométricas complementares do mesmo modelo. Curvas ROC podem ser enganosamente otimistas em datasets desbalanceados (99% classe negativa). Curvas de precisão-recall permanecem informativas porque focam na classe positiva.
Interpretação de AUC-ROC
Entender o que AUC-ROC mede geometricamente ajuda você a escolher entre modelos.
Transformadores — Produtos Escalares como Atenção
Atenção É uma Medida de Similaridade Geométrica
A arquitetura de transformador — a fundação de modelos de linguagem modernos — é construída em uma operação geométrica: o produto escalar.
Para cada token em uma sequência, o transformador computa três vetores: Query (Q), Key (K), & Value (V), cada um obtido multiplicando o embedding de entrada por matrizes de peso aprendidas.
O escore de atenção entre dois tokens é: score = Q · K^T / √d
Este é um produto escalar escalado — uma medida de similaridade geométrica. Quando Q & K apontam na mesma direção (pequeno ângulo entre eles), o produto escalar é grande: esta chave é altamente relevante para esta consulta. Quando são perpendiculares, o produto escalar é zero: irrelevante.
Os escores são passados através de softmax para criar uma distribuição de probabilidade: pesos de atenção que somam a 1. A saída é a soma ponderada de vetores Value, onde os pesos são determinados pelo alinhamento geométrico.
Em uma sentença como 'The cat sat on the mat because it was tired,' atenção computa: para a palavra 'it,' quais outras palavras têm o maior alinhamento geométrico? Se o vetor Q para 'it' se alinha mais próximo com o vetor K para 'cat,' o modelo atende a 'cat' — resolvendo a referência de pronome através de geometria.
Atenção Multi-Head — Múltiplas Perspectivas Geométricas
Por Que Múltiplas Heads?
Auto-atenção com um único conjunto de matrizes Q, K, V computa um tipo de alinhamento geométrico. Mas linguagem tem muitos tipos de relacionamentos — sintáticos, semânticos, posicionais, referenciais.
Atenção multi-head usa múltiplos conjuntos de matrizes de projeção Q, K, V, cada um projetando em um subespaço diferente do embedding. Cada head mede alinhamento em seu próprio subespaço geométrico.
O que pesquisadores observam quando inspecionam heads de atenção:
- Head 1 pode atender à palavra anterior (proximidade posicional)
- Head 2 pode atender ao verbo do sujeito (dependência sintática)
- Head 3 pode atender a palavras semanticamente relacionadas mais cedo no contexto
- Head 4 pode atender ao substantivo mais recente (correferência)
Cada head é uma lente geométrica diferente nos mesmos dados. As projeções giram & escalam o espaço de embedding diferentemente, tornando diferentes relacionamentos visíveis através do alinhamento.
Este é o porquê de transformadores superarem modelos com um mecanismo de atenção único. Um único produto escalar no espaço de embedding completo captura uma noção de similaridade. Múltiplos produtos escalares em subespaços diferentes capturam múltiplas, noções complementares simultaneamente.
Atenção Multi-Head
Atenção multi-head é uma das inovações arquiteturais chave do transformador.
Aprendizado de Máquina É Geometria Aplicada
O Fio Unificador
Olhe para o que cobrimos. Cada conceito principal em aprendizado de máquina tem um núcleo geométrico:
Dados = pontos em espaço de alta dimensão
Características = dimensões daquele espaço
Similaridade = distância ou ângulo entre pontos
Classificação = encontrando limites geométricos entre classes
Treinamento = navegando uma superfície de perda seguindo gradientes
Embeddings = sistemas de coordenadas aprendidos onde geometria codifica significado
Avaliação = áreas sob curvas em espaços de métrica
Atenção = produtos escalares medindo alinhamento angular
Isto não é uma coincidência. Aprendizado de máquina herdou seu quadro matemático de álgebra linear & geometria diferencial — campos que são fundamentalmente sobre espaço, forma & transformação.
Entender a geometria dá a você algo que memorizar algoritmos não pode: intuição. Quando seu modelo falha, a visão geométrica sugere onde procurar. As classes não são separáveis? Olhe para o limite. Treinamento está preso? Examine a paisagem de perda. Embeddings são pobres? Verifique se itens similares estão geometricamente próximos. Atenção é difusa? Inspecione as projeções de subespaço.
A geometria é a mesma seja você trabalhando com 3 dimensões ou 3 bilhões. A matemática escala. A intuição transfere. Isto é o que torna geometria a linguagem universal de aprendizado de máquina.
Debugging Geométrico
Cobrimos vetores, distâncias, limites, treinamento, embeddings, avaliação & atenção — tudo através da lente de geometria.