Fronteiras de Decisão como Hiperplanos
Um classificador binário atribui cada entrada a uma de duas classes. A fronteira de decisão do classificador divide o espaço de entrada em duas regiões: uma por classe. A geometria dessa fronteira determina quais padrões o classificador pode aprender.
Um hiperplano em ℝ^n: o conjunto de todos os pontos x satisfazendo w·x + b = 0, onde w é um vetor de peso em ℝ^n e b é um viés escalar. Um hiperplano tem n−1 dimensões.
Em 2D: um hiperplano é uma linha. Em 3D: um plano plano. Em n-D: um subespaço plano (n−1)-dimensional.
Um perceptron classifica computando w·x + b e retornando a classe 1 se positivo, classe 0 se negativo. Sua fronteira de decisão é um hiperplano.
Separabilidade Linear
Um conjunto de dados é linearmente separável em ℝ^n se existe um hiperplano que coloca todos os pontos de classe-0 de um lado e todos os pontos de classe-1 do outro. Essa é uma propriedade puramente geométrica do conjunto de dados.
Testando Separabilidade Linear
O conjunto de dados da porta AND em 2D: pontos de classe-0 em (0,0), (1,0), (0,1); ponto de classe-1 em (1,1). Este conjunto de dados é linearmente separável.
O conjunto de dados XOR em 2D: pontos de classe-0 em (0,0) e (1,1); pontos de classe-1 em (1,0) e (0,1). Essas duas classes estão em diagonais opostas.
Levantamento para Dimensões Mais Altas
XOR não é linearmente separável em 2D. A solução: mapear os dados para um espaço de dimensão mais alta onde se torna linearmente separável. Essa é a ideia central do truque do kernel.
Mapa de características: uma função φ: ℝ^n → ℝ^m (m > n) que transforma cada ponto de entrada em uma representação de dimensão mais alta.
Para XOR, um mapa de características útil: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
Isso adiciona uma terceira dimensão z = x₁ × x₂. Os pontos XOR se transformam em:
- (0,0) → (0, 0, 0), classe 0
- (1,0) → (1, 0, 0), classe 1
- (0,1) → (0, 1, 0), classe 1
- (1,1) → (1, 1, 1), classe 0
Em 3D: os pontos de classe-0 estão em (0,0,0) e (1,1,1); os pontos de classe-1 estão em (1,0,0) e (0,1,0). Agora encontre um plano separador.
Plano Separador em 3D
Após o mapa de características φ(x₁, x₂) = (x₁, x₂, x₁x₂), os dados XOR vivem em 3D. Um hiperplano em 3D tem equação w₁x₁ + w₂x₂ + w₃z + b = 0.
Teorema de Cover: Por Que Dimensões Altas Ajudam
Teorema de Cover (1965): um problema de classificação complexo lançado em um espaço de alta dimensão é mais provável de ser linearmente separável do que em um espaço de baixa dimensão, desde que o espaço não seja densamente preenchido.
Declaração informal: se você mapear n pontos de dados para um espaço de dimensão d >> n, a probabilidade de que uma classificação aleatória seja linearmente separável aproxima-se de 1.
Versão formal: para n pontos em posição geral em ℝ^d, o número de dicotomias linearmente separáveis (atribuições de classe) é exatamente 2 × Σ_{k=0}^{d} C(n−1, k) para d < n, e é igual a 2^n (todas as dicotomias) para d ≥ n − 1.
Implicação prática: o mapa de características φ que levanta XOR para 3D é um caso especial deste princípio geral. Levantar para dimensões mais altas aumenta a chance de separabilidade. O custo: mais parâmetros para ajustar, maior risco de overfitting.
O Tradeoff Viés-Variância como Geometria
Fronteira de decisão de baixa dimensão (poucos parâmetros): viés alto (não pode capturar padrões complexos), variância baixa (estável entre amostras). Fronteira de alta dimensão (muitos parâmetros): viés baixo, variância alta (pode sobreadjustar ao ruído nos dados de treinamento).
Dimensão VC: Quão Expressivo É um Classificador?
A dimensão Vapnik-Chervonenkis (VC) de uma classe de hipóteses H mede o quão complexa a classe é: o maior número de pontos que H pode fragmentar (classificar corretamente em todas as 2^n rotulações possíveis).
Perceptron em ℝ^d: dimensão VC = d + 1. Um hiperplano d-dimensional pode fragmentar d + 1 pontos (em posição geral), mas não d + 2.
A dimensão VC determina a complexidade da amostra: para aprender uma hipótese com erro de generalização ε com probabilidade 1 − δ, você precisa aproximadamente de n ≥ (d × log(1/ε) + log(1/δ)) / ε amostras, onde d é a dimensão VC.
Fronteiras de Decisão & Limites da Capacidade Máquina
A geometria das fronteiras de decisão se conecta diretamente aos limites do raciocínio máquina de Hamming.
Um perceptron de camada única (classificador de hiperplano) não pode resolver XOR. Esta foi a crítica de Minsky & Papert sobre perceptrons iniciais em 1969. O argumento geométrico: XOR não é linearmente separável. A máquina não pode resolvê-lo, não por falta de poder computacional, mas por uma incompatibilidade geométrica fundamental entre a classe de hipóteses e o problema.
A resolução: redes multi-camadas podem representar fronteiras não-lineares. As camadas ocultas implementam o mapa de características φ — levantando os dados para dimensões mais altas onde a separação linear se torna possível. Cada neurônio oculto computa um hiperplano; a combinação de múltiplos hiperplanos aproxima curvas.
Este histórico mapeia para a observação de Hamming: cada limitação do raciocínio máquina tem uma estrutura geométrica subjacente. A tarefa não é argumentar sobre se as máquinas 'podem pensar', mas identificar as restrições geométricas e encontrar formas de contorná-las.