un — Geometria do Raciocínio Máquina: III

un

visitante

1 / ?

voltar às lições

Fronteiras de Decisão como Hiperplanos

Um classificador binário atribui cada entrada a uma de duas classes. A fronteira de decisão do classificador divide o espaço de entrada em duas regiões: uma por classe. A geometria dessa fronteira determina quais padrões o classificador pode aprender.

Um hiperplano em ℝ^n: o conjunto de todos os pontos x satisfazendo w·x + b = 0, onde w é um vetor de peso em ℝ^n e b é um viés escalar. Um hiperplano tem n−1 dimensões.

Em 2D: um hiperplano é uma linha. Em 3D: um plano plano. Em n-D: um subespaço plano (n−1)-dimensional.

Um perceptron classifica computando w·x + b e retornando a classe 1 se positivo, classe 0 se negativo. Sua fronteira de decisão é um hiperplano.

Separabilidade Linear

Um conjunto de dados é linearmente separável em ℝ^n se existe um hiperplano que coloca todos os pontos de classe-0 de um lado e todos os pontos de classe-1 do outro. Essa é uma propriedade puramente geométrica do conjunto de dados.

Geometria da Fronteira de Decisão: Separabilidade Linear & XOR

Testando Separabilidade Linear

O conjunto de dados da porta AND em 2D: pontos de classe-0 em (0,0), (1,0), (0,1); ponto de classe-1 em (1,1). Este conjunto de dados é linearmente separável.

O conjunto de dados XOR em 2D: pontos de classe-0 em (0,0) e (1,1); pontos de classe-1 em (1,0) e (0,1). Essas duas classes estão em diagonais opostas.

Verifique que o conjunto de dados XOR NÃO é linearmente separável em 2D. Use um argumento geométrico: explique por que nenhuma linha no plano 2D pode separar as duas classes. Seu argumento deve fazer referência às posições dos quatro pontos e à propriedade de uma linha reta que torna a separação impossível.

Levantamento para Dimensões Mais Altas

XOR não é linearmente separável em 2D. A solução: mapear os dados para um espaço de dimensão mais alta onde se torna linearmente separável. Essa é a ideia central do truque do kernel.

Mapa de características: uma função φ: ℝ^n → ℝ^m (m > n) que transforma cada ponto de entrada em uma representação de dimensão mais alta.

Para XOR, um mapa de características útil: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Isso adiciona uma terceira dimensão z = x₁ × x₂. Os pontos XOR se transformam em:

- (0,0) → (0, 0, 0), classe 0

- (1,0) → (1, 0, 0), classe 1

- (0,1) → (0, 1, 0), classe 1

- (1,1) → (1, 1, 1), classe 0

Em 3D: os pontos de classe-0 estão em (0,0,0) e (1,1,1); os pontos de classe-1 estão em (1,0,0) e (0,1,0). Agora encontre um plano separador.

Plano Separador em 3D

Após o mapa de características φ(x₁, x₂) = (x₁, x₂, x₁x₂), os dados XOR vivem em 3D. Um hiperplano em 3D tem equação w₁x₁ + w₂x₂ + w₃z + b = 0.

Encontre um hiperplano w·x + b = 0 no espaço 3D transformado que separe corretamente as classes XOR. Verifique seu hiperplano substituindo todos os quatro pontos transformados. Cada ponto de classe-0 deve dar w·x + b < 0 (ou > 0) e cada ponto de classe-1 deve dar o sinal oposto.

Teorema de Cover: Por Que Dimensões Altas Ajudam

Teorema de Cover (1965): um problema de classificação complexo lançado em um espaço de alta dimensão é mais provável de ser linearmente separável do que em um espaço de baixa dimensão, desde que o espaço não seja densamente preenchido.

Declaração informal: se você mapear n pontos de dados para um espaço de dimensão d >> n, a probabilidade de que uma classificação aleatória seja linearmente separável aproxima-se de 1.

Versão formal: para n pontos em posição geral em ℝ^d, o número de dicotomias linearmente separáveis (atribuições de classe) é exatamente 2 × Σ_{k=0}^{d} C(n−1, k) para d < n, e é igual a 2^n (todas as dicotomias) para d ≥ n − 1.

Implicação prática: o mapa de características φ que levanta XOR para 3D é um caso especial deste princípio geral. Levantar para dimensões mais altas aumenta a chance de separabilidade. O custo: mais parâmetros para ajustar, maior risco de overfitting.

O Tradeoff Viés-Variância como Geometria

Fronteira de decisão de baixa dimensão (poucos parâmetros): viés alto (não pode capturar padrões complexos), variância baixa (estável entre amostras). Fronteira de alta dimensão (muitos parâmetros): viés baixo, variância alta (pode sobreadjustar ao ruído nos dados de treinamento).

Dimensão VC: Quão Expressivo É um Classificador?

A dimensão Vapnik-Chervonenkis (VC) de uma classe de hipóteses H mede o quão complexa a classe é: o maior número de pontos que H pode fragmentar (classificar corretamente em todas as 2^n rotulações possíveis).

Perceptron em ℝ^d: dimensão VC = d + 1. Um hiperplano d-dimensional pode fragmentar d + 1 pontos (em posição geral), mas não d + 2.

A dimensão VC determina a complexidade da amostra: para aprender uma hipótese com erro de generalização ε com probabilidade 1 − δ, você precisa aproximadamente de n ≥ (d × log(1/ε) + log(1/δ)) / ε amostras, onde d é a dimensão VC.

Um perceptron em ℝ^3 tem dimensão VC 4. De acordo com o limite de complexidade de amostra VC, aproximadamente quantas amostras de treinamento são necessárias para alcançar erro de generalização ε = 0.05 com confiança 1 − δ = 0.95? Use o limite simplificado n ≥ (d × log(1/ε) + log(1/δ)) / ε com os valores dados. Mostre todos os cálculos.

Fronteiras de Decisão & Limites da Capacidade Máquina

A geometria das fronteiras de decisão se conecta diretamente aos limites do raciocínio máquina de Hamming.

Um perceptron de camada única (classificador de hiperplano) não pode resolver XOR. Esta foi a crítica de Minsky & Papert sobre perceptrons iniciais em 1969. O argumento geométrico: XOR não é linearmente separável. A máquina não pode resolvê-lo, não por falta de poder computacional, mas por uma incompatibilidade geométrica fundamental entre a classe de hipóteses e o problema.

A resolução: redes multi-camadas podem representar fronteiras não-lineares. As camadas ocultas implementam o mapa de características φ — levantando os dados para dimensões mais altas onde a separação linear se torna possível. Cada neurônio oculto computa um hiperplano; a combinação de múltiplos hiperplanos aproxima curvas.

Este histórico mapeia para a observação de Hamming: cada limitação do raciocínio máquina tem uma estrutura geométrica subjacente. A tarefa não é argumentar sobre se as máquinas 'podem pensar', mas identificar as restrições geométricas e encontrar formas de contorná-las.

A crítica de Minsky & Papert em 1969 do perceptron usou o argumento da não-separabilidade do XOR. Seu livro, 'Perceptrons', quase matou a pesquisa de redes neurais por uma década. Mas redes multi-camadas resolvem o problema do XOR. O que esse histórico sugere sobre a forma correta de interpretar uma limitação demonstrada de um sistema de raciocínio máquina? Especificamente: uma limitação geométrica demonstrada deve ser entendida como permanente ou como contingente à classe de hipóteses atual? Forneça uma resposta bem fundamentada.