Karar Sınırları Hiperdüzlem Olarak
İkili bir sınıflandırıcı, her girişi iki sınıftan birine atar. Sınıflandırıcının karar sınırı, giriş uzayını iki bölgeye böler: her sınıf için bir tane. Bu sınırın geometrisi, sınıflandırıcının hangi desenleri öğrenebileceğini belirler.
ℝ^n'de bir hiperdüzlem: w·x + b = 0'ı sağlayan tüm x noktalarının kümesi, burada w, ℝ^n'de bir ağırlık vektörü ve b skaler bir sapma. Bir hiperdüzlemin n−1 boyutu vardır.
2B'de: bir hiperdüzlem bir çizgidir. 3B'de: düz bir düzlemdir. n-B'de: düz bir (n−1)-boyutlu alt uzaydır.
Bir perceptron, w·x + b hesaplayarak sınıflandırır ve pozitif ise sınıf 1, negatif ise sınıf 0 döndürür. Karar sınırı bir hiperdüzlemdir.
Doğrusal Ayrılabilirlik
Bir veri seti, tüm sınıf-0 noktalarını bir tarafa ve tüm sınıf-1 noktalarını diğer tarafa koyan bir hiperdüzlem varsa ℝ^n'de doğrusal olarak ayrılabilir. Bu, veri setinin tamamen geometrik bir özelliğidir.
Doğrusal Ayrılabilirliği Test Etme
2B'de VE kapısı veri seti: sınıf-0 noktaları (0,0), (1,0), (0,1)'de; sınıf-1 noktası (1,1)'de. Bu veri seti doğrusal olarak ayrılabilir.
2B'de XOR veri seti: sınıf-0 noktaları (0,0) ve (1,1)'de; sınıf-1 noktaları (1,0) ve (0,1)'de. Bu iki sınıf karşıt köşegenler üzerinde yer alır.
Daha Yüksek Boyutlara Yükseltme
XOR 2B'de doğrusal olarak ayrılabilir değildir. Çözüm: verileri, doğrusal olarak ayrılabilir hale geldiği daha yüksek boyutlu bir uzaya eşleyin. Bu, kernel hilesinin temel fikridir.
Özellik haritası: φ: ℝ^n → ℝ^m (m > n) işlevi, her giriş noktasını daha yüksek boyutlu bir temsiline dönüştürür.
XOR için, faydalı bir özellik haritası: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
Bu üçüncü bir boyut z = x₁ × x₂ ekler. XOR noktaları şu şekilde dönüşür:
- (0,0) → (0, 0, 0), sınıf 0
- (1,0) → (1, 0, 0), sınıf 1
- (0,1) → (0, 1, 0), sınıf 1
- (1,1) → (1, 1, 1), sınıf 0
3B'de: sınıf-0 noktaları (0,0,0) ve (1,1,1)'de; sınıf-1 noktaları (1,0,0) ve (0,1,0)'de. Şimdi ayıran bir düzlem bulun.
3B'de Ayıran Düzlem
Özellik haritasından sonra φ(x₁, x₂) = (x₁, x₂, x₁x₂), XOR verisi 3B'de yaşar. 3B'deki hiperdüzlemin denklemi w₁x₁ + w₂x₂ + w₃z + b = 0.
Cover'ın Teoremi: Yüksek Boyutlar Neden Yardım Eder
Cover'ın teoremi (1965): karmaşık bir sınıflandırma problemi yüksek boyutlu bir uzaya atıldığında, düşük boyutlu bir uzaya kıyasla doğrusal olarak ayrılabilir olması daha olasıdır, uzay yoğun nüfuslu olmadığı sağlanır.
Gayri resmi ifade: n veri noktasını d >> n boyutlu bir uzaya harita çıkarırsanız, rastgele bir etiketlemenin doğrusal olarak ayrılabilir olma olasılığı 1'e yaklaşır.
Resmi versiyon: ℝ^d'de genel konumdaki n nokta için, doğrusal olarak ayrılabilir dikotomi sayısı (sınıf ataması) d < n için tam olarak 2 × Σ_{k=0}^{d} C(n−1, k) ve d ≥ n − 1 için 2^n'ye eşittir.
Pratik ima: φ'yi XOR'u 3B'ye yükselten özellik haritası, bu genel ilkenin özel bir durumudur. Daha yüksek boyutlara yükseltme ayrılabilirlik şansını artırır. Bedel: daha fazla parametre uydurmak, aşırı uyum riski yükseltmek.
Ön Yargı-Varyans Takası Geometri Olarak
Düşük boyutlu karar sınırı (az parametre): yüksek ön yargı (karmaşık desenleri yakalayamaz), düşük varyans (örnekler arasında istikrar). Yüksek boyutlu sınır (çok parametre): düşük ön yargı, yüksek varyans (eğitim verilerindeki gürültüye aşırı uyum yapabilir).
VC Boyutu: Bir Sınıflandırıcı Ne Kadar İfadelidir?
Vapnik-Chervonenkis (VC) boyutu bir hipotez sınıfı H'nin karmaşıklığını ölçer: H'nin kırabildiği (tüm 2^n olası etiketlemelerde doğru sınıflandırabildiği) en büyük nokta sayısı.
ℝ^d'de Perceptron: VC boyutu = d + 1. d boyutlu bir hiperdüzlem d + 1 noktayı (genel konumda) kırabilen, ama d + 2'yi kıramaz.
VC boyutu örnek karmaşıklığını belirler: bir hipotezi 1 − δ olasılıkla genelleme hatası ε ile öğrenmek için, kabaca n ≥ (d × log(1/ε) + log(1/δ)) / ε örneğe ihtiyacınız var, burada d VC boyutu.
Karar Sınırları & Makine Yeteneği Sınırları
Karar sınırlarının geometrisi, Hamming'in makine akıl yürütme sınırlarına doğrudan bağlanır.
Tek katmanlı bir perceptron (hiperdüzlem sınıflandırıcı) XOR'u çözemez. Bu, Minsky & Papert'in 1969'da erken perceptronlar hakkındaki eleştirisi idi. Geometrik argüman: XOR doğrusal olarak ayrılabilir değildir. Makine bunu çözemez, hesaplama gücü eksikliği nedeniyle değil, hipotez sınıfı ile problem arasında temel bir geometrik uyumsuzluk nedeniyle.
Çözüm: çok katmanlı ağlar doğrusal olmayan sınırları temsil edebilir. Gizli katmanlar özellik haritasını φ uygular — verileri doğrusal ayrılabilirliğin mümkün olduğu daha yüksek boyutlara yükseltir. Her gizli nöron bir hiperdüzlem hesaplar; çoklu hiperdüzlemlerin kombinasyonu eğrileri yaklaşık olarak tanımlar.
Bu tarih, Hamming'in gözlemine eşleşir: makine akıl yürütmesinin her sınırlaması altında geometrik bir yapı vardır. Sorun, makinelerin 'düşünüp düşünemediği' hakkında tartışmak değil, geometrik kısıtlamaları belirleme ve onların etrafından çalışma yolları bulmaktır.