Karar Sınırı Olarak Hipersurfaceler
Bir ikili sınıflayıcı, girdiyi iki sınıftan birine atar. Sınıflayıcı'nın karar sınırı girişim alanını iki bölgeye ayırır: her biri bir sınıftan. O sınırın geometrisi, sınıflayıcı'nın öğrenebileceği desenlerin ne olduğunu belirler.
ℝ^n'de bir hipersurface: w vektörünün ve b bir skaler dengi olan x noktalarının tümü sağlayan bir set. Bir hipersurface n-1 boyutlu bir alt alan sahiptir.
2D'de: bir hipersurface bir çizgidir. 3D'de: düz bir plan. nD'de: düz (n-1)-boyutlu bir alt alan.
Bir perceptron w·x + b'yi hesaplayarak ve pozitifse 1, negatifse 0 olan bir sınıfa döner. Karar sınırı bir hipersurface'dir.
Lineer Ayrılabilirlik
Bir veri kümesi ℝ^n'de lineer ayrılabilir ise, tüm class-0 noktalarının bir tarafında ve tüm class-1 noktalarının diğer tarafında bir hipersurface olduğunu gösterir. Bu, veri kümesinin geometrik bir özelliğidir.
Lineer Ayrılabilirliği Test Et
2D'deki AND tuşlayıcı veri kümesi: class-0 noktaları (0,0), (1,0) ve (0,1); class-1 noktası (1,1). Bu veri kümesi lineer ayrılabilir.
2D'deki XOR veri kümesi: class-0 noktaları (0,0) ve (1,1); class-1 noktaları (1,0) ve (0,1). İki sınıf da karşıt diyagonalarda yer alır.
Yüksek Boyutlara Yükseltme
XOR, 2D'de lineer olarak ayrılabilir değil. Çözüm: veriyi, ayrılabilir hale getirecek şekilde daha yüksek boyutlu bir alana aktarmaktır. Bu, kernel trix'in temel fikrini temsil eder.
Öznitelik haritası: Her giriş noktasını daha yüksek boyutlu bir temsil haline getiren bir işlev φ: ℝ^n → ℝ^m (m > n).
XOR için yararlı bir öznitelik haritası: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
Bu, üçüncü bir boyut ekleme x₁ × x₂ ile x₁x₂. XOR noktaları şu şekildedir:
- (0,0) → (0, 0, 0), sınıf 0
- (1,0) → (1, 0, 0), sınıf 1
- (0,1) → (0, 1, 0), sınıf 1
- (1,1) → (1, 1, 1), sınıf 0
3D'de: sınıf-0 noktaları (0,0,0) ve (1,1,1) iken, sınıf-1 noktaları (1,0,0) ve (0,1,0). Şimdi ayırıcı bir düzlem bulun.
3D'deki Ayrılayıcı Düzlem
Öznitelik haritası φ(x₁, x₂) = (x₁, x₂, x₁x₂) sonra XOR verisi 3D'de yer alır. 3D'deki bir hipersurface, denklemi w₁x₁ + w₂x₂ + w₃z + b = 0 olan bir düzlem sahiptir.
Cover'in Teorisi: Yüksek Boyutlarda Nasıl Yardım Eder?
Cover'in teoremi (1965): düşük boyutlu bir alanda karmaşık bir sınıflandırma sorunu, düşük bir alanda daha muhtemelen lineer olarak ayrılabilir. Ancak, alan yoğun nüfuslu değilse.
Gündelik ifade: n veri noktasını d >> n boyutuna map edersen, rastgele etiketlerin lineer olarak ayrılma olasılığı 1'ye yaklaşıyor.
Formel sürüm: n nokta genel konumda ℝ^d'de, d < n için doğru ayrılma dikotomi sayıları (sınıflandırma) tam olarak 2 × Σ_{k=0}^{d} C(n−1, k) ve d ≥ n − 1 için 2^n (tüm ayrılma dikotomileri) eşitdir.
Uygulamalı implication: XOR'u 3D'ye taşıyan öznelleştirme fonksiyonu bu genel ilkenin özel bir örneğidir. Boyutu artırarak ayrılabilir olma şansı artar. Maliyet: daha fazla parametre uyum sağlama, eğitim verisi üzerindeki overfit olma riski.
Bias-Variance Ticaretinin Geometrisi
Düşük boyutlu karar sınırı (az parametre): yüksek bias (kompleks modelleri yakalamaya yetmez), düşük varyans (eğitim örnekleri üzerinde istikrarlı). Yüksek boyutlu sınır (çok parametre): düşük bias, yüksek varyans (eğitim verisi üzerindeki noise'ye uyabilir).
VC Boyutu: Bir Sınıflayıcıın Ne Kadar İfadeci Olduğu?
Vapnik-Chervonenkis (VC) boyutu, hipotez sınıfının ne kadar karmaşık olduğunu ölçer: H sınıfının doğru şekilde etiketlendiren tüm 2^n olası etiketlemelerde dâhil olan en büyük sayıdır. H sınıfı tarafından shatter edilebilir noktalardan.
Perceptron ℝ^d: VC boyutu = d + 1. d boyutlu bir hipersapka, genel olarak konumlandırılmış d + 1 nokta shatter edebilir (genel olarak konumlandırılmış) ama d + 2 değil.
VC boyutu, örnek karmaşıklığını belirler: ε ile genellemeli hata ve 1 − δ güvenle bir hipotez öğrenmek için yaklaşık olarak n ≥ (d × log(1/ε) + log(1/δ)) / ε örnekleri gerekir, burada d VC boyutudur.
Karar Sınıkları ve Makine Yetenek Sınırları
Karar sınıklarının geometrisi, doğrudan Hamming'in makine mantıksal sınırlarına bağlanır.
Bir katmanlı algılayıcılı (hiperplan sınıflandırıcısı) XOR'u çözemez. Bu, 1969'da Minsky & Papert'in erken algılayıcılara yönelik eleştirisiydi. Geometrik argüman: XOR lineer olarak ayırılabilir değildir. Makineyi, hesaplamadaki eksik güçten dolayı değil, hipotez sınıfı ve problem arasındaki temel geometrik uyumsuzluk nedeniyle çözemiyor.
Çözüm: Çok katmanlı ağlar, doğrusal sınırlar yerine non-linear sınırlar temsil edebilir. Gizli katmanlar, veri'yi daha yüksek boyutlara taşıyan öznekarşimayı (φ) uygular - burada doğrusal ayırma mümkün hale gelir. Her gizli sinir, bir hiperplanı hesaplar; birkaç hiperplanın birleşimi eğrilere yaklaşım yapar.
Bu tarih, Hamming'in gözlemine karşılık gelir: makine mantığı sınırlarının her birini altında geometrik bir yapı bulunur. Sorun, makinelerin 'düşünüp düşünmediği' üzerine tartışmak değil, geometrik kısıtlamaları tanımlamak ve onları atlatmak için yollar bulmak, ama onları.