un — Cihaz Zekası Geometrisi: III

un

guest

1 / ?

back to lessons

Karar Sınırı Olarak Hipersurfaceler

Bir ikili sınıflayıcı, girdiyi iki sınıftan birine atar. Sınıflayıcı'nın karar sınırı girişim alanını iki bölgeye ayırır: her biri bir sınıftan. O sınırın geometrisi, sınıflayıcı'nın öğrenebileceği desenlerin ne olduğunu belirler.

ℝ^n'de bir hipersurface: w vektörünün ve b bir skaler dengi olan x noktalarının tümü sağlayan bir set. Bir hipersurface n-1 boyutlu bir alt alan sahiptir.

2D'de: bir hipersurface bir çizgidir. 3D'de: düz bir plan. nD'de: düz (n-1)-boyutlu bir alt alan.

Bir perceptron w·x + b'yi hesaplayarak ve pozitifse 1, negatifse 0 olan bir sınıfa döner. Karar sınırı bir hipersurface'dir.

Lineer Ayrılabilirlik

Bir veri kümesi ℝ^n'de lineer ayrılabilir ise, tüm class-0 noktalarının bir tarafında ve tüm class-1 noktalarının diğer tarafında bir hipersurface olduğunu gösterir. Bu, veri kümesinin geometrik bir özelliğidir.

Karar Sınırı Geometrisi: Lineer Ayrılabilirlik & XOR

Lineer Ayrılabilirliği Test Et

2D'deki AND tuşlayıcı veri kümesi: class-0 noktaları (0,0), (1,0) ve (0,1); class-1 noktası (1,1). Bu veri kümesi lineer ayrılabilir.

2D'deki XOR veri kümesi: class-0 noktaları (0,0) ve (1,1); class-1 noktaları (1,0) ve (0,1). İki sınıf da karşıt diyagonalarda yer alır.

XOR veri kümesinde 2D'yi doğrulayın. Bir geometrik argüman kullanarak, iki sınıftan her birini ayıramayacağını gösterin: 2D planında bir çizgi neden ayrılmaz? Argümanınız dört noktaların konumuna ve düz bir çizginin ayırma imkânsızlığını belirten bir açıklama olmalıdır.

Yüksek Boyutlara Yükseltme

XOR, 2D'de lineer olarak ayrılabilir değil. Çözüm: veriyi, ayrılabilir hale getirecek şekilde daha yüksek boyutlu bir alana aktarmaktır. Bu, kernel trix'in temel fikrini temsil eder.

Öznitelik haritası: Her giriş noktasını daha yüksek boyutlu bir temsil haline getiren bir işlev φ: ℝ^n → ℝ^m (m > n).

XOR için yararlı bir öznitelik haritası: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Bu, üçüncü bir boyut ekleme x₁ × x₂ ile x₁x₂. XOR noktaları şu şekildedir:

- (0,0) → (0, 0, 0), sınıf 0

- (1,0) → (1, 0, 0), sınıf 1

- (0,1) → (0, 1, 0), sınıf 1

- (1,1) → (1, 1, 1), sınıf 0

3D'de: sınıf-0 noktaları (0,0,0) ve (1,1,1) iken, sınıf-1 noktaları (1,0,0) ve (0,1,0). Şimdi ayırıcı bir düzlem bulun.

3D'deki Ayrılayıcı Düzlem

Öznitelik haritası φ(x₁, x₂) = (x₁, x₂, x₁x₂) sonra XOR verisi 3D'de yer alır. 3D'deki bir hipersurface, denklemi w₁x₁ + w₂x₂ + w₃z + b = 0 olan bir düzlem sahiptir.

XOR sınıflarını dönüştürülmüş 3D uzayında doğru bir şekilde ayırabilecek bir hipersurface w·x + b = 0 bulun. Tüm dört dönüştürülmüş noktayı yerine koymayı doğrulayın. Her sınıf-0 noktası w·x + b < 0 (veya > 0) vermelidir ve her sınıf-1 noktası tam tersi işaret vermelidir.

Cover'in Teorisi: Yüksek Boyutlarda Nasıl Yardım Eder?

Cover'in teoremi (1965): düşük boyutlu bir alanda karmaşık bir sınıflandırma sorunu, düşük bir alanda daha muhtemelen lineer olarak ayrılabilir. Ancak, alan yoğun nüfuslu değilse.

Gündelik ifade: n veri noktasını d >> n boyutuna map edersen, rastgele etiketlerin lineer olarak ayrılma olasılığı 1'ye yaklaşıyor.

Formel sürüm: n nokta genel konumda ℝ^d'de, d < n için doğru ayrılma dikotomi sayıları (sınıflandırma) tam olarak 2 × Σ_{k=0}^{d} C(n−1, k) ve d ≥ n − 1 için 2^n (tüm ayrılma dikotomileri) eşitdir.

Uygulamalı implication: XOR'u 3D'ye taşıyan öznelleştirme fonksiyonu bu genel ilkenin özel bir örneğidir. Boyutu artırarak ayrılabilir olma şansı artar. Maliyet: daha fazla parametre uyum sağlama, eğitim verisi üzerindeki overfit olma riski.

Bias-Variance Ticaretinin Geometrisi

Düşük boyutlu karar sınırı (az parametre): yüksek bias (kompleks modelleri yakalamaya yetmez), düşük varyans (eğitim örnekleri üzerinde istikrarlı). Yüksek boyutlu sınır (çok parametre): düşük bias, yüksek varyans (eğitim verisi üzerindeki noise'ye uyabilir).

VC Boyutu: Bir Sınıflayıcıın Ne Kadar İfadeci Olduğu?

Vapnik-Chervonenkis (VC) boyutu, hipotez sınıfının ne kadar karmaşık olduğunu ölçer: H sınıfının doğru şekilde etiketlendiren tüm 2^n olası etiketlemelerde dâhil olan en büyük sayıdır. H sınıfı tarafından shatter edilebilir noktalardan.

Perceptron ℝ^d: VC boyutu = d + 1. d boyutlu bir hipersapka, genel olarak konumlandırılmış d + 1 nokta shatter edebilir (genel olarak konumlandırılmış) ama d + 2 değil.

VC boyutu, örnek karmaşıklığını belirler: ε ile genellemeli hata ve 1 − δ güvenle bir hipotez öğrenmek için yaklaşık olarak n ≥ (d × log(1/ε) + log(1/δ)) / ε örnekleri gerekir, burada d VC boyutudur.

ℝ^3'deki bir perceptronun VC boyutu 4'tür. VC örnek karmaşıklık sınırına göre, ε = 0.05 genellemeli hata ile güven 1 − δ = 0.95 ile elde etmek için kaç eğitim örneği gerektiği aproximasyonunu kullanın. Verilen değerlerle basitleştirilmiş sınırı kullanın: n ≥ (d × log(1/ε) + log(1/δ)) / ε. Tüm hesaplamaları gösterin.

Karar Sınıkları ve Makine Yetenek Sınırları

Karar sınıklarının geometrisi, doğrudan Hamming'in makine mantıksal sınırlarına bağlanır.

Bir katmanlı algılayıcılı (hiperplan sınıflandırıcısı) XOR'u çözemez. Bu, 1969'da Minsky & Papert'in erken algılayıcılara yönelik eleştirisiydi. Geometrik argüman: XOR lineer olarak ayırılabilir değildir. Makineyi, hesaplamadaki eksik güçten dolayı değil, hipotez sınıfı ve problem arasındaki temel geometrik uyumsuzluk nedeniyle çözemiyor.

Çözüm: Çok katmanlı ağlar, doğrusal sınırlar yerine non-linear sınırlar temsil edebilir. Gizli katmanlar, veri'yi daha yüksek boyutlara taşıyan öznekarşimayı (φ) uygular - burada doğrusal ayırma mümkün hale gelir. Her gizli sinir, bir hiperplanı hesaplar; birkaç hiperplanın birleşimi eğrilere yaklaşım yapar.

Bu tarih, Hamming'in gözlemine karşılık gelir: makine mantığı sınırlarının her birini altında geometrik bir yapı bulunur. Sorun, makinelerin 'düşünüp düşünmediği' üzerine tartışmak değil, geometrik kısıtlamaları tanımlamak ve onları atlatmak için yollar bulmak, ama onları.

Minsky & Papert'in 1969'daki perceptron eleştirisinde XOR non-separability argümanı kullanıldı. Onların 'Perceptrons' kitabı, neredeyse bir on yıl boyunca sinir ağları araştırmalarını öldürdü. Ama katmanlı ağlar XOR sorununu çözdü. Bu tarih neyi, bir makine mantıksal sistem için gösterilen bir sınırlamanın nasıl anlaşıldığı konusunda neyi önerir? Özellikle: gösterilen bir geometrik sınırlamanın sürekli olarak anlaşıldığı mı yoksa şu anki hipotez sınıflarına bağlı olarak contingent olduğu mı? Birinci elden bir yanıt verin.