English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

konuk
1 / ?
derslere geri dön

Veriler Geometrik Uzayda Yaşar

Her Şey Bir Vektördür

Sözcük Gömme Vektörleri — Benzerlik Yön Olarak

Makine öğrenmesinde veriler geometrik uzayda yaşar. N özelliğe sahip her veri noktası N-boyutlu uzayda bir noktadır. Bu bir metafor değildir — bu her algoritmanın tam matematiksel temelidir.


Yazı ile yazılmış bir rakam görüntüsü (28×28 piksel) 784-boyutlu uzayda bir noktadır. Her piksel bir koordinattır. Benzer görünen iki rakam o uzayda yakın noktalardır. Farklı iki rakam uzaktadır.


Bir sözcük gömmesi, sözcüğü 300-boyutlu uzayda bir noktaya eşler. Benzer anlamdaki sözcükler aynı bölgede sonlanır. 'Köpek' ve 'yavru' yakındır. 'Köpek' ve 'parlamento' uzaktır.


50 özelliğe sahip bir kullanıcı profili (yaş, satın alma geçmişi, tıklama desenleri) 50-boyutlu uzayda bir noktadır. Tavsiye motorları 'yakında' olan kullanıcıları bulur ve geometrik komşularının beğendiği şeyleri önerir.


Geometri, bu uzayları nasıl düşüneceğimizi belirler. Mesafe, yön, açı, projeksiyon — bunlar makine öğrenmesinin temel işlemleridir.

Vektör İşlemleri — Temel Yapı Taşları

Nokta Çarpımı Her Şeyi Güçlendirir

Makine öğrenmesinde en önemli üç vektör işlemi vardır:


Vektör toplama — öznitelikleri veya sinyalleri birleştirmek. İki sözcük vektörünü toplarsan, her iki kavramı karışık biçimde temsil eden bir vektör elde edersin.


Skaler çarpma — vektörü ölçekleme yönünü değiştirmeden büyüklüğünü değiştirir. Gradyan inişindeki öğrenme oranları skaler çarpımlardır.


Nokta çarpım — bu çalışkan asistandir. İki vektör a & b'nin nokta çarpımı |a||b|cos(θ)'ye eşittir, burada θ aralarındaki açıdır. Vektörler normalleştirildiğinde (birim uzunluk), nokta çarpım aralarındaki açının kosinüsüdür.


Kosinüs benzerliği = cos(θ) = (a·b) / (|a||b|)


Bu tek formül şunları güçlendirir:

- Arama motorları — sorguya benzer belgeleri bulma

- Dikkat mekanizmaları — her belirtecin hangi belirteclere önem verdiğine karar verme

- Tavsiye motorları — kullanıcı profillerini öğe profillerine eşleştirme

- Alım-artırmalı üretim — dil modelleri için ilgili bağlam bulma


cos(θ) = 1, vektörlerin tamamen aynı yönü gösterdiği anlamına gelir (özdeş anlam). cos(θ) = 0, dik olduğu anlamına gelir (alakasız). cos(θ) = -1, zıt yönleri gösterdiği anlamına gelir (zıt anlam).

Kosinüs Benzerliği

Kosinüs benzerliği modern makine öğrenmesi sistemlerinde en çok kullanılan metriklerden biridir.

İki sözcük gömme vektörü 0.95 kosinüs benzerliğine sahiptir. Başka bir çift 0.12'ye sahiptir. Her sayı her çift arasındaki ilişki hakkında ne söyler?

Mesafeyi Ölçmenin Üç Yolu

Mesafe Metriği Seçimi 'Benzer' Ne Anlama Geldiğini Değiştirir

Üç Mesafe Metriği — Aynı Noktalar, Farklı Anlamlar

Uzayda iki nokta verildiğinde, aralarındaki 'mesafeyi' ölçmenin birçok yolu vardır. Her metrik farklı bir geometri tanımlar & bu geometri modelinin 'benzer' olanları ne düşündüğünü belirler.


Öklid mesafesi (L2) — doğru çizgi mesafesi. d = √(Σ(aᵢ - bᵢ)²). Bu 'uçan karga mesafesi', sezginizin beklediği mesafedir. Tüm boyutları eşit şekilde değerlendirir & büyüklüğe duyarlıdır.


Manhattan mesafesi (L1) — ızgara yürüyüş mesafesi. d = Σ|aᵢ - bᵢ|. Şehir bloklarını yönetmek gibi — sadece eksenler boyunca hareket edebilirsin, asla çapraz değil. Tek boyutlardaki aykırı değerlere karşı daha dayanıklı çünkü farklılıkları karelerine almaz.


Kosinüs mesafesi — vektörler arasındaki açıyı ölçer, büyüklüğü tamamen yoksayar. d = 1 - cos(θ). Aynı konudaki iki belge, uzunluğundan bağımsız olarak küçük kosinüs mesafesine sahiptir. Farklı konulardaki eşit uzunlukta iki belge büyük kosinüs mesafesine sahiptir.


Seçim keyfi değildir. Büyüklük önemliyse (bir ilacın dozu, reaktör sıcaklığı), Öklid kullan. Mutlak değerlerden ziyade oranları önemsiyorsan (sözcük frekansı dağılımları, kullanıcı tercih profilleri), kosinüs kullan. Bireysel özellik farklılıkları toplu büyüklükten daha önemliyse (arıza teşhisi, bir sensörün çıkması anlamlı olduğunda), Manhattan kullan.

K-En Yakın Komşular — Saf Geometri

KNN: En Basit Geometrik Algoritma

K-En Yakın Komşular makine öğrenmesindeki en şeffaf geometrik algoritmadır. Eğitim fazı yoktur — bu eğitim verileridir.


Yeni bir noktayı sınıflandırmak için: eğitim verilerinde K en yakın noktayı bul. Onlara oy ver. Çoğunluk sınıfı kazanır. Algoritmanın tamamı budur.


KNN'nin ürettiği karar sınırı bir Voronoi diyagramıdır — uzayın her noktanın en yakın eğitim örneğinin bölgesine ait olduğu bir bölümü. Sınırlar bitişik eğitim noktaları arasındaki dik açı ortaylayıcılardır.


Önemli geometrik içgörü: mesafe metriği seçimi Voronoi diyagramını tamamen değiştirir. Öklid mesafesi kavisli, dairesel sınırlar üretir. Manhattan mesafesi elmas şeklinde sınırlar üretir. Kosinüs mesafesi açısal, koni şeklinde sınırlar üretir.


Aynı eğitim verileri. Aynı K. Farklı mesafe metriği. Tamamen farklı model. Geometri MODELdir.

Mesafe Metriği Seçimi

Mesafe metrikleri birbirinin yerine kullanılamaz — doğru seçim 'benzer' olmanın ne anlama geldiğine bağlıdır.

Belgeleri karşılaştırırken Öklid mesafesi yerine neden kosinüs mesafesi kullanabilirsin? İki belge aynı konuyu tartışıyor ama biri çok daha uzun olduğunda ne olacağını düşün.

Hiperdüzlemler — Yüksek Boyutlarda Düz Sınırlar

Her Doğrusal Sınıflandırıcı Bir Hiperdüzlem Bulur

Karar Sınırları — Doğrusal, Doğrusal Olmayan & Çekirdek İşi

Doğrusal sınıflandırıcı iki sınıfı ayıran düz bir yüzey bulur. Bu yüzeyin boyutu uzayın boyutuna bağlıdır:


- 2D uzayda, sınır bir çizgidir (1-boyutlu)

- 3D uzayda, sınır bir düzlemdir (2-boyutlu)

- 784D uzayda (MNIST rakam görüntüleri), sınır 783-boyutlu hiperdüzlemdir


Genel desen: N-boyutlu uzayda, karar sınırı hiperdüzlem adı verilen (N-1)-boyutlu düz yüzeydir.


Lojistik regresyon, destek vektör makineleri & tek katmanlı perceptronlar hiperdüzlem bulucudur. En iyi hiperdüzlemi NASIL bulduklarında farklılık gösterirler:

- Lojistik regresyon doğru sınıflandırma olasılığını en üst düzeye çıkarır

- SVM'ler geometrik marjini en üst düzeye çıkarır — hiperdüzlemden en yakın veri noktalarına olan mesafe

- Perceptronlar veriyi ayıran herhangi bir hiperdüzlem bulur, optimalliğin garantisi olmadan


Doğrusal sınıflandırıcının ağırlık vektörü hiperdüzlemin normal vektörüdür. Sapma terimi hiperdüzlemi orijinden uzaklaştırır. Bunlar geometrik nesneleri geometrik yorumlarla vardır.

Düz Sınırların Ötesinde

Veriler Doğrusal Olarak Ayrılamadığında

Pek çok gerçek dünyada sorun düz bir sınırla çözülemez. Kedi & köpek görüntülerini sınıflandırmayı düşün — piksel uzayında hiçbir hiperdüzlem onları temiz şekilde ayıramaz.


İki geometrik strateji vardır:


Strateji 1: Çekirdek işi — Verileri DOĞRUSAL OLARAK AYRILABILI olduğu daha yüksek boyutlu bir uzaya dönüştür. Klasik örnek: 2D'de bir dairenin içindeki noktalar (sınıf A) & dışındaki noktalar (sınıf B). Hiçbir çizgi onları ayıramaz. Ama z = x² + y² üçüncü boyutunu ekle, iç noktalar (küçük x² + y²) alçakta oturur iç noktalar dışarı (büyük x² + y²) yüksekte oturur. Şimdi düz bir düzlem mükemmel şekilde onları ayırır.


Çekirdek işlevleri olan SVM'ler bunu örtülü olarak yapırlar — yüksek boyutlu uzayda hiçbir zaman gerçek yüksek boyutlu vektörleri inşa etmeden nokta çarpımları hesaplarlar. Buna 'çekirdek işi' denir & tamamen geometrik bir içgörüdür.


Strateji 2: Sinir ağları — Doğrusal dönüşümleri doğrusal olmayan aktivasyon işlevleriyle istifle. Her katman doğrusal dönüşüm (matris çarpma = rotasyon + ölçekleme + şekil değiştirme) & ardından doğrusal olmayan 'bükme' (ReLU, sigmoid, tanh) uygular. Birçok doğrusal-sonra-bükme işleminin bileşimi herhangi bir sürekli sınır şeklini yaklaştırabilir.


Derin sinir ağı, giriş uzayını sınıflar doğrusal olarak ayrılabilir hale gelene kadar deforme eden geometrik dönüşümlerin bir dizisidir.

Dairesel Verileri Ayırma

Bu makine öğrenmesindeki en önemli geometrik problemlerden biridir.

2D'de daire içinde kırmızı noktalar & dışında mavi noktalar var. Düz bir çizgi onları ayıramaz. Bu sorunu çözmek için iki geometrik strateji tanımla.

Kayıp Yüzeyi

Eğitim = Bir Yüzeyde Aşağı Doğru Yürümek

Kayıp Yüzeyi — Yüzey Gezinmek

Her makine öğrenmesi modelinin parametreleri vardır — ağırlıklar & sapma terimleri. Kayıp işlevi modelin tahminlerinin ne kadar yanlış olduğunu ölçer. Birlikte, bunlar kayıp yüzeyini tanımlar: her nokta belirli bir parametre seti kümesine karşılık gelen bir manzara, yükseklik kayıptır.


2 parametreli bir model için, kayıp yüzeyi görselleştirebileceğin 3D bir manzaradır — tepeler, vadiler & düzlükler. 175 milyar parametreli bir model için (GPT-3 gibi), kayıp yüzeyi 175 milyar boyutlu uzayda vardır. Matematik aynıdır.


Gradyan iniş, bu yüzeyde gezinen algoritmadır. Gradyan geometrik bir nesnedir — en dik çıkış yönünü gösteren bir vektör. Kayıpı azaltmak için, zıt yöne git: negatif gradyan. Bu kelimenin tam anlamıyla aşağı doğru yürümektir.


Öğrenme oranı adım boyutunu kontrol eder. Çok büyük & vadiyi aşarsın. Çok küçük & sürünerek ilerliyorsun. Gradyan yönü söyler; öğrenme oranı ne kadar uzağa adım atacağını söyler.

Eyer Noktaları, Minimumlar & Yüksek Boyutların Geometrisi

Kayıp Yüzeyi Basit Bir Kase Değildir

Eğitim için saf bir resim düzgün bir kaseyimagine eder — en derin noktası olan tek bir en düşük nokta. Gerçeklik çok daha karmaşıktır:


Yerel minimumlar — en derin olmayan vadiler. Gradyan iniş buraya takılabilir, her yönün yukarı gittiği tatmin olur, başka bir daha derin vadi var olsa bile.


Eyer noktaları — at eyeri gibi şekilde. Kayıp bazı boyutlarda aşağıya iner & diğerlerinde yukarı. 2D'de bu nadirdir. Yüksek boyutlarda, eyer noktaları üstel olarak daha sık yerel minimumlardan. Kritik bir nokta 1000-boyutlu uzayda, yerel minimum olması TÜM 1000 boyutunda yukarı eğrilmesi gerekir. Tek bir boyut bile aşağı eğrilirse, eyer noktasıdır.


Düz platoları — gradyan neredeyse sıfırın olduğu bölgeler. Eğitim durduruluyor çünkü takip etmek için eğim yok.


Keskin & düz minimumlar — keskin minimum dar bir vadi. Düz minimum geniş bir vadi. Araştırma, düz minimumların görülmemiş verilere daha iyi genelleştiğini önerir, çünkü parametre küçük perturbasyonları (yeni verilerden gelen gürültü) kayıpı dramatik olarak değiştirmez.


SGD with momentum eyer noktalarından & keskin minimumlardan kaçmaya yardımcı olur. Stokastik gradyan inişinin rastlantısallığı, yüzeyde bir topu sallıyor gibi davranır — dar tuzaklardan çıkıyor & daha geniş, düzleşmiş vadiler bulur.

SGD vs Tam-Toplu Gradyan İniş

Bu makine öğrenmesi eğitimindeki en önemli pratik içgörülerden biridir.

Stokastik gradyan iniş (SGD) neden tam-toplu gradyan inişten daha iyi çözümler bulur, geometrik perspektiften?

Sözcükler Vektör Olarak — Anlamsal Aritmetik

Anlam Bir Yöne Sahiptir

Sözcük Gömme Uzayı — Anlamsal Geometri

Word2Vec, GloVe & modern transformer gömmesi ayrık belirtecleri (sözcükler, alt-sözcükler) sürekli vektör uzaylarına eşler. Sonuç, anlam koordinat alan bir geometrik dünyada.


Ünlü örnek: kral - erkek + kadın ≈ kraliçe


Bu vektör aritmetiğidir. 'erkek' ten 'kral' a vektör 'erkek'e uygulanan 'kraliçe' kavramını temsil eder. 'Kadın' dan 'kraliçe' ye vektör 'kadına' uygulanan 'kraliçe' kavramını temsil eder. Bu vektörler yaklaşık olarak paraleldir — aynı yön, aynı ilişki, farklı başlangıç noktaları.


Metni okuyarak eğitimden ortaya çıkan diğer geometrik ilişkiler:

- Paris - Fransa + İtalya ≈ Roma (başkent-of ilişkisi)

- yürüdü - yürü + yüz ≈ yüzdü (geçmiş zaman dönüşümü)

- daha büyük - büyük + küçük ≈ daha küçük (karşılaştırma formu)


Kimse bu ilişkileri programlamadı. Model milyar sözcüğü okuyarak anlamın geometrik yapısına sahip olduğunu keşfetti. Gömme uzayındaki yönler anlamsal ilişkilere karşılık gelir. Bu makine öğrenmesindeki en derin geometrik keşiflerinden biridir.

Manifold Hipotezi

Yüksek Boyutlu Veriler Düşük Boyutlu Yüzeylerde Yaşar

64×64 gri tonlamalı bir yüz görüntüsü 4,096 piksel değerine sahiptir — 4,096-boyutlu uzayda bir noktadır. Ama o uzaydaki her nokta geçerli bir yüz değildir. Rastgele 4,096-boyutlu vektörlerin çoğu statik parazit gibi görünür, yüzler gibi değil.


Manifold hipotezi gerçek dünyada yüksek boyutlu verilerin aslında yüksek boyutlu uzaya gömülü düşük boyutlu kavisli yüzeylerde (manifoldlar) yaşadığını veya yakınında yaşadığını belirtir. Yüzlerin manifoldu sadece 50-boyutlu olabilir — aydınlatma açısı, kafa duruşu, ifade, cilt tonu, yaş gibi faktörler tarafından parametrelendirilen.


Bu pratik sonuçları olan geometrik bir iddiadır:


- Boyutluluk azaltma (PCA, t-SNE, UMAP) işe yarar çünkü veriler yaklaşık olarak düşük boyutludur. Bu algoritmalar manifoldu bulur & üzerine projeler.

- Otokodçular verileri düşük boyutlu gizli uzaya (manifold) sıkıştırmayı & ondan yeniden inşa etmeyi öğrenir.

- Üreteç modeller (VAE, difüzyon modeller) manifoldu öğrenir & yeni noktaları örnekler — gerçek gibi görünen yeni yüzler, yeni müzik, yeni metinler yaratarak çünkü öğrenilen manifoldda yaşar.


Modeliniz genelleştirmekte başarısız olduğunda, bir geometrik açıklama: yanlış manifoldu öğrendi. Eğitim verileri, gerçek veri dağılımı ile eşleşmeyen bir yüzey izledi.

Vektör Analojileri

Gömme uzaylarının geometrik yapısı modern makine öğrenmesinde en şaşırtıcı sonuçlardan biridir.

Sözcük gömmelerinin anlamı geometrik olarak yakalarsa, 'erkek' ten 'kral' a vektörün 'kadın' dan 'kraliçe' ye vektöre yaklaşık olarak paralel olduğunu söylemek ne anlama gelir? Hangi geometrik konsept iş başındadır?

ROC Eğrileri — Sınıflandırma Kalitesi Alan Olarak

Değerlendirme Metrikleri Geometrik Uzaylarda Yaşar

ROC Uzayı — Sınıflandırma Kalitesi Geometri Olarak

Bir ROC (Alıcı İşletim Karakteristiği) eğrisi Doğru Pozitif Oranını (y-ekseni) Yanlış Pozitif Oranına (x-ekseni) karşı çizer, klasifikasyon eşiğini 0'dan 1'e süpürüyorsun.


Bu anlamlı yer işaretlerine sahip geometrik bir uzaydır:

- (0, 1) — üst sol köşe — mükemmel sınıflandırma. Her pozitif algılanmış, sıfır yanlış alarm.

- (0, 0) — alt sol — model her şeyi negatif olarak sınıflandırır.

- (1, 1) — üst sağ — model her şeyi pozitif olarak sınıflandırır.

- Köşegen (0,0)'dan (1,1)'e — rastgele sınıflandırıcı. Her eşikte eşit doğru pozitif & yanlış pozitif oranları vardır.


AUC (Eğrinin Altındaki Alan) tam bir geometrik alan ölçümüdür. AUC = 0.5, model rastgele anlamında (köşegenin altındaki alan). AUC = 1.0, mükemmel sınıflandırma anlamında (tüm birim kare). İyi bir modelin ROC eğrisi üst-sol köşeye doğru eğilir, daha fazla alan kapsayan.


AUC'nin güzel bir olasılıksal yorumu vardır: rastgele pozitif örneğinden daha yüksek puan alan rastgele negatif örneğinin modelinin olasılığıdır. Fakat geometrik olarak, sadece alan — & bu geometrik basitlik onu sezgisel yapar.

Kesinlik-Hatırlama Uzayı

Farklı Bir Geometrik Tradeoff

Kesinlik-hatırlama eğrileri ROC eğrilerinden farklı geometrik uzayda yaşar & farklı bir hikaye söylerler.


Kesinlik = model pozitif olarak işaretlediği her şeyden, kaçı gerçekten pozitif?

Hatırlama = tüm gerçek pozitiflerden, kaçını model buldu?


Sınıflandırma eşiğini düşürdüğünde (daha fazla şeyi pozitif olarak işaretle), hatırlama artar (daha fazla gerçek pozitif yakalarız) fakat kesinlik tipik olarak azalır (daha fazla yanlış pozitif da yakarız). Bu tradeoff kesinlik-hatırlama uzayında bir eğri izler.


F1 puanı = 2 × (kesinlik × hatırlama) / (kesinlik + hatırlama) — harmonik orta. Geometrik olarak, F1 puanı kesinlik-hatırlama eğrisinde kesinliğin hatırlamaya eşit olduğu noktaya eşittir. Kesinlik-hatırlama karesinin köşegenini nerede kesiştirir.


Ortalama Kesinlik (AP) = kesinlik-hatırlama eğrisinin altındaki alan. AUC-ROC gibi, tüm eğriyi geometrik alanı temsil eden tek bir sayıya özetler.


ROC eğrileri & kesinlik-hatırlama eğrileri aynı modelin tamamlayıcı geometrik görünüşleridir. ROC eğrileri dengesiz veri setlerinde (negatif sınıfın %99'u) iyimser olabilir. Kesinlik-hatırlama eğrileri pozitif sınıfa odaklandığından bilgilendirici kalır.

AUC-ROC Yorumu

AUC-ROC'nin ne ölçtüğünü geometrik olarak anlamak modeller arasında seçim yapmaya yardımcı olur.

İki model aynı doğruluğa sahiptir (%85). Model A'nın AUC-ROC'si 0.92. Model B'nin AUC-ROC'si 0.78. Neden Model A'yı tercih edebilirsin? ROC eğrilerinin geometrik farkı sana ne söyler?

Transformatörler — Nokta Çarpımları Dikkat Olarak

Dikkat Geometrik Benzerlik Ölçüsüdür

Dikkat = Sorgu & Anahtarlar Arasında Geometrik Hizalama

Transformer mimarisi — modern dil modellerinin temeli — geometrik bir işleme inşa edilmiştir: nokta çarpım.


Bir dizideki her belirteç için, transformer üç vektörü hesaplar: Sorgu (Q), Anahtar (K) & Değer (V), her biri girdi gömmesini öğrenilen ağırlık matrisleriyle çarparak elde edilir.


İki belirteç arasındaki dikkat puanı: puan = Q · K^T / √d


Bu ölçeklenmiş nokta çarpımı — geometrik benzerlik ölçüsüdür. Q & K aynı yönü gösterttiğinde (aralarında küçük açı), nokta çarpım büyüktür: bu anahtar bu sorguya oldukça alakalı. Dik olduklarında, nokta çarpım sıfırdır: alakasız.


Puanlar softmax aracılığıyla geçilir, 1'e toplamlanmış bir olasılık dağılımı yaratmak için: 1'e toplamlanmış dikkat ağırlıkları. Çıkış, Değer vektörlerinin ağırlıklı toplamıdır, ağırlıklar geometrik hizalamaya göre belirlenir.


'Kedi oturup mindik çünkü yorulmuştu' cümlesinde, dikkat hesaplar: 'kedi' sözcüğü için, başka hangi sözcükler en geometrik hizalamaya sahiptir? 'Kedi' için Q vektörü 'kedi' için K vektörüne en yakın şekilde hizalanırsa, model 'kedi'ye dikkat eder — zamir referansını geometri aracılığıyla çözer.

Çok-Başlı Dikkat — Birden Fazla Geometrik Perspektif

Neden Birden Fazla Başlık?

Tek bir Q, K, V matris seti ile öz-dikkat, geometrik hizalamayı hesaplar. Ama dilin pek çok tür ilişkisi vardır — sözdizimsel, anlamsal, konumsal, referanssal.


Çok-başlı dikkat, her biri gömmenemesinin alt uzayında farklı türde hizalamayı ölçen Q, K, V projeksiyon matrislerinin birden fazla seti kullanır.


Araştırmacılar dikkat başlıklarını incelediklerinde gözlemledikleri:

- Başlık 1 önceki sözcüğe dikkat edebilir (konumsal yakınlık)

- Başlık 2 konu üzerinden fiile dikkat edebilir (sözdizimsel bağımlılık)

- Başlık 3 bağlamda daha erken anlamsal ilişkili sözcüklere dikkat edebilir

- Başlık 4 en yakın isime dikkat edebilir (oreferans)


Her başlık aynı veriye farklı bir geometrik mercek. Projeksiyonlar gömmenemesini farklı şekillerde döndürür & ölçekler, farklı ilişkileri hizalama aracılığıyla görünür yapar.


Transformatörlerin tek dikkat mekanizmasına sahip modellerden daha iyi performans göstermesi budur. Tek nokta çarpımı tam gömmesinde hizalama bir benzerlik fikrini yakalar. Farklı alt uzaylardaki birden fazla nokta çarpımı, birden fazla, tamamlayıcı benzerlik fikrini eşzamanlı olarak yakalar.

Çok-Başlı Dikkat

Çok-başlı dikkat transformer mimarisi yeniliklerinin anahtarlarından biridir.

Bir transformatörde, neden tek başlı dikkatle karşılaştırıldığında birden fazla dikkat başlığı yardımcı olur? Geometrik alt uzaylar açısından cevapla.

Makine Öğrenmesi Uygulamalı Geometridir

Birleştirici Konusu

Kapsadığımıza bak. Makine öğrenmesindeki her önemli konsept geometrik bir çekirdeğe sahiptir:


Veriler = yüksek boyutlu uzayda noktalar

Özellikler = o uzayın boyutları

Benzerlik = noktalar arasındaki mesafe veya açı

Sınıflandırma = sınıflar arasında geometrik sınırlar bulma

Eğitim = gradyanları takip ederek kayıp yüzeyinde gezinme

Gömmeler = anlamın geometri kodladığı öğrenilen koordinat sistemleri

Değerlendirme = metrik uzaylardaki eğrilerin altındaki alanlar

Dikkat = açısal hizalamayı ölçen nokta çarpımları


Bu tesadüf değil. Makine öğrenmesi matematiksel çerçevesini doğrusal cebirden & diferansiyel geometriden miras aldı — temelde uzay, şekil & dönüşüm hakkında olan alanlar.


Geometriyi anlamak, algoritmaları ezberlemek olamayan bir şeyi verir: sezgi. Modeliniz başarısız olduğunda, geometrik görünüm nereye bakacağını önerir. Sınıflar ayrılabilir değil mi? Sınırı bak. Eğitim takılmış mı? Kayıp yüzeyini incele. Gömmeler kötü mü? Benzer öğelerin geometrik olarak yakın olup olmadığını kontrol et. Dikkat dağınık mı? Alt uzay projeksiyonlarını incele.


Geometri, 3 boyut veya 3 milyar boyutla çalışıyor olsun aynıdır. Matematik ölçekler. Sezgi aktarılır. Bu makine öğrenmesini geometri'nin evrensel dili yapar.

Geometrik Hata Ayıklama

Vektörleri, mesafeleri, sınırları, eğitimi, gömmeler, değerlendirme & dikkati kapsadık — hepsi geometri mercekten.

Bu dersten bir konsepti seç & onun geometrik doğasını anlamanın onu kullanan bir modeli nasıl hata ayıklamam veya iyileştirmem gerektiğini değiştirdiğini açıkla. Spesifik ol.