un — Geometri dalam Ilmu Komputer dan Pembelajaran Mesin

un

tamu

1 / ?

kembali ke pelajaran

Data Hidup dalam Ruang Geometris

Semuanya Adalah Vektor

Vektor Penyematan Kata — Kesamaan sebagai Arah

Dalam pembelajaran mesin, data hidup dalam ruang geometris. Setiap titik data dengan N fitur adalah titik dalam ruang N-dimensi. Ini bukan metafora — ini adalah fondasi matematis harfiah dari setiap algoritma.

Gambar digit tulisan tangan (piksel 28×28) adalah titik dalam ruang 784-dimensi. Setiap piksel adalah satu koordinat. Dua digit yang mirip adalah titik-titik terdekat dalam ruang itu. Dua digit yang berbeda adalah titik-titik yang jauh.

Penyematan kata memetakan kata ke titik dalam ruang 300-dimensi. Kata-kata dengan makna serupa berakhir di lingkungan yang sama. 'Anjing' dan 'anak anjing' berdekatan. 'Anjing' dan 'parlemen' jauh.

Profil pengguna dengan 50 fitur (usia, riwayat pembelian, pola klik) adalah titik dalam ruang 50-dimensi. Mesin rekomendasi menemukan pengguna yang 'dekat' dalam ruang ini dan menyarankan apa yang disukai 'tetangga geometris' mereka.

Geometri adalah cara kita menalar tentang ruang-ruang ini. Jarak, arah, sudut, proyeksi — ini adalah operasi fundamental pembelajaran mesin.

Operasi Vektor — Blok Pembangun

Hasil Kali Titik Mendukung Semuanya

Tiga operasi vektor paling penting dalam pembelajaran mesin:

Penjumlahan vektor — menggabungkan fitur atau sinyal. Jika Anda menambahkan dua vektor kata, Anda mendapatkan vektor yang mewakili kedua konsep yang bercampur.

Perkalian skalar — menskalakan vektor mengubah besarnya tanpa mengubah arahnya. Tingkat pembelajaran dalam penurunan gradien adalah pengali skalar.

Hasil kali titik — ini adalah kuda kerja. Hasil kali titik dua vektor a dan b sama dengan |a||b|cos(θ), di mana θ adalah sudut di antara mereka. Ketika vektor dinormalisasi (panjang satuan), hasil kali titik ADALAH kosinus sudut.

Kesamaan kosinus = cos(θ) = (a·b) / (|a||b|)

Formula tunggal ini mendukung:

- Mesin pencari — menemukan dokumen yang mirip dengan kueri

- Mekanisme perhatian — memutuskan token mana yang penting satu sama lain

- Mesin rekomendasi — mencocokkan profil pengguna dengan profil item

- Generasi yang ditingkatkan dengan pengambilan — menemukan konteks yang relevan untuk model bahasa

cos(θ) = 1 berarti vektor menunjuk ke arah yang persis sama (makna identik). cos(θ) = 0 berarti mereka tegak lurus (tidak terkait). cos(θ) = -1 berarti mereka menunjuk ke arah yang berlawanan (makna yang berlawanan).

Kesamaan Kosinus

Kesamaan kosinus adalah salah satu metrik paling banyak digunakan dalam sistem pembelajaran mesin modern.

Dua vektor penyematan kata memiliki kesamaan kosinus 0,95. Pasangan lain memiliki kesamaan kosinus 0,12. Apa yang diceritakan setiap angka tentang hubungan antara kata-kata di setiap pasangan?

Tiga Cara Mengukur Jarak

Pilihan Metrik Jarak Mengubah Arti 'Mirip'

Tiga Metrik Jarak — Titik Yang Sama, Makna Berbeda

Diberikan dua titik dalam ruang, ada banyak cara untuk mengukur 'jarak' di antara keduanya. Setiap metrik mendefinisikan geometri yang berbeda, & geometri itu menentukan apa yang dianggap model Anda 'mirip.'

Jarak Euclidean (L2) — jarak garis lurus. d = √(Σ(aᵢ - bᵢ)²). Ini adalah jarak 'seburung terbang,' jarak yang Anda harapkan. Memperlakukan semua dimensi dengan setara & sensitif terhadap besaran.

Jarak Manhattan (L1) — jarak berjalan di jaringan. d = Σ|aᵢ - bᵢ|. Seperti menavigasi blok kota — Anda hanya dapat bergerak di sepanjang sumbu, tidak pernah diagonal. Lebih tahan terhadap pencilan dalam dimensi tunggal karena tidak mengkuadratkan perbedaannya.

Jarak kosinus — mengukur sudut antara vektor, sepenuhnya mengabaikan besaran. d = 1 - cos(θ). Dua dokumen tentang topik yang sama memiliki jarak kosinus kecil terlepas dari panjang. Dua dokumen dengan panjang sama tentang topik berbeda memiliki jarak kosinus besar.

Pilihannya tidak sembarangan. Jika besaran penting (dosis obat, suhu reaktor), gunakan Euclidean. Jika Anda peduli tentang proporsi daripada nilai absolut (distribusi frekuensi kata, profil preferensi pengguna), gunakan kosinus. Jika perbedaan fitur individu lebih penting daripada besaran agregat (diagnosis kesalahan, di mana satu sensor melonjak bermakna), gunakan Manhattan.

K-Tetangga Terdekat — Geometri Murni

KNN: Algoritma Geometrik Paling Sederhana

K-Tetangga Terdekat adalah algoritma geometrik paling transparan dalam pembelajaran mesin. Tidak ada fase pelatihan — ini ADALAH data pelatihan.

Untuk mengklasifikasikan titik baru: temukan K titik terdekat dalam data pelatihan. Biarkan mereka memilih. Kelas mayoritas menang. Itu seluruh algoritma.

Batas keputusan yang dihasilkan KNN adalah diagram Voronoi — partisi ruang di mana setiap titik termasuk ke wilayah contoh pelatihan terdekatnya. Batasnya adalah garis bagi tegak lurus antara titik pelatihan berdekatan.

Insight geometrik yang penting: pilihan metrik jarak sepenuhnya mengubah diagram Voronoi. Jarak Euclidean menghasilkan batas melengkung dan melingkar. Jarak Manhattan menghasilkan batas berbentuk berlian. Jarak kosinus menghasilkan batas berbentuk kerucut bersudut.

Data pelatihan yang sama. K yang sama. Metrik jarak yang berbeda. Model yang sama sekali berbeda. Geometrinya ADALAH modelnya.

Memilih Metrik Jarak

Metrik jarak tidak dapat dipertukarkan — pilihan yang tepat tergantung pada apa arti 'mirip' untuk data Anda.

Mengapa Anda mungkin menggunakan jarak kosinus alih-alih jarak Euclidean saat membandingkan dokumen? Pikirkan tentang apa yang terjadi ketika dua dokumen membahas topik yang sama tetapi satu jauh lebih panjang.

Hyperplane — Batas Datar dalam Dimensi Tinggi

Setiap Pengklasifikasi Linear Menemukan Hyperplane

Batas Keputusan — Linear, Nonlinear, & Trik Kernel

Pengklasifikasi linear menemukan permukaan datar yang memisahkan dua kelas. Dimensionalitas permukaan ini bergantung pada ruang:

- Dalam ruang 2D, batasnya adalah garis (1-dimensi)

- Dalam ruang 3D, batasnya adalah bidang (2-dimensi)

- Dalam ruang 784D (gambar digit MNIST), batasnya adalah hyperplane 783-dimensi

Pola umum: dalam ruang N-dimensi, batas keputusan adalah permukaan datar (N-1)-dimensi yang disebut hyperplane.

Regresi logistik, mesin vektor dukungan, & perceptron satu lapis adalah semua pencari hyperplane. Mereka berbeda dalam BAGAIMANA mereka menemukan hyperplane terbaik:

- Regresi logistik memaksimalkan probabilitas klasifikasi yang benar

- SVM memaksimalkan margin geometrik — jarak dari hyperplane ke titik data terdekat

- Perceptron hanya menemukan hyperplane apa pun yang memisahkan data, tanpa jaminan optimalitas

Vektor bobot pengklasifikasi linear ADALAH vektor normal ke hyperplane. Istilah bias menggeser hyperplane dari asal. Ini adalah objek geometris dengan interpretasi geometris.

Beyond Batas Datar

Ketika Data Tidak Dapat Dipisahkan Secara Linear

Banyak masalah dunia nyata tidak dapat diselesaikan dengan batas datar. Pertimbangkan mengklasifikasikan gambar kucing vs anjing — tidak ada hyperplane tunggal dalam ruang piksel yang memisahkan mereka dengan bersih.

Dua strategi geometris ada:

Strategi 1: Trik kernel — Ubah data ke ruang dimensi lebih tinggi di mana data DAPAT dipisahkan secara linear. Contoh klasik: titik di dalam lingkaran (kelas A) & titik di luar (kelas B) dalam 2D. Tidak ada garis yang memisahkan mereka. Tetapi tambahkan dimensi ketiga z = x² + y², & titik bagian dalam (x² + y² kecil) duduk rendah sementara titik luar (x² + y² besar) duduk tinggi. Sekarang bidang datar memisahkan mereka dengan sempurna.

SVM dengan fungsi kernel melakukan ini secara implisit — mereka menghitung hasil kali titik dalam ruang dimensi tinggi tanpa pernah membangun vektor dimensi tinggi aktual. Ini disebut 'trik kernel' & ini adalah insight geometris murni.

Strategi 2: Jaringan saraf — Tumpukkan transformasi linear dengan fungsi aktivasi nonlinear. Setiap lapisan menerapkan transformasi linear (perkalian matriks = rotasi + penskalaan + shearing) diikuti oleh 'pembengkokan' nonlinear (ReLU, sigmoid, tanh). Komposisi dari banyak operasi linear-lalu-bending dapat mendekati bentuk batas berkelanjutan apa pun.

Jaringan saraf dalam adalah urutan transformasi geometris yang memelintir ruang input hingga kelas menjadi dapat dipisahkan secara linear dalam lapisan terakhir.

Memisahkan Data Melingkar

Ini adalah salah satu masalah geometrik paling penting dalam pembelajaran mesin.

Dalam 2D, Anda memiliki titik merah di dalam lingkaran & titik biru di luar. Garis lurus tidak dapat memisahkan mereka. Deskripsikan dua strategi geometris untuk menyelesaikan masalah ini.

Permukaan Kehilangan

Pelatihan = Berjalan Menuruni Permukaan

Lanskap Kehilangan — Menavigasi Permukaan

Setiap model pembelajaran mesin memiliki parameter — bobot & bias. Fungsi kehilangan mengukur seberapa salah prediksi model. Bersama-sama, ini mendefinisikan permukaan kehilangan: lanskap di mana setiap titik sesuai dengan set parameter tertentu, & tingginya adalah kehilangan.

Untuk model dengan 2 parameter, permukaan kehilangan adalah lanskap 3D yang dapat Anda visualisasikan — bukit, lembah, & dataran. Untuk model dengan 175 miliar parameter (seperti GPT-3), permukaan kehilangan ada dalam ruang 175-miliar dimensi. Matematiknya sama.

Penurunan gradien adalah algoritma yang menavigasi permukaan ini. Gradien adalah objek geometris — vektor yang menunjuk ke arah pendakian paling curam. Untuk mengurangi kehilangan, bergeraklah ke arah yang berlawanan: gradien negatif. Ini secara harfiah berjalan menuruni bukit.

Tingkat pembelajaran mengontrol ukuran langkah. Terlalu besar & Anda melampaui lembah. Terlalu kecil & Anda merangkak. Gradien memberi tahu Anda arahnya; tingkat pembelajaran memberi tahu Anda seberapa jauh harus melangkah.

Titik Pelana, Minima, & Geometri Dimensi Tinggi

Lanskap Kehilangan Bukan Mangkuk Sederhana

Gambaran naif pelatihan membayangkan mangkuk halus dengan titik terendah tunggal. Kenyataannya jauh lebih kompleks:

Minima lokal — lembah yang bukan yang terdalam. Penurunan gradien dapat terjebak di sini, puas bahwa setiap arah naik, meskipun lembah yang lebih dalam ada di tempat lain.

Titik pelana — berbentuk seperti pelana kuda. Kehilangan melengkung ke bawah dalam beberapa dimensi & ke atas dalam dimensi lain. Dalam 2D ini jarang. Dalam dimensi tinggi, titik pelana secara eksponensial lebih umum daripada minima lokal. Titik kritis dalam ruang 1000-dimensi harus melengkung ke atas dalam SEMUA 1000 dimensi untuk menjadi minima lokal. Jika bahkan satu dimensi melengkung ke bawah, itu adalah titik pelana.

Dataran datar — wilayah di mana gradien dekat nol. Pelatihan macet karena tidak ada lereng untuk diikuti.

Minima tajam vs datar — minima tajam adalah lembah sempit. Minima datar adalah lembah luas. Penelitian menunjukkan bahwa minima datar digeneralisasi lebih baik ke data yang tidak terlihat, karena gangguan kecil pada parameter (dari noise dalam data baru) tidak secara dramatis mengubah kehilangan.

SGD dengan momentum membantu melepaskan titik pelana & minima tajam. Keacakan penurunan gradien stokastik bertindak seperti mengguncang bola di permukaan — itu melompat keluar dari jebakan sempit & menemukan lembah yang lebih luas & lebih datar.

SGD vs Penurunan Gradien Full-Batch

Ini adalah salah satu insight praktis paling penting dalam pelatihan pembelajaran mesin.

Mengapa penurunan gradien stokastik (SGD) sering menemukan solusi yang lebih baik daripada penurunan gradien full-batch, dari perspektif geometris?

Kata sebagai Vektor — Aritmatika Semantik

Makna Memiliki Arah

Ruang Penyematan Kata — Geometri Semantik

Word2Vec, GloVe, & penyematan transformer modern memetakan token diskrit (kata, subkata) ke ruang vektor berkelanjutan. Hasilnya adalah dunia geometris di mana makna memiliki koordinat.

Contoh terkenal: raja - pria + wanita ≈ ratu

Ini adalah aritmatika vektor. Vektor dari 'pria' ke 'raja' mewakili konsep 'kerajaan diterapkan pada pria.' Vektor dari 'wanita' ke 'ratu' mewakili 'kerajaan diterapkan pada wanita.' Vektor ini kira-kira sejajar — arah sama, hubungan sama, titik awal berbeda.

Hubungan geometris lain yang muncul dari pelatihan pada teks:

- Paris - Prancis + Italia ≈ Roma (hubungan ibukota)

- berjalan - berjalan + berenang ≈ berenang (transformasi waktu lampau)

- lebih besar - besar + kecil ≈ lebih kecil (bentuk komparatif)

Tidak ada yang memprogram hubungan ini. Model menemukan bahwa makna memiliki struktur geometris dengan membaca miliaran kata. Arah dalam ruang penyematan sesuai dengan hubungan semantik. Ini adalah salah satu penemuan geometrik paling mendalam dalam pembelajaran mesin.

Hipotesis Manifold

Data Dimensi Tinggi Hidup pada Permukaan Dimensi Rendah

Gambar wajah 64×64 grayscale memiliki 4.096 nilai piksel — ini adalah titik dalam ruang 4.096-dimensi. Tetapi tidak setiap titik dalam ruang itu adalah wajah yang valid. Sebagian besar vektor 4.096-dimensi acak terlihat seperti kebisingan statis, bukan wajah.

Hipotesis manifold menyatakan bahwa data nyata, dimensi tinggi sebenarnya terletak pada atau dekat permukaan dimensi rendah lengkung (manifold) yang tertanam dalam ruang dimensi tinggi. Manifold wajah mungkin hanya 50-dimensi — diparameterkan oleh faktor-faktor seperti sudut pencahayaan, pose kepala, ekspresi, nada kulit, usia.

Ini adalah klaim geometrik dengan konsekuensi praktis:

- Pengurangan dimensionalitas (PCA, t-SNE, UMAP) berfungsi karena data kira-kira berdimensi rendah. Algoritma ini menemukan manifold & memproyeksikan ke atasnya.

- Autoencoder belajar untuk mengompres data ke ruang laten dimensi rendah (manifold) & merekonstruksi darinya.

- Model generatif (VAE, model difusi) belajar manifold & mengambil sampel titik baru di atasnya — menghasilkan wajah baru, musik baru, teks baru yang terlihat nyata karena terletak pada manifold yang dipelajari.

Ketika model Anda gagal digeneralisasi, salah satu penjelasan geometrik adalah: model belajar manifold yang salah. Data pelatihan melacak permukaan yang tidak cocok dengan distribusi data yang sebenarnya.

Analogi Vektor

Struktur geometrik ruang penyematan adalah salah satu hasil paling mengejutkan dalam pembelajaran mesin modern.

Jika penyematan kata menangkap makna secara geometris, apa artinya ketika kita mengatakan vektor dari 'pria' ke 'raja' kira-kira sejajar dengan vektor dari 'wanita' ke 'ratu'? Konsep geometrik apa yang sedang berlaku?

Kurva ROC — Kualitas Klasifikasi sebagai Area

Metrik Evaluasi Hidup dalam Ruang Geometris

Ruang ROC — Kualitas Klasifikasi sebagai Geometri

Kurva ROC (Receiver Operating Characteristic) memplot Tingkat Positif Benar (sumbu y) melawan Tingkat Positif Palsu (sumbu x) saat Anda menyapu ambang klasifikasi dari 0 hingga 1.

Ini adalah ruang geometris dengan landmark bermakna:

- (0, 1) — sudut kiri atas — klasifikasi sempurna. Setiap positif terdeteksi, alarm palsu nol.

- (0, 0) — kiri bawah — model mengklasifikasikan semuanya sebagai negatif.

- (1, 1) — kanan atas — model mengklasifikasikan semuanya sebagai positif.

- Diagonal dari (0,0) ke (1,1) — pengklasifikasi acak. Pada setiap ambang, ia memiliki tingkat positif benar & tingkat positif palsu yang sama.

AUC (Area Under the Curve) secara harfiah pengukuran area geometris. AUC = 0,5 berarti model adalah acak (area di bawah diagonal). AUC = 1,0 berarti klasifikasi sempurna (seluruh persegi satuan). Kurva ROC model yang baik membungkuk ke arah sudut kiri atas, melingkupi lebih banyak area.

AUC memiliki interpretasi probabilistik yang indah: ini sama dengan probabilitas bahwa model menilai contoh positif acak lebih tinggi daripada contoh negatif acak. Tetapi secara geometris, ini hanya area — & kesederhanaan geometris itulah yang membuatnya intuitif.

Ruang Presisi-Recall

Pertukaran Geometrik yang Berbeda

Kurva presisi-recall hidup dalam ruang geometris yang berbeda dari kurva ROC, & mereka menceritakan kisah yang berbeda.

Presisi = dari semua yang ditandai model sebagai positif, fraksi apa yang benar-benar positif?

Recall = dari semua positif aktual, fraksi apa yang ditemukan model?

Saat Anda menurunkan ambang klasifikasi (tandai lebih banyak hal sebagai positif), recall meningkat (Anda menangkap lebih banyak positif nyata) tetapi presisi biasanya menurun (Anda juga menangkap lebih banyak positif palsu). Pertukaran ini melacak kurva dalam ruang presisi-recall.

Skor F1 = 2 × (presisi × recall) / (presisi + recall) — rata-rata harmonis. Secara geometris, skor F1 sama dengan titik pada kurva presisi-recall di mana presisi sama dengan recall. Ini adalah di mana kurva berpotongan dengan diagonal persegi presisi-recall.

Presisi Rata-rata (AP) = area di bawah kurva presisi-recall. Seperti AUC-ROC, itu merangkum seluruh kurva menjadi satu angka yang mewakili area geometris.

Kurva ROC & kurva presisi-recall adalah tampilan geometris yang saling melengkapi dari model yang sama. Kurva ROC dapat sangat optimis pada kumpulan data yang tidak seimbang (99% kelas negatif). Kurva presisi-recall tetap informatif karena fokus pada kelas positif.

Interpretasi AUC-ROC

Memahami apa yang diukur AUC-ROC secara geometris membantu Anda memilih antara model.

Dua model memiliki akurasi yang sama (85%). Model A memiliki AUC-ROC 0,92. Model B memiliki AUC-ROC 0,78. Mengapa Anda mungkin lebih memilih Model A? Apa yang diceritakan perbedaan geometris dalam kurva ROC mereka?

Transformer — Hasil Kali Titik sebagai Perhatian

Perhatian Adalah Ukuran Kesamaan Geometris

Perhatian = Keselarasan Geometris Antara Kueri & Kunci

Arsitektur transformer — fondasi model bahasa modern — dibangun pada operasi geometris: hasil kali titik.

Untuk setiap token dalam urutan, transformer menghitung tiga vektor: Query (Q), Key (K), & Value (V), masing-masing diperoleh dengan mengalikan penyematan input dengan matriks bobot yang dipelajari.

Skor perhatian antara dua token adalah: skor = Q · K^T / √d

Ini adalah hasil kali titik berskala — ukuran kesamaan geometris. Ketika Q & K menunjuk ke arah yang sama (sudut kecil di antara mereka), hasil kali titik besar: kunci ini sangat relevan dengan kueri ini. Ketika mereka tegak lurus, hasil kali titik nol: tidak relevan.

Skor dilewatkan melalui softmax untuk membuat distribusi probabilitas: bobot perhatian yang berjumlah 1. Output adalah jumlah tertimbang vektor Value, di mana bobot ditentukan oleh keselarasan geometris.

Dalam kalimat seperti 'Kucing itu duduk di tikar karena itu lelah,' perhatian menghitung: untuk kata 'itu,' kata lain mana yang memiliki keselarasan geometris paling besar? Jika vektor Q untuk 'itu' selaras paling erat dengan vektor K untuk 'kucing,' model memperhatikan 'kucing' — menyelesaikan referensi kata ganti melalui geometri.

Perhatian Multi-Kepala — Perspektif Geometris Ganda

Mengapa Kepala Ganda?

Self-attention dengan set Q, K, V matriks tunggal menghitung satu jenis keselarasan geometris. Tetapi bahasa memiliki banyak jenis hubungan — sintaktis, semantik, posisional, referensial.

Perhatian multi-kepala menggunakan beberapa set matriks proyeksi Q, K, V, masing-masing memproyeksikan ke subruang berbeda dari penyematan. Setiap kepala mengukur keselarasan dalam subruang geometris uniknya sendiri.

Apa yang diamati peneliti saat mereka memeriksa kepala perhatian:

- Kepala 1 mungkin memperhatikan kata sebelumnya (kedekatan posisional)

- Kepala 2 mungkin memperhatikan kata kerja dari subjek (ketergantungan sintaktis)

- Kepala 3 mungkin memperhatikan kata-kata yang terkait secara semantik sebelumnya dalam konteks

- Kepala 4 mungkin memperhatikan kata benda paling baru (coreferensi)

Setiap kepala adalah lensa geometris berbeda pada data yang sama. Proyeksi memutar & menskalakan ruang penyematan secara berbeda, membuat hubungan berbeda terlihat melalui keselarasan.

Ini adalah mengapa transformer melampaui model dengan mekanisme perhatian tunggal. Hasil kali titik tunggal dalam ruang penyematan penuh menangkap satu gagasan kesamaan. Beberapa hasil kali titik dalam subruang berbeda menangkap beberapa gagasan pelengkap secara bersamaan.

Perhatian Multi-Kepala

Perhatian multi-kepala adalah salah satu inovasi arsitektur kunci transformer.

Dalam transformer, mengapa menggunakan beberapa kepala perhatian membantu dibandingkan dengan kepala tunggal? Jawab dalam hal subruang geometris.

Pembelajaran Mesin Adalah Geometri Terapan

Benang Penyatuan

Lihat apa yang telah kita bahas. Setiap konsep utama dalam pembelajaran mesin memiliki inti geometris:

Data = titik dalam ruang berdimensi tinggi

Fitur = dimensi ruang itu

Kesamaan = jarak atau sudut antara titik

Klasifikasi = menemukan batas geometris antara kelas

Pelatihan = menavigasi permukaan kehilangan dengan mengikuti gradien

Penyematan = sistem koordinat yang dipelajari di mana geometri mengkodekan makna

Evaluasi = area di bawah kurva dalam ruang metrik

Perhatian = hasil kali titik yang mengukur keselarasan sudut

Ini bukan kebetulan. Pembelajaran mesin mewarisi kerangka matematikanya dari aljabar linear & geometri diferensial — bidang yang secara fundamental tentang ruang, bentuk, & transformasi.

Memahami geometri memberi Anda sesuatu yang tidak dapat dilakukan penghafalan algoritma: intuisi. Ketika model Anda gagal, tampilan geometris menunjukkan di mana harus mencari. Apakah kelas tidak dapat dipisahkan? Lihat batasnya. Apakah pelatihan macet? Periksa lanskap kehilangan. Apakah penyematan buruk? Periksa apakah item serupa secara geometris dekat. Apakah perhatian tersebar? Periksa proyeksi subruang.

Geometrinya sama apakah Anda bekerja dengan 3 dimensi atau 3 miliar. Matematika berskala. Intuisi terpindahkan. Ini yang membuat geometri bahasa universal pembelajaran mesin.

Debugging Geometris

Kami telah mencakup vektor, jarak, batas, pelatihan, penyematan, evaluasi, & perhatian — semuanya melalui lensa geometri.

Pilih satu konsep dari pelajaran ini & jelaskan bagaimana memahami sifat geometrisnya mengubah BAGAIMANA Anda akan debug atau meningkatkan model yang menggunakannya. Jadilah spesifik.