un — Hình học trong Khoa học Máy tính và Học Máy

un

khách

1 / ?

trở lại bài học

Dữ liệu Sống trong Không gian Hình học

Mọi Thứ Đều Là Một Vectơ

Vectơ Nhúng Từ — Sự Tương tự như Hướng

Trong học máy, dữ liệu sống trong không gian hình học. Mỗi điểm dữ liệu có N đặc trưng là một điểm trong không gian N chiều. Đây không phải là một phép ẩn dụ — đó là nền tảng toán học theo đúng nghĩa của mỗi thuật toán.

Hình ảnh chữ số viết tay (28×28 pixel) là một điểm trong không gian 784 chiều. Mỗi pixel là một tọa độ. Hai chữ số trông giống nhau là những điểm gần nhau trong không gian đó. Hai chữ số khác nhau là những điểm xa nhau.

Một embedding từ ánh xạ một từ đến một điểm trong không gian 300 chiều. Những từ có nghĩa tương tự sẽ ở cùng khu vực. 'Chó' và 'đực cái' gần nhau. 'Chó' và 'quốc hội' xa nhau.

Một hồ sơ người dùng với 50 đặc trưng (tuổi, lịch sử mua hàng, mẫu nhấp chuột) là một điểm trong không gian 50 chiều. Các công cụ gợi ý tìm kiếm những người dùng 'gần' trong không gian này và gợi ý những gì những hàng xóm hình học của họ thích.

Hình học là cách chúng ta suy luận về những không gian này. Khoảng cách, hướng, góc, phép chiếu — đây là những hoạt động cơ bản của học máy.

Các Phép Toán Vectơ — Những Khối Xây dựng Cơ bản

Tích Vô hướng Cấp sức mạnh Cho Mọi Thứ

Ba phép toán vectơ quan trọng nhất trong học máy:

Cộng vectơ — kết hợp các đặc trưng hoặc tín hiệu. Nếu bạn cộng hai vectơ từ, bạn nhận được một vectơ đại diện cho cả hai khái niệm pha trộn với nhau.

Phép nhân vô hướng — chia tỷ lệ một vectơ thay đổi độ lớn của nó mà không thay đổi hướng của nó. Tốc độ học trong gradient descent là các bộ nhân vô hướng.

Tích vô hướng — đây là công cụ sử dụng nhiều. Tích vô hướng của hai vectơ a và b bằng |a||b|cos(θ), trong đó θ là góc giữa chúng. Khi các vectơ được chuẩn hóa (đơn vị độ dài), tích vô hướng CHÍNH LÀ cosin của góc.

Tương tự Cosin = cos(θ) = (a·b) / (|a||b|)

Công thức đơn lẻ này cấp sức mạnh cho:

- Các công cụ tìm kiếm — tìm các tài liệu tương tự như một truy vấn

- Các cơ chế chú ý — quyết định mã thông báo nào quan trọng với nhau

- Các công cụ gợi ý — khớp các hồ sơ người dùng với các hồ sơ mục

- Tạo mới được tăng cường bằng truy xuất — tìm bối cảnh liên quan cho các mô hình ngôn ngữ

cos(θ) = 1 có nghĩa là các vectơ chỉ theo đúng cùng hướng (ý nghĩa giống hệt nhau). cos(θ) = 0 có nghĩa là chúng vuông góc (không liên quan). cos(θ) = -1 có nghĩa là chúng chỉ theo hướng đối diện (ý nghĩa đối lập).

Tương tự Cosin

Tương tự cosin là một trong những số liệu được sử dụng nhiều nhất trong các hệ thống học máy hiện đại.

Hai vectơ nhúng từ có tương tự cosin là 0,95. Một cặp khác có tương tự cosin là 0,12. Mỗi số này cho bạn biết điều gì về mối quan hệ giữa các từ trong mỗi cặp?

Ba Cách Đo Khoảng cách

Lựa chọn Số liệu Khoảng cách Thay đổi Ý nghĩa của 'Tương tự'

Ba Số liệu Khoảng cách — Những Điểm Giống nhau, Ý nghĩa Khác nhau

Cho trước hai điểm trong không gian, có nhiều cách để đo 'khoảng cách' giữa chúng. Mỗi số liệu xác định một hình học khác nhau, & hình học đó xác định những gì mô hình của bạn coi là 'tương tự.'

Khoảng cách Euclidean (L2) — khoảng cách đường thẳng. d = √(Σ(aᵢ - bᵢ)²). Đây là khoảng cách 'như chim bay' mà trực giác của bạn mong đợi. Nó coi tất cả các chiều đều nhau & nhạy cảm với độ lớn.

Khoảng cách Manhattan (L1) — khoảng cách bước đi trên lưới. d = Σ|aᵢ - bᵢ|. Giống như điều hướng các tòa nhà thành phố — bạn chỉ có thể di chuyển dọc theo các trục, không bao giờ đường chéo. Bền bỉ hơn với các ngoại lệ trong các chiều đơn lẻ vì nó không bình phương các khác biệt.

Khoảng cách Cosin — đo góc giữa các vectơ, hoàn toàn bỏ qua độ lớn. d = 1 - cos(θ). Hai tài liệu về cùng một chủ đề có khoảng cách cosin nhỏ bất kể độ dài. Hai tài liệu có độ dài bằng nhau về các chủ đề khác nhau có khoảng cách cosin lớn.

Lựa chọn không tùy ý. Nếu độ lớn quan trọng (liều thuốc, nhiệt độ của lò phản ứng), hãy sử dụng Euclidean. Nếu bạn quan tâm đến các tỷ lệ hơn là giá trị tuyệt đối (phân phối tần suất từ, hồ sơ ưu tiên người dùng), hãy sử dụng cosin. Nếu các khác biệt về đặc trưng riêng lẻ quan trọng hơn độ lớn tập hợp (chẩn đoán lỗi, nơi một cảm biến tăng đột ngột có ý nghĩa), hãy sử dụng Manhattan.

K-Láng giềng Gần nhất — Hình học Thuần túy

KNN: Thuật toán Hình học Đơn giản nhất

K-Láng giềng Gần nhất là thuật toán hình học trong suốt nhất trong học máy. Nó không có giai đoạn huấn luyện — nó LÀ dữ liệu huấn luyện.

Để phân loại một điểm mới: tìm K điểm gần nhất trong dữ liệu huấn luyện. Để họ bỏ phiếu. Lớp đa số thắng. Đó là toàn bộ thuật toán.

Ranh giới quyết định mà KNN tạo ra là một sơ đồ Voronoi — một phân vùng không gian nơi mỗi điểm thuộc vùng của ví dụ huấn luyện gần nhất của nó. Các ranh giới là các đường phân giác vuông góc giữa các điểm huấn luyện liền kề.

Đây là cái nhìn sâu sắc hình học quan trọng: lựa chọn số liệu khoảng cách hoàn toàn thay đổi sơ đồ Voronoi. Khoảng cách Euclidean tạo ra các ranh giới cong, tròn. Khoảng cách Manhattan tạo ra các ranh giới hình thoi. Khoảng cách Cosin tạo ra các ranh giới góc, hình nón.

Cùng dữ liệu huấn luyện. Cùng K. Số liệu khoảng cách khác nhau. Mô hình hoàn toàn khác nhau. Hình học LÀ mô hình.

Lựa chọn Một Số liệu Khoảng cách

Các số liệu khoảng cách không thể thay thế cho nhau — lựa chọn đúng phụ thuộc vào ý nghĩa của 'tương tự' đối với dữ liệu của bạn.

Tại sao bạn có thể sử dụng khoảng cách cosin thay vì khoảng cách Euclidean khi so sánh các tài liệu? Hãy nghĩ về những gì xảy ra khi hai tài liệu thảo luận về cùng một chủ đề nhưng một tài liệu dài hơn nhiều.

Siêu phẳng — Ranh giới Phẳng trong Kích thước Cao

Mỗi Bộ phân loại Tuyến tính Tìm thấy Một Siêu phẳng

Ranh giới Quyết định — Tuyến tính, Phi tuyến, & Mánh khoá Nhân

Một bộ phân loại tuyến tính tìm thấy một bề mặt phẳng chia riêng hai lớp. Kích thước của bề mặt này phụ thuộc vào không gian:

- Trong không gian 2D, ranh giới là một dòng (1 chiều)

- Trong không gian 3D, ranh giới là một mặt phẳng (2 chiều)

- Trong không gian 784D (hình ảnh chữ số MNIST), ranh giới là một siêu phẳng 783 chiều

Mẫu chung: trong không gian N chiều, ranh giới quyết định là một bề mặt phẳng (N-1) chiều được gọi là siêu phẳng.

Hồi quy logistic, máy vectơ hỗ trợ & perceptron một lớp đều là những người tìm kiếm siêu phẳng. Chúng khác nhau về CÁCH họ tìm thấy siêu phẳng tốt nhất:

- Hồi quy logistic tối đa hóa xác suất phân loại chính xác

- SVM tối đa hóa lề hình học — khoảng cách từ siêu phẳng đến các điểm dữ liệu gần nhất

- Perceptrons đơn giản tìm bất kỳ siêu phẳng nào chia dữ liệu, không đảm bảo tính tối ưu

Vectơ trọng lượng của một bộ phân loại tuyến tính LÀ vectơ pháp tuyến của siêu phẳng. Thuật ngữ sai lệch dịch chuyển siêu phẳng ra khỏi gốc tọa độ. Đây là những đối tượng hình học có cách giải thích hình học.

Vượt Ra Ngoài Ranh giới Phẳng

Khi Dữ liệu Không Thể Phân tách Tuyến tính

Nhiều bài toán trong thế giới thực không thể được giải quyết bằng một ranh giới phẳng. Hãy xem xét phân loại hình ảnh của mèo so với chó — không có một siêu phẳng nào trong không gian pixel chia chúng tách biệt một cách sạch sẽ.

Hai chiến lược hình học tồn tại:

Chiến lược 1: Mánh khoá Nhân — Biến đổi dữ liệu thành không gian kích thước cao hơn nơi nó CÓ THể phân tách tuyến tính. Một ví dụ cổ điển: các điểm bên trong một vòng tròn (lớp A) & các điểm bên ngoài (lớp B) trong 2D. Không có dòng nào chia chúng. Nhưng thêm chiều thứ ba z = x² + y², & các điểm bên trong (x² + y² nhỏ) nằm ở phía dưới trong khi các điểm bên ngoài (x² + y² lớn) nằm ở phía trên. Bây giờ một mặt phẳng phẳng chia chúng hoàn hảo.

SVM có hàm nhân làm điều này một cách ngầm — họ tính tích vô hướng trong không gian kích thước cao mà không bao giờ xây dựng các vectơ kích thước cao thực tế. Đây được gọi là 'mánh khoá nhân' & nó là một cái nhìn thuần túy hình học.

Chiến lược 2: Mạng lưới thần kinh — Xếp chồng các phép biến đổi tuyến tính với các hàm kích hoạt phi tuyến. Mỗi lớp áp dụng một phép biến đổi tuyến tính (nhân ma trận = quay + chia tỷ lệ + cắt) theo sau một 'uốn' phi tuyến (ReLU, sigmoid, tanh). Thành phần của nhiều hoạt động tuyến tính rồi uốn có thể xấp xỉ bất kỳ hình dạng ranh giới liên tục nào.

Một mạng nơron sâu là một chuỗi các phép biến đổi hình học uốn không gian đầu vào cho đến khi các lớp trở nên phân tách tuyến tính trong lớp cuối cùng.

Phân tách Dữ liệu Hình tròn

Đây là một trong những bài toán hình học quan trọng nhất trong học máy.

Trong 2D, bạn có các điểm đỏ bên trong một vòng tròn & các điểm xanh bên ngoài. Một đường thẳng không thể chia chúng. Mô tả hai chiến lược hình học để giải quyết vấn đề này.

Bề mặt Tổn thất

Huấn luyện = Đi Xuống Dốc Trên Một Bề mặt

Cảnh quan Tổn thất — Điều hướng Bề mặt

Mỗi mô hình học máy có các tham số — trọng lượng & sai lệch. Hàm tổn thất đo mức độ sai của dự đoán của mô hình. Cùng nhau, những điều này xác định một bề mặt tổn thất: một cảnh quan nơi mỗi điểm tương ứng với một bộ giá trị tham số cụ thể, & chiều cao là tổn thất.

Đối với một mô hình có 2 tham số, bề mặt tổn thất là một cảnh quan 3D mà bạn có thể hình dung — những ngọn đồi, những thung lũng & những bằng phẳng. Đối với một mô hình có 175 tỷ tham số (như GPT-3), bề mặt tổn thất tồn tại trong không gian 175 tỷ chiều. Toán học là giống nhau.

Gradient descent là thuật toán điều hướng bề mặt này. Gradient là một đối tượng hình học — một vectơ chỉ theo hướng tăng dốc nhất. Để giảm tổn thất, di chuyển theo hướng ngược lại: gradient âm. Đây là hoàn toàn đi xuống dốc.

Tốc độ học kiểm soát kích thước bước. Quá lớn & bạn bước quá đã những thung lũng. Quá nhỏ & bạn bò. Gradient cho bạn biết hướng; tốc độ học cho bạn biết bạn bước bao xa.

Điểm Yên ngựa, Cực tiểu & Hình học của Kích thước Cao

Bề mặt Tổn thất Không Phải Là Một Bát Đơn giản

Một hình ảnh ngây thơ của huấn luyện tưởng tượng một bát mịn với một điểm thấp nhất duy nhất. Thực tế phức tạp hơn nhiều:

Cực tiểu cục bộ — những thung lũng không phải là sâu nhất. Gradient descent có thể bị kẹt tại đây, hài lòng rằng mọi hướng đều tăng lên, mặc dù một thung lũng sâu hơn tồn tại ở nơi khác.

Điểm Yên ngựa — hình dáng như yên ngựa. Tổn thất cong xuống một số chiều & hướng lên một số chiều khác. Trong 2D đây là hiếm. Trong kích thước cao, điểm yên ngựa nhiều hơn theo cấp số nhân so với cực tiểu cục bộ. Một điểm tới hạn trong không gian 1000 chiều phải cong hướng lên trong TẤT CẢ 1000 chiều để là một cực tiểu cục bộ. Nếu thậm chí một chiều cong xuống, nó là một điểm yên ngựa.

Bằng phẳng cao nguyên — những vùng nơi gradient gần như bằng không. Huấn luyện dừng lại vì không có dốc để theo.

Cực tiểu sắc nét so với bằng phẳng — một cực tiểu sắc nét là một thung lũng hẹp. Một cực tiểu bằng phẳng là một thung lũng rộng. Nghiên cứu cho thấy rằng cực tiểu bằng phẳng tổng quát hóa tốt hơn thành dữ liệu chưa nhìn thấy, vì các nhiễu loạn nhỏ đối với các tham số (từ tiếng ồn trong dữ liệu mới) không thay đổi đáng kể tổn thất.

SGD với động lượng giúp thoát khỏi điểm yên ngựa & cực tiểu sắc nét. Tính ngẫu nhiên của gradient descent ngẫu nhiên hoạt động giống như lắc một quả bóng trên bề mặt — nó nảy ra khỏi những cái bẫy hẹp & tìm thấy những thung lũng rộng, phẳng hơn.

SGD vs Gradient Descent Toàn bộ Lô

Đây là một trong những cái nhìn sâu sắc thực tế quan trọng nhất trong huấn luyện học máy.

Tại sao gradient descent ngẫu nhiên (SGD) thường tìm thấy những giải pháp tốt hơn so với gradient descent toàn bộ lô, từ góc độ hình học?

Từ Như Vectơ — Số học Ngữ nghĩa

Ý nghĩa Có Hướng

Không gian Nhúng Từ — Hình học Ngữ nghĩa

Word2Vec, GloVe & các embedding transformer hiện đại ánh xạ các token rời rạc (từ, từ phụ) thành những không gian vectơ liên tục. Kết quả là một thế giới hình học nơi ý nghĩa có tọa độ.

Ví dụ nổi tiếng: vua - nam + nữ ≈ nữ hoàng

Đây là số học vectơ. Vectơ từ 'nam' đến 'vua' đại diện cho khái niệm 'hoàng gia được áp dụng cho một người nam.' Vectơ từ 'nữ' đến 'nữ hoàng' đại diện cho 'hoàng gia được áp dụng cho một người nữ.' Những vectơ này xấp xỉ song song — cùng hướng, cùng mối quan hệ, những điểm xuất phát khác nhau.

Những mối quan hệ hình học khác xuất hiện từ huấn luyện trên văn bản:

- Paris - Pháp + Ý ≈ Rome (mối quan hệ là thủ đô của)

- đi bộ - đi + bơi ≈ bơi (biến đổi thì quá khứ)

- lớn hơn - lớn + nhỏ ≈ nhỏ hơn (hình thức so sánh)

Không ai lập trình những mối quan hệ này. Mô hình phát hiện ra rằng ý nghĩa có cấu trúc hình học bằng cách đọc hàng tỷ từ. Các hướng trong không gian nhúng tương ứng với các mối quan hệ ngữ nghĩa. Đây là một trong những khám phá hình học sâu sắc nhất trong học máy.

Giả thuyết Đa tạp

Dữ liệu Kích thước Cao Sống Trên Những Bề mặt Kích thước Thấp

Một hình ảnh khuôn mặt 64×64 xám là một điểm trong không gian 4.096 chiều. Nhưng không phải mỗi điểm trong không gian đó là một khuôn mặt hợp lệ. Hầu hết các vectơ ngẫu nhiên 4.096 chiều trông giống như tiếng ồn tĩnh, không phải khuôn mặt.

Giả thuyết đa tạp phát biểu rằng dữ liệu thực tế, kích thước cao thực sự nằm trên hoặc gần bề mặt cong kích thước thấp (những đa tạp) được nhúng trong không gian kích thước cao. Đa tạp của những khuôn mặt có thể chỉ là 50 chiều — được tham số hóa bởi những yếu tố như góc ánh sáng, tư thế đầu, biểu cảm, sắc tộc, tuổi.

Đây là một tuyên bố hình học có hậu quả thực tế:

- Giảm kích thước (PCA, t-SNE, UMAP) hoạt động vì dữ liệu xấp xỉ kích thước thấp. Những thuật toán này tìm thấy đa tạp & dự án lên nó.

- Autoencoders học nén dữ liệu thành một không gian tiềm ẩn kích thước thấp (đa tạp) & tái cấu trúc từ nó.

- Mô hình tạo sinh (VAE, mô hình lan truyền) học đa tạp & lấy mẫu những điểm mới trên nó — tạo những khuôn mặt mới, âm nhạc mới, văn bản mới trông có thật vì nó nằm trên đa tạp đã học.

Khi mô hình của bạn không tổng quát hóa được, một cách giải thích hình học là: nó đã học được đa tạp sai. Dữ liệu huấn luyện đã vẽ ra một bề mặt không khớp với phân phối dữ liệu thực.

Những Phép loại Suy Vectơ

Cấu trúc hình học của những không gian nhúng là một trong những kết quả đáng ngạc nhiên nhất trong học máy hiện đại.

Nếu các embedding từ nắm bắt ý nghĩa về mặt hình học, điều gì có nghĩa là khi chúng ta nói vectơ từ 'nam' đến 'vua' xấp xỉ song song với vectơ từ 'nữ' đến 'nữ hoàng'? Khái niệm hình học nào đang hoạt động?

Đường cong ROC — Chất lượng Phân loại như Diện tích

Số liệu Đánh giá Sống Trong Không gian Hình học

Không gian ROC — Chất lượng Phân loại như Hình học

Một đường cong ROC (Đặc tính Hoạt động Máy thu) vẽ Tỷ lệ Dương tính Thực sự (trục y) so với **Tỷ lệ Dương tính Sai (trục x) khi bạn quét ngưỡng phân loại từ 0 đến 1.

Đây là một không gian hình học với những cột mốc có ý nghĩa:

- (0, 1) — góc trên bên trái — phân loại hoàn hảo. Mỗi dương tính được phát hiện, không có báo động sai.

- (0, 0) — dưới bên trái — mô hình phân loại mọi thứ là âm tính.

- (1, 1) — phía trên bên phải — mô hình phân loại mọi thứ là dương tính.

- Đường chéo từ (0,0) đến (1,1) — một bộ phân loại ngẫu nhiên. Ở mỗi ngưỡng, nó có tỷ lệ dương tính thực sự & tỷ lệ dương tính sai bằng nhau.

AUC (Diện tích Dưới đường Cong) là một phép đo diện tích hình học theo đúng nghĩa. AUC = 0,5 có nghĩa là mô hình là ngẫu nhiên (diện tích dưới đường chéo). AUC = 1,0 có nghĩa là phân loại hoàn hảo (toàn bộ hình vuông đơn vị). Một mô hình tốt có đường cong ROC cung cấp về góc trên bên trái, kèm theo nhiều diện tích.

AUC có một cách giải thích xác suất xinh đẹp: nó bằng xác suất mà mô hình ghi điểm một ví dụ dương tính ngẫu nhiên cao hơn một ví dụ âm tính ngẫu nhiên. Nhưng hình học, nó chỉ là diện tích — & sự đơn giản hình học đó là những gì làm cho nó trực quan.

Không gian Độ chính xác-Độ nhớ lại

Một Sự đánh đổi Hình học Khác

Những đường cong độ chính xác-độ nhớ lại sống trong một không gian hình học khác so với những đường cong ROC, & họ kể một câu chuyện khác.

Độ chính xác = của mọi thứ mô hình được gắn cờ là dương tính, phần nào thực sự là dương tính?

Độ nhớ lại = của tất cả các dương tính thực tế, phần nào mô hình tìm thấy?

Khi bạn hạ thấp ngưỡng phân loại (gắn cờ nhiều thứ hơn là dương tính), độ nhớ lại tăng (bạn bắt được nhiều dương tính thực hơn) nhưng độ chính xác thường giảm (bạn cũng bắt được nhiều dương tính sai hơn). Sự đánh đổi này vẽ ra một đường cong trong không gian độ chính xác-độ nhớ lại.

Điểm F1 = 2 × (độ chính xác × độ nhớ lại) / (độ chính xác + độ nhớ lại) — trung bình điều hòa. Hình học, điểm F1 bằng điểm trên đường cong độ chính xác-độ nhớ lại nơi độ chính xác bằng độ nhớ lại. Đó là nơi đường cong giao với đường chéo của hình vuông độ chính xác-độ nhớ lại.

Độ chính xác Trung bình (AP) = diện tích dưới đường cong độ chính xác-độ nhớ lại. Giống như AUC-ROC, nó tóm tắt toàn bộ đường cong thành một con số duy nhất đại diện cho diện tích hình học.

Những đường cong ROC & những đường cong độ chính xác-độ nhớ lại là những cách nhìn hình học bổ sung của cùng một mô hình. Những đường cong ROC có thể gây ra sự lạc quan một cách gây hiểu lầm trên những bộ dữ liệu không cân bằng (lớp âm tính 99%). Những đường cong độ chính xác-độ nhớ lại vẫn có thông tin vì họ tập trung vào lớp dương tính.

Diễn giải AUC-ROC

Hiểu rõ những gì AUC-ROC đo lường từ góc độ hình học giúp bạn chọn giữa những mô hình.

Hai mô hình có độ chính xác giống nhau (85%). Mô hình A có AUC-ROC là 0,92. Mô hình B có AUC-ROC là 0,78. Tại sao bạn có thể ưu tiên Mô hình A? Sự khác biệt hình học trong những đường cong ROC của họ cho bạn biết điều gì?

Transformers — Những Tích vô hướng Như Chú ý

Chú ý Là Một Phép đo Tương tự Hình học

Chú ý = Căn chỉnh Hình học Giữa Truy vấn & Chìa khóa

Kiến trúc transformer — nền tảng của những mô hình ngôn ngữ hiện đại — được xây dựng trên một hoạt động hình học: tích vô hướng.

Đối với mỗi token trong một chuỗi, transformer tính ba vectơ: Truy vấn (Q), Chìa khóa (K) & Giá trị (V), mỗi cái có được bằng cách nhân embedding đầu vào bằng những ma trận trọng lượng được học.

Điểm số chú ý giữa hai token là: điểm số = Q · K^T / √d

Đây là một tích vô hướng được chia tỷ lệ — một phép đo tương tự hình học. Khi Q & K chỉ theo cùng một hướng (góc nhỏ giữa chúng), tích vô hướng là lớn: chìa khóa này rất phù hợp với truy vấn này. Khi chúng vuông góc, tích vô hướng bằng không: không liên quan.

Những điểm số được thông qua softmax để tạo một phân phối xác suất: những trọng lượng chú ý tổng hợp thành 1. Kết quả đầu ra là tổng có trọng lượng của những vectơ Giá trị, nơi mà những trọng lượng được xác định bởi sự căn chỉnh hình học.

Trong một câu như 'Con mèo ngồi trên thảm vì nó mệt mỏi,' chú ý tính toán: đối với từ 'nó,' những từ nào khác có sự căn chỉnh hình học nhất? Nếu vectơ Q cho 'nó' thẳng hàng chặt chẽ nhất với vectơ K cho 'con mèo,' mô hình chú ý đến 'con mèo' — giải quyết tham chiếu đại từ thông qua hình học.

Chú ý Đa đầu — Những Góc nhìn Hình học Nhiều

Tại sao Có Nhiều Đầu?

Tự chú ý với một bộ Q, K, V ma trận duy nhất tính toán một loại sự căn chỉnh hình học duy nhất. Nhưng ngôn ngữ có nhiều loại mối quan hệ — cú pháp, ngữ nghĩa, vị trí, tham chiếu.

Chú ý đa đầu sử dụng những bộ Q, K, V ma trận phép chiếu nhiều, mỗi cái dự án vào một không gian con khác nhau của embedding. Mỗi đầu đo sự căn chỉnh trong không gian con hình học riêng của nó.

Những gì những nhà nghiên cứu quan sát khi họ kiểm tra những đầu chú ý:

- Đầu 1 có thể chú ý đến từ trước (gần gũi vị trí)

- Đầu 2 có thể chú ý đến động từ từ chủ ngữ (phụ thuộc cú pháp)

- Đầu 3 có thể chú ý đến những từ ngữ nghĩa liên quan sớm hơn trong bối cảnh

- Đầu 4 có thể chú ý đến danh từ gần đây nhất (đồng cấu trúc tham chiếu)

Mỗi đầu là một ống kính hình học khác nhau trên cùng một dữ liệu. Những phép chiếu xoay & chia tỷ lệ không gian nhúng khác nhau, làm cho những mối quan hệ khác nhau nhìn thấy được thông qua sự căn chỉnh.

Đây là lý do tại sao transformers vượt trội so với những mô hình với cơ chế chú ý duy nhất. Một tích vô hướng duy nhất trong không gian embedding đầy đủ nắm bắt một khái niệm tương tự. Những tích vô hướng nhiều trong những không gian con khác nhau nắm bắt những khái niệm tương tự nhiều, bổ sung đồng thời.

Chú ý Đa đầu

Chú ý đa đầu là một trong những sáng kiến kiến trúc chính của transformer.

Trong một transformer, tại sao sử dụng nhiều đầu chú ý giúp so với một đầu duy nhất? Trả lời theo những không gian con hình học.

Học máy Là Hình học Ứng dụng

Chủ đề Thống nhất

Hãy xem xét những gì chúng ta đã đề cập. Mỗi khái niệm chính trong học máy có một lõi hình học:

Dữ liệu = những điểm trong không gian kích thước cao

Đặc trưng = những chiều của không gian đó

Tương tự = khoảng cách hoặc góc giữa những điểm

Phân loại = tìm những ranh giới hình học giữa những lớp

Huấn luyện = điều hướng một bề mặt tổn thất bằng cách theo những gradients

Embeddings = những hệ tọa độ được học nơi hình học mã hóa ý nghĩa

Đánh giá = những diện tích dưới những đường cong trong những không gian số liệu

Chú ý = những tích vô hướng đo lường sự căn chỉnh góc

Đây không phải là một trùng hợp. Học máy kế thừa khung toán học của nó từ đại số tuyến tính & hình học vi phân — những lĩnh vực đó là cơ bản về không gian, hình dạng & biến đổi.

Hiểu rõ hình học cung cấp cho bạn cái gì mà ghi nhớ những thuật toán không thể: trực giác. Khi mô hình của bạn thất bại, cách nhìn hình học gợi ý nơi để nhìn. Những lớp không tách biệt được? Nhìn vào ranh giới. Huấn luyện bị kẹt? Kiểm tra cảnh quan tổn thất. Embeddings nghèo? Kiểm tra xem những mục tương tự có phải là gần gũi về mặt hình học không. Chú ý phân tán? Kiểm tra những phép chiếu không gian con.

Hình học là cách nhìn giống nhau cho dù bạn đang làm việc với 3 chiều hay 3 tỷ chiều. Toán học chia tỷ lệ. Trực giác chuyển giao. Đây là lý do tại sao hình học là ngôn ngữ phổ quát của học máy.

Gỡ lỗi Hình học

Chúng tôi đã đề cập vectơ, khoảng cách, ranh giới, huấn luyện, embeddings, đánh giá & chú ý — tất cả thông qua ống kính của hình học.

Chọn một khái niệm từ bài học này & giải thích cách hiểu được bản chất hình học của nó THAY ĐỔI CÁCH BẠN SẼ Gỡ LỖI hoặc cải thiện một mô hình sử dụng nó. Hãy cụ thể.