un — 컴퓨터 과학과 머신러닝의 기하학

un

게스트

1 / ?

수업 목록으로

데이터는 기하학적 공간에 산다

모든 것이 벡터다

단어 임베딩 벡터 — 방향으로서의 유사성

머신러닝에서 데이터는 기하학적 공간에 산다. N개 특징을 가진 모든 데이터 포인트는 N차원 공간의 한 점이다. 이것은 은유가 아니다 — 모든 알고리즘의 기초가 되는 문자 그대로의 수학적 기초다.

손글씨 숫자 이미지(28×28 픽셀)는 784차원 공간의 한 점이다. 각 픽셀은 하나의 좌표다. 비슷해 보이는 두 숫자는 그 공간에서 가까운 점들이다. 다른 두 숫자는 멀리 떨어져 있다.

단어 임베딩은 한 단어를 300차원 공간의 한 점으로 매핑한다. 뜻이 비슷한 단어들은 같은 이웃에 끝난다. '개'와 '강아지'는 가깝다. '개'와 '의회'는 멀다.

50개 특징을 가진 사용자 프로필(나이, 구매 이력, 클릭 패턴)은 50차원 공간의 한 점이다. 추천 엔진은 이 공간에서 '가까운' 사용자들을 찾아 그들이 좋아한 것을 제안한다.

기하학이 이 공간들을 생각하는 방식이다. 거리, 방향, 각도, 투영 — 이것들이 머신러닝의 기본 연산이다.

벡터 연산 — 기본 요소들

내적이 모든 것을 구동한다

머신러닝에서 가장 중요한 세 벡터 연산:

벡터 덧셈 — 특징이나 신호를 결합한다. 두 단어 벡터를 더하면 두 개념이 섞인 벡터를 얻는다.

스칼라 곱셈 — 벡터 크기를 변한다 방향은 바뀌지 않는다. 기울기 강하에서 학습률은 스칼라 승수다.

내적 — 이것이 주력이다. 두 벡터 a와 b의 내적은 |a||b|cos(θ)이다. θ는 그들 사이의 각도다. 벡터들이 정규화되면(단위 길이), 내적 그 자체가 각도의 코사인이다.

코사인 유사성 = cos(θ) = (a·b) / (|a||b|)

이 단 하나의 공식이 다음을 구동한다:

- 검색 엔진 — 쿼리와 비슷한 문서 찾기

- 어텐션 메커니즘 — 어떤 토큰이 서로에게 중요한지 결정하기

- 추천 엔진 — 사용자 프로필을 항목 프로필에 매칭하기

- 검색-증강 생성 — 언어 모델을 위한 관련 맥락 찾기

cos(θ) = 1은 벡터들이 정확히 같은 방향을 가리킨다(동일한 의미). cos(θ) = 0은 수직(무관함). cos(θ) = -1은 반대 방향을 가리킨다(대립적 의미).

코사인 유사성

코사인 유사성은 현대 머신러닝 시스템에서 가장 많이 사용되는 지표 중 하나다.

두 단어 임베딩 벡터의 코사인 유사성이 0.95다. 다른 쌍은 0.12다. 각 숫자가 각 쌍의 단어들 사이의 관계에 대해 무엇을 말해주는가?

거리를 측정하는 세 가지 방법

거리 지표의 선택이 '유사한'이 무엇인지 바꾼다

세 거리 지표 — 같은 점, 다른 의미

공간의 두 점이 주어졌을 때, 그들 사이의 '거리'를 측정하는 많은 방법이 있다. 각 지표는 다른 기하학을 정의하고, 그 기하학이 당신의 모델이 '유사한'을 무엇으로 간주하는지를 결정한다.

유클리드 거리(L2) — 직선 거리. d = √(Σ(aᵢ - bᵢ)²). '까마귀처럼 날아가는' 거리, 직관이 기대하는 거리. 모든 차원을 동일하게 취급하고 크기에 민감하다.

맨해튼 거리(L1) — 격자 보행 거리. d = Σ|aᵢ - bᵢ|. 도시 블록을 따라 이동하는 것처럼 — 대각선으로 이동할 수 없다. 차이를 제곱하지 않기 때문에 단일 차원의 이상치에 더 강하다.

코사인 거리 — 벡터 사이의 각도를 측정하며, 크기를 완전히 무시한다. d = 1 - cos(θ). 같은 주제의 두 문서는 길이에 관계없이 작은 코사인 거리를 가진다. 다른 주제의 같은 길이의 두 문서는 큰 코사인 거리를 가진다.

선택은 자의적이지 않다. 크기가 중요하다면(약물의 용량, 원자로의 온도), 유클리드를 사용하자. 절댓값보다 비율을 신경 쓴다면(단어 빈도 분포, 사용자 선호도 프로필), 코사인을 사용하자. 개별 특징 차이가 집계 크기보다 더 중요하다면(고장 진단, 한 센서가 급증하는 것이 의미 있는 경우), 맨해튼을 사용하자.

K-최근린 — 순수 기하학

KNN: 가장 간단한 기하학적 알고리즘

K-최근린은 머신러닝에서 가장 투명한 기하학적 알고리즘이다. 훈련 단계가 없다 — 그것 자체가 훈련 데이터다.

새로운 점을 분류하려면: 훈련 데이터에서 가장 가까운 K개 점을 찾자. 그들에게 투표하게 하자. 다수파 클래스가 승리한다. 그것이 전체 알고리즘이다.

KNN이 생성하는 결정 경계는 보로노이 다이어그램 — 각 점이 가장 가까운 훈련 예제의 영역에 속하는 공간 분할이다. 경계들은 인접한 훈련 점들 사이의 수직 이등분선이다.

여기 중요한 기하학적 통찰: 거리 지표의 선택이 보로노이 다이어그램을 완전히 바꾼다. 유클리드 거리는 곡선의, 원형 경계를 생성한다. 맨해튼 거리는 마름모 모양 경계를 생성한다. 코사인 거리는 각진, 원뿔 모양 경계를 생성한다.

같은 훈련 데이터. 같은 K. 다른 거리 지표. 완전히 다른 모델. 기하학이 모델 자체다.

거리 지표 선택하기

거리 지표는 상호 교환 가능하지 않다 — 올바른 선택은 데이터에 대해 '유사한'이 무엇을 의미하는지에 따라 다르다.

문서를 비교할 때 유클리드 거리 대신 코사인 거리를 왜 사용할까? 같은 주제를 다루지만 하나가 훨씬 더 긴 두 문서에 어떤 일이 일어나는지 생각해보자.

초평면 — 고차원의 평면 경계

모든 선형 분류기는 초평면을 찾는다

결정 경계 — 선형, 비선형, & 커널 트릭

선형 분류기는 두 클래스를 분리하는 평면 표면을 찾는다. 이 표면의 차원성은 공간에 따라 다르다:

- 2D 공간에서 경계는 선 (1차원)

- 3D 공간에서 경계는 평면 (2차원)

- 784D 공간(MNIST 숫자 이미지)에서 경계는 783차원 초평면

일반 패턴: N차원 공간에서 결정 경계는 초평면이라 불리는 (N-1)차원 평면 표면이다.

로지스틱 회귀, 지원 벡터 머신, & 단일 층 퍼셉트론은 모두 초평면 찾기다. 최상의 초평면을 찾는 방식에서 다르다:

- 로지스틱 회귀 올바른 분류의 확률을 최대화한다

- SVM 기하학적 마진을 최대화한다 — 초평면에서 가장 가까운 데이터 포인트까지의 거리

- 퍼셉트론 데이터를 분리하는 초평면을 찾기만 한다. 최적성을 보장하지 않는다

선형 분류기의 가중치 벡터는 초평면의 법선 벡터다. 편향 항은 초평면을 원점에서 멀리 이동시킨다. 이들은 기하학적 해석을 가진 기하학적 대상이다.

평면 경계 너머로

데이터가 선형적으로 분리 불가능할 때

많은 실제 문제는 평면 경계로 해결할 수 없다. 고양이 대 개 이미지를 분류하는 것을 생각해보자 — 픽셀 공간의 단일 초평면이 깔끔하게 분리할 수 없다.

두 가지 기하학적 전략이 존재한다:

전략 1: 커널 트릭 — 데이터를 선형적으로 분리 가능한 더 높은 차원 공간으로 변환한다. 고전적 예: 원 안의 점들(클래스 A) & 바깥의 점들(클래스 B) 2D에서. 선은 분리할 수 없다. 하지만 z = x² + y² 세 번째 차원을 더하면, 안쪽 점들(작은 x² + y²)은 아래에 앉고 바깥쪽 점들(큰 x² + y²)은 위에 앉는다. 이제 평면이 완벽하게 분리한다.

커널 함수를 가진 SVM은 이를 암묵적으로 한다 — 실제로 고차원 벡터를 구성하지 않으면서 고차원 공간의 내적을 계산한다. 이를 '커널 트릭'이라 하며 완전히 기하학적 통찰이다.

전략 2: 신경망 — 선형 변환을 비선형 활성화 함수와 스택한다. 각 층은 선형 변환(행렬 곱셈 = 회전 + 스케일링 + 전단)을 적용한 후 비선형 '구부림'(ReLU, sigmoid, tanh)을 적용한다. 많은 선형-다음-구부림 연산의 합성은 어떤 연속 경계 형태도 근사할 수 있다.

깊은 신경망은 입력 공간을 왜곡하는 기하학적 변환의 수열로, 클래스가 최종 층에서 선형적으로 분리 가능해질 때까지.

원형 데이터 분리하기

이것이 머신러닝에서 가장 중요한 기하학적 문제 중 하나다.

2D에서, 빨간 점들은 원 안에, 파란 점들은 바깥에 있다. 직선은 분리할 수 없다. 이 문제를 풀기 위한 두 가지 기하학적 전략을 설명하자.

손실 표면

훈련 = 표면을 내려가며 걷기

손실 표면 — 표면 항해

모든 머신러닝 모델은 매개변수 — 가중치 & 편향을 가진다. 손실 함수는 모델의 예측이 얼마나 잘못되었는지 측정한다. 함께, 이들은 손실 표면을 정의한다: 각 점이 특정 매개변수 값 집합에 해당하고, 높이가 손실인 풍경.

2개 매개변수를 가진 모델의 경우, 손실 표면은 당신이 시각화할 수 있는 3D 풍경이다 — 언덕, 계곡, & 평원. 1750억 개 매개변수를 가진 모델(GPT-3 같은)의 경우, 손실 표면은 1750억 차원 공간에 존재한다. 수학은 동일하다.

기울기 강하는 이 표면을 항해하는 알고리즘이다. 기울기는 기하학적 대상이다 — 가파른 상승 방향을 가리키는 벡터. 손실을 줄이려면, 반대 방향으로 이동하자: 음의 기울기. 이것은 문자 그대로 내려가며 걷는 것이다.

학습률은 단계 크기를 제어한다. 너무 크면 계곡을 지나친다. 너무 작으면 기어간다. 기울기가 방향을 말해준다; 학습률이 얼마나 멀리 단계를 내디딜지 말해준다.

안장점, 극소값, & 고차원의 기하학

손실 표면은 단순한 그릇이 아니다

훈련의 순진한 그림은 단일 최저점을 가진 매끄러운 그릇을 상상한다. 현실은 훨씬 복잡하다:

국소 극소값 — 가장 깊지 않은 계곡들. 기울기 강하는 여기 갇힐 수 있다. 모든 방향이 위로 올라간다고 만족하면서도, 더 깊은 계곡이 다른 곳에 존재한다.

안장점 — 말 안장처럼 모양이다. 손실이 일부 차원에서 내려가고 다른 차원에서 위로 올라간다. 2D에선 이것이 드물다. 고차원에선, 안장점이 국소 극소값보다 지수적으로 더 흔하다. 1000차원 공간의 임계점이 국소 극소값이 되려면 모든 1000개 차원에서 위로 올라가야 한다. 하나의 차원이라도 내려가면, 그것은 안장점이다.

평면 고원 — 기울기가 0에 가까운 영역들. 훈련이 멈춘다. 따를 기울기가 없기 때문이다.

예리한 대 평면 극소값 — 예리한 극소값은 좁은 계곡이다. 평면 극소값은 넓은 계곡이다. 연구는 평면 극소값이 보이지 않은 데이터에 더 잘 일반화된다고 시사한다. 매개변수에 대한 작은 섭동(새로운 데이터의 노이즈에서)이 손실을 극적으로 바꾸지 않기 때문이다.

모멘텀이 있는 SGD는 안장점 & 예리한 극소값을 벗어나는 데 도움이 된다. 확률적 기울기 강하의 무작위성이 표면에 공을 흔드는 것처럼 작용한다 — 좁은 함정에서 튀어나오고 더 넓고 평평한 계곡을 찾는다.

SGD 대 전체-배치 기울기 강하

이것이 머신러닝 훈련에서 가장 중요한 실제 통찰 중 하나다.

확률적 기울기 강하(SGD)가 왜 전체-배치 기울기 강하보다 종종 더 나은 해결책을 찾는가, 기하학적 관점에서?

단어를 벡터로 — 의미론적 산술

의미는 방향을 가진다

단어 임베딩 공간 — 의미론적 기하학

Word2Vec, GloVe, & 최신 트랜스포머 임베딩은 이산 토큰(단어, 부분문자)을 연속 벡터 공간으로 매핑한다. 결과는 의미가 좌표를 가진 기하학적 세계다.

유명한 예: 왕 - 남자 + 여자 ≈ 여왕

이것은 벡터 산술이다. '남자'에서 '왕'으로의 벡터는 '남성에게 적용되는 왕족' 개념을 나타낸다. '여자'에서 '여왕'으로의 벡터는 '여성에게 적용되는 왕족'을 나타낸다. 이 벡터들은 대략적으로 평행하다 — 같은 방향, 같은 관계, 다른 시작점.

훈련에서 텍스트를 읽으면서 나타나는 다른 기하학적 관계:

- 파리 - 프랑스 + 이탈리아 ≈ 로마 (수도 관계)

- 걸었다 - 걷다 + 수영하다 ≈ 수영했다 (과거형 변환)

- 더 큰 - 큰 + 작은 ≈ 더 작은 (비교형)

아무도 이 관계들을 프로그래밍하지 않았다. 모델은 수십억 개의 단어를 읽으면서 의미가 기하학적 구조를 가진다는 것을 발견했다. 임베딩 공간의 방향은 의미론적 관계에 해당한다. 이것이 머신러닝의 가장 심오한 기하학적 발견 중 하나다.

다양체 가설

고차원 데이터는 저차원 표면에 산다

64×64 그레이스케일 얼굴 이미지는 4,096개 픽셀 값을 가진다 — 4,096차원 공간의 한 점이다. 하지만 그 공간의 모든 점이 유효한 얼굴은 아니다. 대부분의 무작위 4,096차원 벡터는 얼굴이 아닌 정적 노이즈처럼 보인다.

다양체 가설은 실제 고차원 데이터가 실제로 고차원 공간에 임베딩된 저차원 곡면(다양체)에 산다고 말한다. 얼굴의 다양체는 50차원일 수도 있다 — 조명 각도, 머리 자세, 표정, 피부색, 나이 같은 요인들로 매개변수화된.

이것은 실제 결과가 있는 기하학적 주장이다:

- 차원성 축약(PCA, t-SNE, UMAP)은 데이터가 대략적으로 저차원이기 때문에 작동한다. 이 알고리즘들은 다양체를 찾아 그것에 투영한다.

- 자동인코더는 데이터를 저차원 잠재 공간(다양체)으로 압축한 후 그곳에서 재구성하는 방법을 배운다.

- 생성 모델(VAE, 확산 모델)은 다양체를 배우고 그 위의 새로운 점을 샘플링한다 — 새로운 얼굴, 새로운 음악, 새로운 텍스트를 생성한다. 배운 다양체 위에 있기 때문에 실제처럼 보인다.

당신의 모델이 일반화하지 못할 때, 기하학적 설명 중 하나는: 잘못된 다양체를 배웠다. 훈련 데이터는 진정한 데이터 분포와 일치하지 않는 표면을 추적했다.

벡터 유추

임베딩 공간의 기하학적 구조는 현대 머신러닝에서 가장 놀라운 결과 중 하나다.

단어 임베딩이 의미를 기하학적으로 캡처한다면, '남자'에서 '왕'으로의 벡터가 '여자'에서 '여왕'으로의 벡터와 대략적으로 평행하다고 말할 때 무엇을 의미하는가? 어떤 기하학적 개념이 작동하는가?

ROC 곡선 — 분류 품질을 넓이로

평가 지표는 기하학적 공간에 산다

ROC 공간 — 분류 품질을 기하학으로

ROC(수신자 작동 특성) 곡선은 참 양성 비율(y축)을 거짓 양성 비율(x축)에 대해 플롯한다. 분류 임계값을 0에서 1로 계속 변한다.

이것은 의미 있는 징표를 가진 기하학적 공간이다:

- (0, 1) — 왼쪽 위 모서리 — 완벽한 분류. 모든 양성을 감지, 거짓 경보 없음.

- (0, 0) — 왼쪽 아래 — 모델이 모든 것을 음성으로 분류한다.

- (1, 1) — 오른쪽 위 — 모델이 모든 것을 양성으로 분류한다.

- 대각선 (0,0)에서 (1,1)로 — 무작위 분류기. 모든 임계값에서 참 양성 & 거짓 양성 비율이 같다.

AUC(곡선 아래 넓이)는 문자 그대로 기하학적 넓이 측정이다. AUC = 0.5는 모델이 무작위라는 의미(대각선 아래의 넓이). AUC = 1.0은 완벽한 분류(전체 단위 정사각형). 좋은 모델의 ROC 곡선은 왼쪽 위 모서리를 향해 구부러지며 더 많은 넓이를 포함한다.

AUC는 아름다운 확률론적 해석을 가진다: 모델이 무작위 양성 예제에 무작위 음성 예제보다 더 높은 점수를 줄 확률과 같다. 하지만 기하학적으로, 그것은 그냥 넓이 — & 그 기하학적 단순성이 그것을 직관적으로 만드는 것이다.

정밀도-재현율 공간

다른 기하학적 트레이드오프

정밀도-재현율 곡선은 ROC 곡선과 다른 기하학적 공간에 산다. 다른 이야기를 말한다.

정밀도 = 모델이 양성으로 표시한 모든 것 중 몇 분의 몇이 실제로 양성인가?

재현율 = 모든 실제 양성 중 몇 분의 몇을 모델이 찾았는가?

분류 임계값을 내리면(더 많은 것을 양성으로 표시), 재현율이 올라간다(더 많은 실제 양성을 잡는다). 하지만 정밀도는 전형적으로 내려간다(더 많은 거짓 양성도 잡는다). 이 트레이드오프는 정밀도-재현율 공간에서 곡선을 추적한다.

F1 점수 = 2 × (정밀도 × 재현율) / (정밀도 + 재현율) — 조화평균. 기하학적으로, F1 점수는 정밀도-재현율 곡선 위의 점과 같다. 정밀도가 재현율과 같은 지점이다. 정밀도-재현율 정사각형의 대각선과 교차하는 곡선.

평균 정밀도(AP) = 정밀도-재현율 곡선 아래 넓이. AUC-ROC처럼, 전체 곡선을 단일 숫자로 요약한다. 기하학적 넓이를 나타내는 숫자다.

ROC 곡선 & 정밀도-재현율 곡선은 같은 모델의 상호 보완적 기하학적 관점이다. ROC 곡선은 불균형한 데이터세트에서 오도적으로 낙관적일 수 있다(99% 음성 클래스). 정밀도-재현율 곡선은 양성 클래스에 집중하기 때문에 정보력 있다.

AUC-ROC 해석

AUC-ROC가 기하학적으로 무엇을 측정하는지 이해하는 것이 모델 선택을 돕는다.

두 모델이 같은 정확도(85%)를 가진다. 모델 A는 AUC-ROC 0.92를 가진다. 모델 B는 AUC-ROC 0.78을 가진다. 왜 모델 A를 더 선호할까? ROC 곡선의 기하학적 차이가 무엇을 말해주는가?

트랜스포머 — 내적으로서의 어텐션

어텐션은 기하학적 유사성 측정이다

어텐션 = 쿼리와 키 사이의 기하학적 정렬

트랜스포머 아키텍처 — 현대 언어 모델의 기초 — 기하학적 연산 위에 지어진다: 내적.

수열의 각 토큰에 대해, 트랜스포머는 세 벡터를 계산한다: 쿼리(Q), 키(K), & 값(V). 각각 입력 임베딩에 학습된 가중치 행렬을 곱해서 얻는다.

두 토큰 사이의 어텐션 점수는: 점수 = Q · K^T / √d

이것은 스케일된 내적 — 기하학적 유사성 측정이다. Q와 K가 같은 방향을 가리킬 때(작은 각도), 내적은 크다: 이 키는 이 쿼리에 매우 관련 있다. 수직일 때, 내적은 0이다: 무관하다.

점수들은 소프트맥스를 통과하여 확률 분포를 생성한다: 1로 합산되는 어텐션 가중치. 출력은 값 벡터의 가중합이다. 가중치는 기하학적 정렬에 의해 결정된다.

'고양이가 매트 위에 앉았다. 그것은 피곤했다' 같은 문장에서, 어텐션은 다음을 계산한다: '그것' 단어에 대해, 다른 어떤 단어가 가장 기하학적 정렬을 가지는가? 'it'의 Q 벡터가 'cat'의 K 벡터와 가장 밀접하게 정렬된다면, 모델은 'cat'에 어텐션한다 — 대명사 참조를 기하학으로 해결한다.

다중-헤드 어텐션 — 다중 기하학적 관점

왜 다중 헤드인가?

단일 Q, K, V 행렬 집합이 있는 자기 어텐션은 한 종류의 기하학적 정렬을 계산한다. 하지만 언어는 많은 유형의 관계를 가진다 — 통사적, 의미론적, 위치적, 참조적.

다중-헤드 어텐션은 Q, K, V 투영 행렬의 다중 집합을 사용하며, 각각 임베딩의 다른 부분공간으로 투영한다. 각 헤드는 자신의 기하학적 부분공간에서 정렬을 측정한다.

연구자들이 어텐션 헤드를 검사할 때 관찰하는 것:

- 헤드 1은 이전 단어에 어텐션할 수도(위치적 근접)

- 헤드 2는 주어에서 동사로 어텐션할 수도(통사적 의존성)

- 헤드 3은 맥락에서 더 일찍 의미론적으로 관련된 단어에 어텐션할 수도

- 헤드 4는 가장 최근 명사에 어텐션할 수도(대명사 참조)

각 헤드는 같은 데이터 위의 다른 기하학적 렌즈다. 투영들이 임베딩 공간을 다르게 회전 & 스케일링하여, 정렬을 통해 다른 관계를 가시적으로 만든다.

이것이 트랜스포머들이 단일 어텐션 메커니즘을 가진 모델을 능가하는 이유다. 전체 임베딩 공간의 단일 내적은 유사성의 한 가지 개념을 캡처한다. 다른 부분공간의 다중 내적은 다중, 상호 보완적 개념을 동시에 캡처한다.

다중-헤드 어텐션

다중-헤드 어텐션은 트랜스포머의 핵심 건축학적 혁신 중 하나다.

트랜스포머에서, 단일 헤드에 비해 다중 어텐션 헤드를 사용하는 것이 왜 도움이 될까? 기하학적 부분공간 관점에서 답하자.

머신러닝은 응용 기하학이다

통일하는 실

우리가 다룬 것을 보자. 머신러닝의 모든 주요 개념은 기하학적 핵심을 가진다:

데이터 = 고차원 공간의 점들

특징 = 그 공간의 차원

유사성 = 점들 사이의 거리 또는 각도

분류 = 클래스 사이의 기하학적 경계 찾기

훈련 = 기울기를 따르며 손실 표면을 항해

임베딩 = 기하학이 의미를 인코딩하는 학습된 좌표계

평가 = 지표 공간의 곡선 아래 넓이

어텐션 = 각도 정렬을 측정하는 내적

이것은 우연이 아니다. 머신러닝은 선형대수학 & 미분 기하학에서 수학 틀을 물려받았다 — 공간, 형태, & 변환에 대한 기본적인 필드들.

기하학을 이해하는 것이 알고리즘을 암기하는 것이 할 수 없는 무엇을 준다: 직관. 당신의 모델이 실패할 때, 기하학적 관점은 어디를 봐야 하는지 제안한다. 클래스가 분리 불가능한가? 경계를 봐라. 훈련이 멈혔는가? 손실 표면을 검사해라. 임베딩이 형편없는가? 비슷한 항목이 기하학적으로 가까운지 확인해라. 어텐션이 흐릿한가? 부분공간 투영을 검사해라.

기하학은 3개 차원이든 30억 개 차원이든 동일하다. 수학이 스케일한다. 직관이 이전한다. 이것이 기하학을 머신러닝의 보편 언어로 만드는 것이다.

기하학적 디버깅

우리는 벡터, 거리, 경계, 훈련, 임베딩, 평가, & 어텐션을 다뤘다 — 모두 기하학의 렌즈를 통해.

이 수업에서 한 가지 개념을 선택하고 그 기하학적 성질을 이해하는 것이 그것을 사용하는 모델을 디버그하거나 개선하는 방식을 어떻게 바꾸는지 설명하자. 구체적이어야 한다.