un — 해밍의 기하학

un

게스트

1 / ?

수업 목록으로

이진 공간에서의 거리

리처드 해밍의 가장 유명한 기술적 기여: 오류 정정 부호. 이 뒤의 기하학적 아이디어는 어떤 특정 부호보다 더 깊다.

해밍 거리

길이가 같은 두 이진 문자열이 주어졌을 때, 해밍 거리 d(u, v)는 서로 다른 위치의 개수를 센다:

``u = 1 0 1 1 0 v = 1 1 1 0 0 ↑ ↑ d(u,v) = 2``

이는 세 가지 메트릭 공리를 모두 만족한다: d(u,v) ≥ 0; d(u,v) = 0 iff u = v; d(u,v) = d(v,u); d(u,w) ≤ d(u,v) + d(v,w). 해밍 거리를 가진 이진 n-공간은 유효한 메트릭 공간을 형성한다.

기하학은 저차원에서 명확하게 시각화된다. 모든 3비트 문자열은 정육면체의 8개 꼭짓점에 있다. 모서리 인접 꼭짓점은 정확히 1비트 다르고; 면 대각선 꼭짓점은 2비트 다르고; 대척 꼭짓점(예: 000과 111)은 3비트 다르다.

3비트 하이퍼큐브: 해밍 거리

해밍 거리 계산

해밍 가중치 wt(v)는 v에서 1의 개수를 센다. 거리는 XOR를 통해 가중치와 관련된다:

d(u, v) = wt(u XOR v)

예: u = 10110, v = 11100. XOR = 01010. 가중치 = 2. 따라서 d(u,v) = 2.

u = 10011101 및 v = 11010100에 대해 d(u, v)를 계산하시오. XOR 단계를 표시한 다음 다른 비트의 개수를 세시오.

구 채우기를 통한 오류 정정

이진 부호 C ⊆ {0,1}^n은 선택된 코드워드로 이루어진다. 코드워드가 노이즈가 있는 채널을 통해 전송될 때, 일부 비트가 반전될 수 있다. 수신자는 손상된 문자열을 받고 원본을 복구해야 한다.

코드워드 c를 중심으로 하는 해밍 공을 반지름 t로 정의하시오:

B(c, t) = { v ∈ {0,1}^n : d(c, v) ≤ t }

t개까지의 오류를 정정하려면, 모든 코드워드 쌍 주위의 공 B(c, t)가 겹치지 않아야 한다. 겹치면, 수신된 단어가 두 공에 있을 수 있고 디코더는 어떤 코드워드가 전송되었는지 결정할 수 없다.

부호의 최소 거리 d_min이 모든 것을 지배한다:

- d_min − 1개 오류까지 탐지 가능 - ⌊(d_min − 1) / 2⌋개 오류까지 정정 가능

해밍 (7,4) 부호: n = 7 비트, k = 4 데이터 비트, d_min = 3. 1개 오류를 정정한다. 2개를 탐지한다.

오류 정정: 구 채우기

부호의 최소 거리가 5라고 하자. 몇 개의 오류를 탐지할 수 있을까? 몇 개를 정정할 수 있을까? 공식을 표시한 다음 두 값을 모두 계산하시오.

몇 개의 코드워드가 들어갈까?

길이 n의 부호가 t개 오류를 정정하면서 몇 개의 코드워드를 포함할 수 있을까? 각 코드워드는 반지름 t인 공을 '소유'한다. 모든 공은 2^n개의 점을 가진 {0,1}^n에 맞아야 한다.

{0,1}^n에서 반지름 t인 해밍 공의 부피:

Vol(n,t) = Σ_{i=0}^{t} C(n, i)

해밍 한계(구 채우기 한계)가 직접 따라온다: t개 오류를 정정하는 부호는

M · Vol(n,t) ≤ 2^n

여기서 M = 코드워드의 개수. 따라서 M ≤ 2^n / Vol(n,t).

해밍 (7,4) 부호의 경우: n=7, t=1. Vol(7,1) = C(7,0) + C(7,1) = 1 + 7 = 8. 한계: M ≤ 128 / 8 = 16. (7,4) 부호는 M = 2^4 = 16을 달성한다: 완벽한 부호, 공들이 {0,1}^7을 간격 없이 타일링한다는 의미다.

n = 15 및 t = 1(단일 오류 정정)의 경우, Vol(15, 1)을 계산하고 코드워드 개수 M의 해밍 한계를 구하시오. 한계가 주어질 때 M = 2^11이 달성 가능한가?

√n vs n

해밍은 랜덤 워크 논증을 사용하여 장기 시각의 가치를 정확하게 만들었다. 논증은 모호한 주장 — '시각이 도움이 된다' — 를 거리에 대한 기하학적 사실로 변환한다.

ℤ에서의 대칭 랜덤 워크

각 단계에서 +1 또는 −1로 같은 확률로 이동한다. n단계 후, 원점에서의 예상 변위: E[|X_n|] ≈ √n.

이는 분산에서 따라온다: Var(X_n) = n (단계는 독립적, 각각 ±1 분산 1). 표준 편차 = √n.

지향 워크

각 단계에서 확률 p > 1/2(목표로의 편향)로 +1로 이동한다. n단계 후, 예상 위치: E[X_n] = n(2p−1). p = 1(완전히 지향): E[X_n] = n.

대비: 랜덤 표류는 √n으로 스케일링; 지향 진행은 n으로 스케일링.

랜덤 워크 vs 지향 워크

해밍의 번역

연구 경력에서, 각 근무일은 하나의 단계를 나타낸다. 무엇이 중요한지 명확한 시각 없이, 일은 많은 방향으로 표류한다: n일 후, 순 진행 ≈ √n. 일관된 장기 시각으로, 노력이 정렬된다: n일 후, 순 진행 ≈ n. 비율 n / √n = √n은 제한 없이 증가한다.

√n 비율

지향 워크는 완벽한 조준을 요구하지 않는다. 목표를 향한 모든 지속적인 편향은 √n 표류를 n에 더 가까운 것으로 변환한다.

해밍은 명확한 시각을 가진 사람이 그것 없는 사람보다 경력에 걸쳐 대략 √n배를 달성한다고 말했다. 여기서 n은 근무일의 개수다. 경력이 10,000 근무일을 포함한다면, 이 비율은 무엇을 예측하는가? 이 숫자는 지속적인 시각의 실질적 가치에 대해 무엇을 시사하는가?

모델의 한계

시각에서 100배 출력을 예측하는 모델은 검증이 필요하다. 생략하는 여러 것들:

1. 차원성: 경력은 ℤ가 아닌 고차원 공간에서 작동한다. ℝ^d에서의 랜덤 워크의 기하학은 d에 따라 크게 변한다.

2. 상관성: 연구 단계는 상관성이 있다 — 오늘의 일은 어제의 일을 기초로 한다. 상관된 워크는 i.i.d. 단계와 다르게 작동한다.

3. 시각 자체가 잘못될 수 있다: 잘못된 끌개를 향한 지향 워크는 표류보다 더 나쁘다.

√n vs n 논증이 의존하는 가정 중 실제 연구 경력에서 가장 의심스럽다고 생각하는 하나를 식별하시오. 그 가정이 100배 예측에 왜 중요한지 설명하시오.

배가 시간

해밍은 기술 지식이 대략 매 17년마다 배가된다는 주장으로 강의를 시작했다. 그 주장은 정확한 수학적 구조를 가진다: 지수 성장.

지수 성장 모델

y(t) = a · e^(b·t)

여기서 a = t = 0에서의 초기 양, b = 성장률(시간 단위당), e ≈ 2.718.

배가 시간 D: y가 배가되는 시간.

2a = a · e^(b·D) → 2 = e^(b·D) → ln(2) = b·D → D = ln(2) / b

ln(2) ≈ 0.693. b = 0.693/17 ≈ 0.0408 연간 배가 시간 = 17년.

반감기

반감기 H: y가 그 값의 절반으로 감소하는 시간(b < 0).

H = ln(2) / |b|

두 방향 모두 같은 공식. 반감기 5년의 기술: 5년 후, 시장 가치의 절반이 사라진다. 10년 후: 4분의 1이 남는다. 20년 후: 7% 미만이 남는다.

지식 배가

기술 지식이 17년마다 배가된다면, 22세에 졸업한 학생은 56세까지 변환된 지식 경관에 직면한다 — 34년 경력은 두 개의 완전한 배가를 포함한다.

D = ln(2) / b를 사용하여, 17년 배가 시간으로 함축된 연간 성장률 b를 계산하시오. 그런 다음 y(t) = e^(b·t)를 사용하여, 34년 경력에 걸쳐 지식 기반이 몇 배 증가하는지 찾으시오. 당신의 작업을 표시하시오.

전문성의 반감기

같은 지수 모델은 감소에 적용된다. 특정 기술(예: 특정 칩 아키텍처, 폐기된 API, 구식 알고리즘의 숙달)은 분야가 진행되면서 시간에 따라 가치를 잃는다.

특정 기술의 반감기 H = 5년이면, t년 후 원래 가치의 남은 비율: f(t) = (1/2)^(t/H) = 2^(−t/H).

하나의 반감기 후(5년): 50% 남음. 두 개(10년): 25%. 세 개(15년): 12.5%. 네 개(20년): 6.25%.

해밍의 함축: '학는 방법을 배우는' 가치는 특정 지식이 감소하는 것과 같은 지수로 긍정적으로 복합된다. 학습 전략, 문제 구성 & 이전 가능한 추론에 투자는 반감기 주기에 걸쳐 가치를 유지한다.

소프트웨어 엔지니어의 특정 프레임워크에 대한 전문성은 4년의 반감기를 가진다. 그녀는 은퇴까지 12년이 있다. 은퇴 시 그 전문성 가치의 어떤 부분이 남아 있을까? 그런 다음 해석하시오: 이것이 깊은 전문화와 이전 가능한 기술 사이의 학습 시간 할당에 대해 무엇을 시사하는가?

기하학, 오류 정정, & 경력

이 강의의 세 가지 기하학적 구조는 연결되지 않은 것처럼 보인다. 그들은 연결된다.

해밍 거리는 오류의 비용과 그것으로부터 복구하는 데 필요한 중복성을 형식화한다. 모든 통신 시스템, 모든 코드베이스, 모든 지식 본체는 단일 오류가 전체를 손상시키지 않을 만큼 충분한 중복성이 필요하다.

√n vs n 논증은 시각을 기하학적 사실로 변환한다: 표류는 시작점에서의 거리로 스케일링, 지향된 동작은 목표를 향한 변위로 스케일링한다. 경력 전략의 중복성 — 여러 질의 라인을 열어 두기 — 는 우발적 잘못된 방향으로부터 완충된다.

지수 성장 & 감소는 확장하는 경계와 오늘 당신이 아는 것의 반감기를 지배한다. 유일한 안정적인 투자: 학습 방법을 배우기, 이는 특정 지식이 감소하는 것과 같은 시간 척도에서 복합된다.

당신의 분야나 경력에서 직면한 단일 구체적 결정에 이 세 가지 기하학적 아이디어 중 적어도 두 개를 연결하시오. 연결은 구체적이어야 한다: 결정의 이름을 지정하고, 기하학적 구조의 이름을 지정하고, 기하학이 그것 없이 당신이 하는 것과 다르게 무엇을 하도록 말하는지 설명하시오.