모델 적합의 진짜 의미
시뮬레이션 모델은 수학적 주장을 합니다: 실제 시스템의 출력 값은 관측 공간의 특정 표면 M에 lie하거나 근처에 있습니다.
실제 시스템이 y₁, y₂, ..., yₙ의 관측치를 생성합니다. 모델은 ŷ₁, ŷ₂, ..., ŷₙ의 예측치를 제공합니다.
잔차의 거리: rᵢ = yᵢ - ŷᵢ. 각 잔차는 관측치와 그 대응 모델 예측의 거리를 측정합니다. n차원 관측 공간에서 잔차는 벡터 r = y - ŷ를 형성합니다.
최소 제곱 적합: 모델 매개변수를 ||r||² = Σrᵢ²를 최소화하는 것을 선택합니다. 기하학적으로, 관측 벡터 y와 가장 가까운 유리한 모델 표면 M의 점 ŷ를 찾습니다. 이Euclidean 거리에서.
잔차가 잘못 안내할 때
작은 ||r||²는 유효한 모델을 보장하지 않습니다. 두 가지 체계적 실패 모드:
1. 체계적 편향: 잔차 rᵢ는 모두 양성(또는 모두 음성)입니다. 모델은 일관되게 과소 또는 과대 예측합니다. 기하학적으로: ŷ는 실제 데이터 매니폴드의 평행 오프셋 표면에 있습니다 - 거리가 가깝지만 구조가 틀립니다.
2. 올바른 매니폴드: 잔차가 작아 모델이 훈련 데이터를 정확하게 맞추는 데 충분한 자유 변수가 있기 때문에 (과적합). 모델 표면은 데이터 점 사이를 급격하게 곡률을 갖는 데이터 점을 통과합니다. 새로운 데이터에 대한 예측은 좋지 않습니다.
체계적 편향 감지
잔차의 평균이 0인 모델도 입력 변수에 따라 체계적 편향을 가질 수 있습니다.
예: 기상 시뮬레이션에서 여름에는 2°C를 과소 추정하고 겨울에는 2°C를 과대 추정합니다. 전체 연간 평균 잔차가 0이지만 계절별 편향이 명확합니다.
잔차 진단: rᵢ를 각 입력 변수와 플롯합니다. 변수별로 평평한 패턴(추세 없음)은 체계적 편향이 없음을 나타냅니다. 추세 패턴은 모델에 숨겨진 차원がある 것을 밝혀냅니다.
해밍의 검증 질문 — '작은但중요한 효과가 누락되었을 수 있습니까?' —는 기하학적으로 번역됩니다: 잔차 벡터가 모델의 매개변수 공간을 스패닝하지 않는 방향에 구성 요소를 가지고 있는가?
계산된 오차 vs 무작위 노이즈
하스워스 효과: 연구에 참여자들이 그들이 관찰되고 있다는 이유로 행동을 변경하는 것에 대한 실험적 처리 때문이 아니라.
기하학적 해석
실제 데이터 매니폴드 M는 변수 (x₁, x₂, ..., xₖ, 관찰 맥락)로 구성된 공간에 존재합니다.
모델은 관찰 맥락을 무시하고 (x₁, ..., xₖ)만으로 관찰을 맞춤.
관찰 맥락이 '조사 대상'일 때 실제 데이터 점이 관찰 맥락 축에 따라 이동합니다. 모델의 표면 — (x₁, ..., xₖ) 공간에 고정되어 있습니다. 이제 조사 맥락 데이터와 잘 맞는 표면이지만 예측은 관찰되지 않은 맥락에서 시스템적으로 잘못됩니다. 잔차가 작아 보입니다.
기하학: 모델 표면은 연구 맥락 데이터 매니폴드와 가까워 있지만, 현실 매니폴드와 거리가 먼 것입니다. 그들 사이의 거리: 관찰 맥락축에 따라 이동한 하스워스 오차.
해밍의 더블 블라인드 요구 사항: 관찰 맥락과 처리 간의 상관 관계를 방지합니다. 이것은 현실 매니폴드와 연구 맥락 매니폴드가 일치하지 않도록 합니다 — 기하학적 오차를 제거합니다.
다른 숨겨진 차원 효과
모델에서 제외된 변수가 시스템에 영향을 미치면 동일한 기하학적 구조를 생성합니다:
- 경제 모델에서 제외된 계절 효과
- 제조 시뮬레이션에서 제외된 운영자 행동
- 성능 모델에서 누락된 소프트웨어 버전 상태
모델은 데이터가 더 높은 차원의 매니폴드에 존재하지만 낮은 차수의 표면을 적합합니다. 잔차는 모델이 측정하는 방향에서는 작고 측정되지 않은 방향에서는 크합니다.
유효성 검사로서 기하학적 일치
함밍의 유효성 검사 체크리스트, 기하학으로 재구성:
배경 이론이 가정된 법칙을 지원합니까? 모델의 매개변수 공간의 차원이 데이터 매니폴드를 정확하게 채우고 있습니까? 중요한 변수가 누락되어 있다면 (제외된 차원), 모델 표면은 현실과 일치할 수 없습니다.
내부 확인이 가능합니까? 보존 법칙은 기하학적 제약입니다: 데이터는 질량 보존, 에너지 보존 등을 통해 정의된 특정 하위 매니폴드에 있어야 합니다. 시뮬레이션이 이러한 법칙을 위반하면, 그 트랙은 유효한 하위 매니폴드를 떠나게 됩니다.
지식한 과거 경험과 교차 확인: 모델 표면은 역사적 유효성 검증 점을 통과해야 합니다 - 훈련 데이터만 적합해야 하며, 일반화하여 샘플 외부 관찰을 예측해야 합니다.
시뮬레이션은 안정적합니까? 안정적인 시뮬레이션은 작은 변동에도 현실 솔루션 매니폴드 근처에 머무르고, 불안정한 시뮬레이션은 매니폴드의 이웃을 떠나며 유효한 모델로 부르지 않습니다.
예측이 프로젝션으로 변할 때
해밍은 예측이 불가능한 도메인에서 시나리오 방법을 지지했습니다: '시스템이 X를 수행할 것입니다'라고 주장하는 대신 다른 가정을 가정하는 다양한 추론 세트 아래의 가능한 경로를 제시했습니다.
기하학적 해석
모델 표면 M(θ)는 법칙, 상수, 경계 조건에 대한 가정을 포함하는 매개변수 θ에 의존합니다. 서로 다른 가정을 가진 추론 세트 θ₁, θ₂, ..., θₖ은 서로 다른 표면 M(θ₁), ..., M(θₖ)을 정의합니다.
시나리오 패키지는 이러한 표면의 합집합입니다: 어떤 시나리오 모델도 생성할 수 있는 출력 공간의 영역입니다.
단일 예측은: 참 결과가 최선의 추정값 θ에 대한 M(θ) 근처에 위치한다고 주장합니다. 시나리오 방법은: 참 결과가 패키지 내부에 위치한다고 주장합니다.
패키지가 유용한 경우
패키지가 좁다고면 - 서로 다른 가정을 가정하더라도 출력에 대해 시나리오가 일치하면 예측에 대한 자신감이 높습니다. 패키지가 넓다고면 - 서로 다른 가정이 매우 다른 출력을 생성하면 모델이 가정을 매우 민감하게 반응합니다. 그 민감성은 출력이 아니라 실패 모드가 아닙니다.
해밍의 자신의 예측에 대한 주장: 그는 시나리오를 제공하고 있지, точ한 예측을 제공하고 있다고 주장했습니다. 그는 기술한 미래는 '내 의견에 따라 유력하게 발생할 것입니다'라고 설명했으며, 정교한 예측이 아니라고 주장했습니다.
실사와의 연관성
시나리오 모델은 현실이 패키지 내부에 위치할 때 검증됩니다. 점 예측보다 약한 테스트지만 모델이 주장할 수 있는 것에 대해 더 솔직합니다.
모델과 그 기하학을 함께 조립: 유효한 모델
유효한 시뮬레이션의 기하학은 세 가지 정렬로 귀결됩니다:
1. 매개변수 공간이 진짜 매니폴드를 덮어야 합니다: 모델의 차원은 시스템을 구동하는 모든 변수를 포함해야 합니다. 숨겨진 차원 간격은 시스템적 오차를 생성합니다.
2. 안정성이 진짜 매니폴드를 근처에서 유지해야 합니다: 수렴 방향 필드는 오차가 줄어듭니다. 분산 필드는 시뮬레이션을 유효 영역을 떠나게 합니다.
3. 잔차가 작고 구조화되지 않아야 합니다: 무작위로 발생하고 상관관계가 없는 잔차는 모델이 진짜 매니폴드를 정확하게 포착하고 있는 것을 시사합니다. 구조화된 잔차(추세, 패턴)는 차원 추가가 필요한 경우를 나타냅니다.
함밍의 '누구도 시뮬레이션을 믿어야 하는 이유?'는 기하학적으로 다음과 같이 번역됩니다: 모델 표면이 현실 매니폴드에서 얼마나 가까운지, 몇 개의 차원으로 덮어져 있는지, 안정성이 얼마나 되는지, 샘플 아웃SIDE 점수 몇 개로 검증되었는지?