Apa Itu Pasangan Model Sebenarnya
Model simulasi membuat klaim matematis: output sistem nyata terletak pada (dekat) permukaan khusus M dalam ruang pengamatan.
Biarkan sistem nyata menghasilkan pengamatan y₁, y₂, ..., yₙ. Model memprediksi nilai ŷ₁, ŷ₂, ..., ŷₙ.
Sisihan sebagai jarak: rᵢ = yᵢ - ŷᵢ. Setiap sisihan mengukur jarak antara pengamatan dan prediksi model yang sesuai. Dalam ruang pengamatan n-dimensional, sisihan membentuk vektor r = y - ŷ.
Pasangan terkecil kuadrat: pilih parameter model untuk meminimalkan ||r||² = Σrᵢ². Geometris: temukan titik ŷ pada permukaan model M terdekat ke vektor pengamatan y dalam jarak Euklides.
Ketika Sisihan Menyebabkan Kebingungan
||r||² kecil tidak menjamin model yang valid. Dua mode kegagalan sistematis:
1. Bias sistematis: sisihan rᵢ kecil tetapi semua positif (atau semua negatif). Model secara konsisten melampaui atau melebihi prediksi. Geometris: ŷ terletak pada permukaan offset paralel ke manifold data yang benar — dekat dalam jarak, salah dalam struktur.
2. Manifold yang salah: sisihan kecil karena model memiliki parameter bebas cukup untuk memuat data pelatihan secara tepat (overfitting). Permukaan model melintasi titik data, tetapi melengkung liar antara mereka. Prediksi pada data baru buruk.
Mendeteksi Bias Sistematis
Model dengan sisihan rata-rata nol mungkin masih memiliki bias sistematis yang bervariasi dengan variabel input.
Contoh: simulasi cuaca yang mengestimasikan suhu 2°C terlalu rendah di musim panas dan terlalu tinggi di musim dingin memiliki sisihan rata-rata sekitar 0 di seluruh tahun, tetapi bias musiman jelas.
Diagnosis sisihan: buat plot rᵢ terhadap setiap variabel input. Pola datar (tanpa tren) menyarankan tidak ada bias sistematis dari variabel tersebut. Pola tren mengungkapkan dimensi yang hilang dalam model.
Pertanyaan validasi Hamming — 'Apakah efek penting kecil bisa hilang?' — secara geometris: apakah vektor sisa memiliki komponen dalam arah yang tidak ditutupi oleh ruang parameter model?
Offset Sistematis vs Bising Acak
Efek Hawthorne: subjek dalam studi mengubah perilaku karena tahu mereka sedang diamati, bukan karena perlakuan eksperimental.
Interpretasi Geometris
Biarkan manifold data sebenarnya M hidup di ruang yang ditutupi oleh variabel (x₁, x₂, ..., xₖ, konteks_pengamatan).
Model mengabaikan konteks_pengamatan. Model memasang permukaan pada pengamatan di (x₁, ..., xₖ) sendiri.
Ketika konteks_pengamatan = 'diamati', titik data aktual bergeser sepanjang sumbu konteks_pengamatan. Permukaan model — yang tetap di (x₁, ..., xₖ) ruang — sekarang pas dengan data yang terdesak. Residualnya tampak kecil (permukaan masih pas di dalam konteks studi), tetapi prediksi di luar konteks diamati secara sistematis salah.
Geometri: permukaan model dekat dengan manifold data konteks_studi, tetapi jauh dari manifold kenyataan. Jarak antara mereka: offset Hawthorne sepanjang sumbu konteks_pengamatan.
Rekomendasi ganda-blind Hamming: mencegah konteks_pengamatan menjadi korelasinya dengan perlakuan. Ini menjaga manifold kenyataan dan manifold konteks_studi bersama — menghapus offset geometris.
Efek Lain Dimensi Tersembunyi
Setiap variabel yang mempengaruhi sistem tetapi dikecualikan dari model menciptakan struktur geometri yang sama:
- Efek musiman yang diabaikan dari model-model ekonomi
- perilaku operator yang dikecualikan dari simulasi pabrik
- status versi perangkat lunak yang tidak ada dalam model kinerja
Model menggambarkan permukaan berdimensi lebih rendah pada data yang hidup di manifold berdimensi lebih tinggi. Residu akan kecil dalam arah yang diukur oleh model, besar dalam arah yang tidak diukur.
Validasi sebagai Aligntment Geometris
Daftar checklist validasi Hamming, dirangkai sebagai geometri:
Apakah teori latar belakang mendukung hukum yang dianggap? Apakah dimensi parameter model memanjang ke manifold data yang benar? Jika variabel kunci hilang (dimensi yang dikecualikan), permukaan model tidak dapat diatur dengan kenyataan.
Apakah ada periksa internal? Hukum konservasi adalah konstrain geometris: data harus berada pada submanifold khusus yang ditentukan oleh konservasi massa, konservasi energi, dll. Jika simulasi melanggar ini, jalurnya telah meninggalkan submanifold yang valid.
Cross-checks terhadap pengalaman masa lalu yang dikenal: permukaan model harus melewati titik validasi sejarah - tidak hanya memuat data pelatihan, tetapi menggeneralisasi ke observasi di luar sampel.
Apakah simulasi stabil? Simulasi stabil tetap dekat dengan manifold solusi yang benar meskipun ada gangguan kecil. Simulasi tidak stabil meninggalkan daerah tetangga manifold dan tidak dapat disebut model yang valid.
Ketika Prediksi Menjadi Proyeksi
Hamming menyetujui metode skenario untuk domain di mana prediksi tidak mungkin: alih-alih mengklaim 'sistem akan melakukan X,' presentasikan beberapa jalur kemungkinan di bawah asumsi set yang berbeda.
Interpretasi Geometris
Permukaan model M(θ) tergantung pada parameter θ (asumsi tentang hukum, konstanta, kondisi batas). Set asumsi yang berbeda θ₁, θ₂, ..., θₖ menghasilkan permukaan yang berbeda M(θ₁), ..., M(θₖ).
Lingkaranannya skenario adalah union dari permukaan ini: region dari ruang output yang dapat dihasilkan oleh model skenario apa pun.
Prediksi tunggal mengklaim: hasil nyata berada dekat M(θ) untuk perkiraan terbaik θ. Metode skenario mengklaim: hasil nyata berada di dalam lingkaranannya.
Kapan Lingkaranannya Berguna
Jika lingkaranannya sempit — semua skenario setuju tentang output meskipun asumsi yang berbeda — keyakinan terhadap prediksi tinggi. Jika lingkaranannya lebar — asumsi yang berbeda menghasilkan output yang sangat berbeda — model sangat sensitif terhadap asumsi. Sensitivitas tersebut adalah output, bukan mode kegagalan.
Pernyataan Hamming tentang prediksi sendiri: dia memberikan skenario, bukan prediksi titik. Masa depan yang dia gambarkan adalah 'apa yang mungkin terjadi, menurut pendapat saya,' bukan ramalan yang tepat.
Overlap dengan Kenyataan
Model skenario diverifikasi saat kenyataan jatuh di dalam lingkaranannya. Ini adalah tes yang lebih lemah daripada prediksi titik tetapi lebih jujur tentang apa yang model bisa klaim.
Menyusun: Model Valid & Geometri Mereka
Geometri simulasi yang valid berakhir pada tiga alineasi:
1. Ruang parameter menutupi manifold yang benar: dimensi model mencakup semua variabel yang menggerakkan sistem. Kesenjangan dimensi tersembunyi menghasilkan offset sistematik.
2. Stabilitas menjaga jalur dekat manifold yang benar: bidang arah konvergen berarti kesalahan mengecil. Bidang divergen berarti simulasi meninggalkan region yang valid.
3. Residual kecil DAN tidak terstruktur: residual acak, tidak terstruktur menunjukkan model menangkap manifold yang benar. Residual terstruktur (tren, pola) menandakan dimensi yang hilang.
Hamming's 'Mengapa seseorang harus percaya simulasi?' diterjemahkan secara geometris: berapa jauh model permukaan dari manifold kenyataan, dalam berapa banyak dimensi, dengan seberapa banyak stabilitas, divalidasi pada berapa banyak titik yang tidak termasuk sampel?