un — Geometri Data yang Tidak Dapat Diandalkan

un

tamu

1 / ?

kembali ke pelajaran

Rata-rata, Varians, dan Bias

Setiap pengukuran x_i dari nilai sebenarnya μ dapat ditulis sebagai: x_i = μ + β + ε_i, di mana β adalah kesalahan sistematis (bias, konstan di seluruh pengukuran) dan ε_i adalah kesalahan acak (berbeda untuk setiap pengukuran, diambil dari distribusi dengan rata-rata 0).

Kesalahan acak: E[ε_i] = 0, Var[ε_i] = σ². Rata-rata sampel x̄ = (1/n) Σ x_i memiliki nilai yang diharapkan μ + β dan varians σ²/n. Saat n → ∞, x̄ → μ + β (bukan μ). Kesalahan acak hilang menjadi nol; bias tidak.

Kesalahan sistematis: β ≠ 0, konstan. Rata-rata dari sejumlah pengukuran adalah μ + β. Untuk menghilangkan bias, Anda memerlukan kalibrasi (pengukuran independen dari β), bukan pengulangan lebih banyak.

Secara geometris: bayangkan distribusi pengukuran sebagai kurva lonceng. Kesalahan acak mengontrol lebar (varians). Kesalahan sistematis mengontrol lokasi pusat (rata-rata digeser dari nilai sebenarnya sebesar β).

Ketidakpastian yang dinyatakan dalam suatu pengukuran biasanya merupakan perkiraan σ (hanya kesalahan acak). Jika β besar dan tidak terdeteksi, ketidakpastian yang dinyatakan tidak bermakna — ia mengukur derau dalam instrumen yang bias.

Error Propagation: Uncertainty Through Functions

Perhitungan Bias vs Varians

Sebuah laboratorium mengukur konstanta gravitasi g. Instrumen mereka memiliki kesalahan kalibrasi sistematis β = +0,05 m/s². Kesalahan pengukuran acak mereka memiliki standar deviasi σ = 0,02 m/s². Mereka mengambil n = 100 pengukuran.

Nilai sebenarnya: g = 9,80 m/s².

Hitung: (a) nilai yang diharapkan dari rata-rata sampel mereka x̄, (b) kesalahan baku dari rata-rata sampel mereka (ketidakpastian dalam x̄ karena hanya kesalahan acak), (c) interval kepercayaan 95% yang akan mereka laporkan (dengan asumsi mereka tidak menyadari bias), dan (d) apakah nilai sebenarnya berada dalam interval tersebut. Tunjukkan semua perhitungan.

Bagaimana Kesalahan Bergerak Melalui Perhitungan

Ketika Anda menghitung kuantitas z = f(x, y) dari kuantitas terukur x dan y, kesalahan pengukuran mereka menyebar ke z.

Formula propagasi kesalahan (ekspansi Taylor orde pertama):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Ini mengasumsikan kesalahan x dan y independen. Jika berkorelasi, tambahkan 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Wawasan utama: turunan parsial bertindak sebagai penguat. Jika ∂f/∂x besar, kesalahan kecil dalam x menghasilkan kesalahan besar dalam z.

Ini berarti memilih metode perhitungan yang meminimalkan turunan parsial adalah tujuan rekayasa nyata — bukan hanya kemudahan algoritmik. Hamming sangat menyadari hal ini dalam pekerjaan analisis numeriknya.

Propagasi Melalui Sebuah Produk

Anda mengukur dua panjang: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) dan L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Anda menghitung area A = L₁ × L₂.

Menggunakan formula propagasi ketidakpastian, hitung: (a) nilai yang diharapkan dari A, (b) σ_A menggunakan formula σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², dan (c) ketidakpastian relatif σ_A/A. Tunjukkan bahwa ketidakpastian relatif dalam A sama dengan √[(σ₁/L₁)² + (σ₂/L₂)²]. Verifikasi ini secara numerik.

Ketika Data Cocok Terlalu Baik

Uji kebaikan chi-squared: diberikan n pengamatan O_i dan prediksi model E_i, hitung:

χ² = Σ (O_i − E_i)² / E_i

Jika model benar dan pengukuran memiliki varians E_i, nilai yang diharapkan dari χ² adalah sekitar ν = (jumlah poin data) − (jumlah parameter yang disesuaikan), disebut derajat kebebasan.

Chi-squared yang dikurangi χ²/ν harus sekitar 1,0 jika data sesuai dengan model dengan jumlah hamburan yang diharapkan.

- χ²/ν >> 1: data bervariasi lebih banyak dari yang diharapkan — model salah, atau ketidakpastian diremehkan.

- χ²/ν << 1: data bervariasi kurang dari yang diharapkan — mencurigakan bersih.

Kasus yang mencurigakan: jika pengukuran Anda memiliki σ = 0,1 tetapi data semuanya berada dalam ±0,01 dari kurva model, seseorang telah secara selektif menyimpan pengukuran 'baik'. Ini adalah bias konfirmasi: membuang data yang tidak setuju dan menyimpan data yang setuju.

Hamming mengutip eksperimen tetes minyak Millikan: pengukuran pemenang Hadiah Nobel dari muatan elektron. Analisis kemudian dari buku catatan laboratorium Millikan mengungkapkan ia menerapkan penilaian yang tidak didokumentasikan untuk membuang pengukuran 'pencilan' — dan pengukuran yang dipertahankan cocok mencurigakan dengan baik.

Hitung dan Interpretasikan Chi-Squared yang Dikurangi

Seorang siswa menyesuaikan model linier y = ax + b ke 10 poin data, memperkirakan 2 parameter (a dan b). Ketidakpastian pengukuran yang dinyatakan untuk setiap poin adalah σ = 0,5. Residu (O_i − E_i) dari kecocokan adalah: 0,08, −0,12, 0,05, −0,09, 0,11, −0,07, 0,04, −0,03, 0,10, −0,06.

Hitung χ², derajat kebebasan ν, dan chi-squared yang dikurangi χ²/ν. Kemudian interpretasikan hasil: apakah data ini cocok dengan model dengan baik, buruk, atau mencurigakan baik? Apa yang akan Anda lakukan selanjutnya sebagai analis data?