un — Geometria de Dados Não Confiáveis

un

visitante

1 / ?

voltar às lições

Média, Variância e Viés

Toda medição x_i de um valor verdadeiro μ pode ser escrita como: x_i = μ + β + ε_i, onde β é o erro sistemático (viés, constante entre medições) e ε_i é o erro aleatório (diferente para cada medição, extraído de uma distribuição com média 0).

Erro aleatório: E[ε_i] = 0, Var[ε_i] = σ². A média amostral x̄ = (1/n) Σ x_i tem valor esperado μ + β e variância σ²/n. Conforme n → ∞, x̄ → μ + β (não μ). O erro aleatório vai para zero; o viés não.

Erro sistemático: β ≠ 0, constante. A média de qualquer número de medições é μ + β. Para remover o viés, você precisa de calibração (uma medição independente de β), não mais repetições.

Geometricamente: imagine a distribuição de medições como uma curva de sino. O erro aleatório controla a largura (variância). O erro sistemático controla a localização do centro (a média é deslocada do valor verdadeiro por β).

A incerteza declarada em uma medição é geralmente uma estimativa de σ (apenas erro aleatório). Se β é grande e não detectado, a incerteza declarada é sem sentido — ela quantifica o ruído em um instrumento enviesado.

Propagação de Erro: Incerteza Através de Funções

Cálculo de Viés vs Variância

Um laboratório mede a constante gravitacional g. Seu instrumento tem um erro de calibração sistemático de β = +0.05 m/s². Seu erro de medição aleatório tem desvio padrão σ = 0.02 m/s². Eles fazem n = 100 medições.

Valor verdadeiro: g = 9.80 m/s².

Calcule: (a) o valor esperado de sua média amostral x̄, (b) o erro padrão de sua média amostral (incerteza em x̄ devido apenas ao erro aleatório), (c) o intervalo de confiança de 95% que eles reportariam (assumindo que desconhecem o viés), e (d) se o valor verdadeiro está dentro desse intervalo. Mostre todos os cálculos.

Como os Erros se Propagam Através dos Cálculos

Quando você calcula uma quantidade z = f(x, y) a partir de quantidades medidas x e y, seus erros de medição se propagam para z.

Fórmula de propagação de erro (expansão de Taylor de primeira ordem):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Isto assume que os erros x e y são independentes. Se correlacionados, adicione 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Insight fundamental: as derivadas parciais atuam como amplificadores. Se ∂f/∂x é grande, pequenos erros em x produzem grandes erros em z.

Isto significa que escolher um método de cálculo que minimize as derivadas parciais é um objetivo de engenharia real — não apenas conveniência algorítmica. Hamming era extremamente ciente disso em seu trabalho de análise numérica.

Propagação Através de um Produto

Você mede dois comprimentos: L₁ = 10.0 m ± 0.1 m (σ₁ = 0.1) e L₂ = 5.0 m ± 0.2 m (σ₂ = 0.2). Você calcula a área A = L₁ × L₂.

Usando a fórmula de propagação de incerteza, calcule: (a) o valor esperado de A, (b) σ_A usando a fórmula σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², e (c) a incerteza relativa σ_A/A. Mostre que a incerteza relativa em A é igual a √[(σ₁/L₁)² + (σ₂/L₂)²]. Verifique isto numericamente.

Quando os Dados se Ajustam Muito Bem

Teste de qualidade do ajuste qui-quadrado: dados n observações O_i e previsões do modelo E_i, calcule:

χ² = Σ (O_i − E_i)² / E_i

Se o modelo está correto e as medições têm variância E_i, o valor esperado de χ² é aproximadamente ν = (número de pontos de dados) − (número de parâmetros ajustados), chamado de graus de liberdade.

O qui-quadrado reduzido χ²/ν deve ser aproximadamente 1.0 se os dados se ajustam ao modelo com a quantidade esperada de dispersão.

- χ²/ν >> 1: dados variam mais do que o esperado — o modelo está errado ou as incertezas são subestimadas.

- χ²/ν << 1: dados variam menos do que o esperado — suspeitosamente limpo.

O caso suspeito: se suas medições têm σ = 0.1 mas os dados caem todos dentro de ±0.01 da curva do modelo, alguém manteve seletivamente as medições 'boas'. Isto é viés de confirmação: descartar dados que discordam e reter dados que concordam.

Hamming cita o experimento da gota de óleo de Millikan: a medição que ganhou o Prêmio Nobel da carga do elétron. Análise posterior dos cadernos de laboratório de Millikan revelou que ele aplicou julgamento não documentado para descartar medições 'discrepantes' — e as medições retidas se ajustaram suspeitosamente bem.

Calcule e Interprete o Qui-Quadrado Reduzido

Um estudante ajusta um modelo linear y = ax + b a 10 pontos de dados, estimando 2 parâmetros (a e b). A incerteza de medição declarada para cada ponto é σ = 0.5. Os resíduos (O_i − E_i) do ajuste são: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.

Calcule χ², os graus de liberdade ν, e o qui-quadrado reduzido χ²/ν. Depois interprete o resultado: esses dados se ajustam ao modelo bem, mal, ou suspeitosamente bem? O que você faria a seguir como analista de dados?