un — Hamming Cap. 27: Dados Não Confiáveis

un

visitante

1 / ?

voltar às lições

A Maleta do Estatístico

Hamming abre o Capítulo 27 com uma história. Um colega estatístico da Bell Labs desconfiava que as medições em um estudo eram imprecisas. Discutiu com o chefe do departamento, que se recusou a repetir as medições — 'os instrumentos têm placas de latão dizendo que eram precisos assim, e meus colaboradores são confiáveis.'

Na segunda-feira, o estatístico chegou e disse que havia deixado sua maleta no trem e perdido todos os seus dados. Não havia nada a fazer a não ser repetir as medições. Quando os novos dados chegaram, o estatístico produziu os registros originais — mostrando o quanto estavam errados. Ele não foi popular pelo movimento, mas a imprecisão agora era inegável.

Hamming extrai uma lição ainda mais dura de outro caso: um estudo sobre padrões de chamadas telefônicas, sendo registrado pelo mesmo equipamento de central que realizava as chamadas. Um dia o estatístico notou uma chamada cobrada a uma central inexistente. Investigando mais, descobriu que uma grande porcentagem de chamadas estava se conectando — por alguns minutos — a centrais inexistentes. A máquina estava gerando dados ruins sobre sua própria operação. Você não pode confiar em uma máquina para coletar dados sobre ela mesma corretamente.

Seu terceiro exemplo: seu irmão no departamento de Poluição do Ar de Los Angeles, que achou necessário desmontar, remontar e recalibrar cada novo instrumento que recebiam, independentemente das afirmações do fabricante.

A regra de Hamming: sempre examine os dados cuidadosamente antes de processá-los. Plote-os. Procure por padrões que não deveriam estar lá. Verifique inconsistências. Não importa o quão urgente seja a resposta, teste os dados antes.

Erro Aleatório, Erro Sistemático & a Cadeia de Calibração

Pré-Teste de Dados

O estudo de inventário de Hamming: ele recebeu 18 meses de registros de inventário para ~100 itens e ingenuamente acreditou na garantia do fornecedor de que as inconsistências haviam sido removidas. No final do projeto, encontrou inconsistências residuais — entradas que não poderiam ter ocorrido sem erro (por exemplo, retiradas de inventário vazio).

Ele concluiu: 'Primeiro tive de encontrá-las, depois eliminá-las e depois rodar os dados do zero. Daquela experiência aprendi nunca processar nenhum dado até examiná-lo cuidadosamente em busca de erros.'

Descreva três verificações de consistência específicas que você aplicaria a um novo conjunto de dados antes de confiar nele para análise. Para cada verificação, explique que tipo de erro ela detectaria — e por que esse tipo de erro poderia existir nos dados apesar das garantias do fornecedor.

Dois Tipos de Erro

Toda medição física carrega dois tipos de erro:

Erro aleatório: variação imprevisível em torno do valor verdadeiro. Segue uma distribuição (frequentemente aproximadamente Gaussiana) centrada no valor verdadeiro. Erros aleatórios se cancelam com a média: tome medições suficientes e a média se aproxima do valor verdadeiro.

Erro sistemático (viés): um deslocamento consistente em uma direção. Todas as suas medições são deslocadas pela mesma quantidade. Nenhuma quantidade de média remove isso, porque a média de muitas medições tendenciosas ainda é tendenciosa.

Exemplo de Hamming da física: uma tabela das 10 constantes fundamentais (velocidade da luz, número de Avogadro, carga do elétron, etc.) foi compilada e depois recompilada 24 anos depois com instrumentos aprimorados. Em média, os novos valores caíram 5,267 vezes fora das barras de erro declaradas antigas. Isto não é plausível de erro aleatório sozinho — erros aleatórios tão grandes seriam detectáveis. A explicação: os instrumentos antigos tinham erros sistemáticos não capturados na incerteza declarada, e as técnicas em si tinham uma falha compartilhada passada pela comunidade.

Observação de Shannon: 'Calibração é a coisa mais importante em medição.' Calibração aborda erro sistemático. Se seu instrumento está consistentemente lendo 3% muito alto, nenhuma quantidade de medição repetida conserta isso — você deve calibrar.

Identificando Erro Sistemático

A constante de Hubble: a taxa em que o universo se expande, medida a partir da relação deslocamento para vermelho-distância de galáxias. Múltiplos grupos independentes a mediram ao longo dos últimos 50 anos. Historicamente, muitos dos valores publicados caíram fora das barras de erro de outros valores publicados — significando que os desacordos eram maiores do que as incertezas declaradas previriam.

Explique por que medições independentes da constante de Hubble poderiam cada uma ter pequenos erros aleatórios declarados mas ainda discordar por quantidades maiores do que esses erros. Que tipo de erro causa este padrão, e como você o distinguiria de erro aleatório experimentalmente?

Como Você Testa o Que Você Não Pode Testar?

Hamming coloca um problema sem solução limpa, mas que todo engenheiro praticante eventualmente enfrenta: Como você testa um dispositivo para confiabilidade quando o próprio teste leva mais tempo do que você tem, e seu equipamento de teste é menos confiável do que o dispositivo que você está testando?

O cenário: um dispositivo deve durar 20 anos no campo (175.000 horas). Seu laboratório de teste de vida é classificado para 10.000 horas de operação. Seu período de teste orçado é de 3 meses (cerca de 2.000 horas). Espera-se que o dispositivo enfrente temperaturas de operação de até 85°C no campo.

Teste acelerado: execute o dispositivo em 105°C e assuma que as falhas ocorrem 10× mais rápido do que em 85°C (uma regra comum de engenharia). Então 2.000 horas em 105°C 'representam' 20.000 horas em 85°C. Mas será que representam?

O problema: o modo de falha em 105°C pode ser diferente do modo de falha em 85°C. Se juntas de solda falham por fadiga térmica em 85°C mas por oxidação em 105°C, o teste acelerado não lhe diz nada útil sobre a vida útil no campo.

O conselho de Shannon se aplica: calibração — entender o que sua medição realmente mede — é o passo crítico. Teste acelerado calibra temperatura contra taxa de falha apenas se o modo de falha for o mesmo. Verificar isso requer um estudo separado.

Projete um Teste de Vida Útil

Você é um engenheiro de confiabilidade para um dispositivo médico implantado no corpo humano. Deve durar 10 anos (87.600 horas). Seu orçamento de laboratório permite 6 meses de teste (4.380 horas). O dispositivo opera na temperatura corporal (37°C).

Qual é o problema fundamental em simplesmente executar testes acelerados em 50°C ou 60°C e extrapolar para prever confiabilidade de 10 anos? Descreva pelo menos dois modos de falha específicos que o teste acelerado poderia não capturar ou caracterizar mal, e explique que evidência adicional você reuniria para validar a extrapolação.