un — Hamming Cap. 29: Você Colhe o Que Mede

un

visitante

1 / ?

voltar às lições

Como o QI Obtém Sua Distribuição Normal

Hamming abre o Capítulo 29 com uma dissecação cuidadosa do teste de QI.

A afirmação: a inteligência segue uma distribuição normal na população. Medição: plote os escores em uma escala de probabilidade cumulativa (papel de probabilidade). Os escores caem em uma linha reta — indicando uma distribuição normal.

O problema que Hamming identifica: isso não é uma descoberta. É uma construção. O teste de QI é calibrado tomando os escores brutos e aplicando uma transformação monótona que força a distribuição cumulativa para a escala de probabilidade normal. Então os escores resultantes são declarados como medindo inteligência, que é definida como o que o teste calibrado mede.

Resultado: inteligência, definida como o que este teste mede, é distribuída normalmente. É claro que é — foi projetado para ser. A distribuição normal não é uma propriedade da inteligência no mundo; é uma propriedade do procedimento de calibração.

A generalização de Hamming: você colhe o que mede. O instrumento, o procedimento de calibração e a definição não são independentes. Eles formam um ciclo fechado. O que o instrumento mede torna-se a definição do que é real.

Seu exemplo de prova de cálculo: ele pode produzir quase qualquer distribuição de notas que desejar escolhendo a distribuição de dificuldade das questões. Uma prova uniformemente difícil produz uma distribuição bimodal (os alunos sabem ou não sabem). Uma prova mista produz uma curva em sino. A distribuição é um artefato do design do teste, não uma descoberta sobre os alunos.

Lei de Goodhart: Quando as Métricas se Tornam Alvo

Encontrando o Ciclo Circular

A análise de Hamming revela uma definição circular de três etapas:

1. Projete um instrumento e procedimento de calibração.

2. Defina o construto como 'o que este instrumento mede.'

3. Relate que o construto possui a propriedade distribucional projetada na calibração.

Encontre um sistema de medição ou classificação em um campo que você conhece onde o mesmo ciclo circular opera: o instrumento ou procedimento é projetado para produzir um certo resultado, e então esse resultado é relatado como uma descoberta sobre o mundo. Identifique as três etapas (instrumento, definição, descoberta relatada) e explique como a circularidade pode enganar alguém que não soubesse do histórico de calibração.

Quando uma Medida se Torna um Alvo

A formulação de Hamming, antes de Goodhart nomeá-la: quando você usa uma medida como um alvo, ela deixa de ser uma medida válida. O ato de direcionar corrompe a métrica.

O mecanismo: antes de direcionar, a métrica se correlaciona com o valor subjacente. Depois de direcionar, atores racionais otimizam a métrica diretamente. A correlação se quebra porque a maneira mais fácil de melhorar a métrica é muitas vezes desacoplá-la do valor subjacente.

Os casos de Hamming:

- Contagem de corpos no Vietnã: usada como medida de progresso militar. Os soldados otimizaram a contagem de corpos contando objetos não verificáveis. A métrica subiu; o progresso militar não.

- Crescimento do PNB: usado como medida de bem-estar econômico. O crescimento do PNB pode ser alcançado produzindo coisas com valor negativo (limpeza de poluição, rearmamento, construção de prisões). A métrica se divorciou do bem-estar.

- Pontuações de testes: usadas como medida de aprendizagem. As escolas ensinam para o teste. As pontuações sobem; a compreensão do assunto subjacente pode não.

A solução de Hamming: (1) mude a métrica regularmente, antes que as pessoas a otimizem completamente; (2) use múltiplas métricas simultaneamente — é mais difícil otimizar todas elas de uma vez; (3) nunca confie em uma única métrica para qualquer decisão importante.

Identifique o Mecanismo de Corrupção

Uma organização de software mede a produtividade dos desenvolvedores contando linhas de código (LOC) escritas por semana. Inicialmente, LOC se correlaciona com produtividade — desenvolvedores ativos escrevem mais código do que inativos.

Descreva especificamente como a métrica LOC é corrompida quando usada como alvo de desempenho. Nomeie pelo menos três comportamentos concretos que desenvolvedores racionais adotariam para otimizar LOC sem melhorar a produtividade. Então descreva uma alternativa multi-métrica que seria mais difícil de corromper e explique por que é mais difícil.

O Problema da Faixa Dinâmica

Hamming levanta um problema de medição sutil: escalas de classificação têm faixa dinâmica, e a maioria das pessoas não a usa.

Exemplo: uma escala de 1-10 onde 5 é a média. A maioria dos avaliadores usa 4, 5 e 6, nunca chegando a 1 ou 9. A faixa dinâmica de suas classificações é efetivamente 3 (de 4 a 6), mesmo que a escala forneça 10.

A consequência: um avaliador que usa a faixa completa tem 3× mais influência em uma classificação média do que aquele que comprime para o meio. Se você classificar algo que não gosta como 2 (faixa completa) enquanto o outro avaliador dá o que gosta uma 6 (faixa comprimida), a média é 4 — sua desaprovação supera seu apreço mesmo que ambos tenham voz igual no design do sistema de classificação.

Conexão da teoria da informação de Hamming: a entropia (surpresa média) de uma distribuição é maximizada quando a distribuição é uniforme. Uma escala de classificação onde todas as notas são usadas igualmente comunica a informação máxima. Uma escala onde a maioria das classificações se agrupa em 5 comunica muito pouco — as classificações carregam quase nenhuma informação.

Seu conselho prático: use a faixa dinâmica completa de qualquer escala que lhe seja atribuída. Se você receber uma escala de 1 a 10, não a trate como 1 a 6. Fazer isso reduz sua influência e reduz o conteúdo informacional de suas classificações.

Informação e Faixa Dinâmica

Dois professores classificam em uma escala de 0-100. Professor A usa apenas a faixa 70-90 (comprime para 20 pontos). Professor B usa a faixa completa 0-100 (usa 100 pontos). Suponha que a distribuição de notas de cada professor seja uniforme dentro de sua faixa usada.

Usando a fórmula de entropia H = log₂(n) para uma distribuição uniforme sobre n resultados igualmente prováveis, calcule o conteúdo informacional (em bits) de uma única nota de cada professor. Quantas vezes mais informação a nota do Professor B carrega do que a do Professor A? O que isso significa para um comitê de admissão de pós-graduação que recebe as notas de ambos os professores?