un — Hamming Chương 29: Bạn Nhận Được Thứ Bạn Đo Lường

un

khách

1 / ?

trở lại bài học

Cách IQ Có Được Phân Phối Chuẩn

Hamming mở Chương 29 bằng một phân tích chi tiết về kiểm tra IQ.

Tuyên bố: trí thông minh tuân theo phân phối chuẩn trong dân số. Phép đo: vẽ điểm số trên thang xác suất tích lũy (giấy xác suất). Các điểm số nằm trên một đường thẳng — cho biết phân phối chuẩn.

Vấn đề Hamming xác định: đây không phải là một khám phá. Đây là một cấu trúc. Bài kiểm tra IQ được hiệu chỉnh bằng cách lấy điểm số thô & áp dụng một phép biến đổi đơn điệu buộc phân phối tích lũy vào thang xác suất chuẩn. Sau đó, các điểm số kết quả được tuyên bố để đo lường trí thông minh, được định nghĩa là thứ mà bài kiểm tra được hiệu chỉnh đo lường.

Kết quả: trí thông minh, được định nghĩa là thứ bài kiểm tra này đo lường, được phân phối chuẩn. Tất nhiên là vậy — nó được thiết kế để vậy. Phân phối chuẩn không phải là một tính chất của trí thông minh trong thế giới; nó là một tính chất của quy trình hiệu chỉnh.

Khái quát hóa của Hamming: bạn nhận được thứ bạn đo lường. Dụng cụ, quy trình hiệu chỉnh, & định nghĩa không độc lập. Chúng tạo thành một vòng lặp kín. Thứ mà dụng cụ đo lường trở thành định nghĩa của cái là thực.

Ví dụ của anh ấy về bài kiểm tra giải tích: anh ấy có thể tạo ra hầu như bất kỳ phân phối điểm nào anh ấy muốn bằng cách chọn phân phối độ khó của các câu hỏi. Một bài kiểm tra đồng nhất khó tạo ra phân phối lưỡng phương (học sinh hoặc biết hoặc không). Một bài kiểm tra hỗn hợp tạo ra một đường cong chuông. Phân phối là một sản phẩm của thiết kế bài kiểm tra, không phải là một khám phá về học sinh.

Định Luật Goodhart: Khi Các Thước Đo Trở Thành Mục Tiêu

Tìm Vòng Lặp Tròn

Phân tích của Hamming tiết lộ một định nghĩa tròn ba bước:

1. Thiết kế một dụng cụ & quy trình hiệu chỉnh.

2. Định nghĩa cấu trúc là 'thứ dụng cụ này đo lường.'

3. Báo cáo rằng cấu trúc có tính chất phân phối được thiết kế vào quy trình hiệu chỉnh.

Tìm một hệ thống đo lường hoặc phân loại trong một lĩnh vực bạn biết mà cùng một vòng lặp tròn hoạt động: dụng cụ hoặc quy trình được thiết kế để tạo ra một kết quả nhất định, & sau đó kết quả đó được báo cáo như một khám phá về thế giới. Xác định ba bước (dụng cụ, định nghĩa, khám phá báo cáo) & giải thích cách mà tính tròn có thể dẫn lạc một người không biết lịch sử hiệu chỉnh.

Khi Một Phép Đo Trở Thành Một Mục Tiêu

Công thức của Hamming, trước khi Goodhart đặt tên cho nó: khi bạn sử dụng một phép đo như một mục tiêu, nó ngừng là một phép đo hợp lệ. Hành động nhắm mục tiêu làm tham nhũng thước đo.

Cơ chế: trước khi nhắm mục tiêu, thước đo tương quan với giá trị cơ bản. Sau khi nhắm mục tiêu, những người hành động hợp lý tối ưu hóa thước đo trực tiếp. Mối tương quan bị phá vỡ vì cách dễ nhất để cải thiện thước đo thường là tách rời nó khỏi giá trị cơ bản.

Những trường hợp của Hamming:

- Số người chết ở Việt Nam: được sử dụng như một thước đo tiến bộ quân sự. Binh sĩ tối ưu hóa số người chết bằng cách đếm những vật thể không thể xác minh. Thước đo tăng lên; tiến bộ quân sự thì không.

- Tăng trưởng GNP: được sử dụng như một thước đo phúc lợi kinh tế. Tăng trưởng GNP có thể đạt được bằng cách sản xuất những thứ có giá trị âm (dọn dẹp ô nhiễm, tập hợp quân sự, xây dựng nhà tù). Thước đo ly dị từ phúc lợi.

- Điểm kiểm tra: được sử dụng như một thước đo học tập. Trường dạy để thi. Điểm tăng lên; sự hiểu biết về chủ đề cơ bản thì không.

Giải pháp của Hamming: (1) thay đổi thước đo thường xuyên, trước khi mọi người tối ưu hóa hoàn toàn nó; (2) sử dụng nhiều thước đo cùng một lúc — nó khó hơn để tối ưu hóa tất cả chúng cùng một lúc; (3) không bao giờ dựa vào một thước đo duy nhất cho bất kỳ quyết định quan trọng nào.

Xác Định Cơ Chế Tham Nhũng

Một tổ chức phần mềm đo lường năng suất lập trình viên bằng cách đếm số dòng mã (LOC) được viết mỗi tuần. Ban đầu, LOC tương quan với năng suất — những nhà phát triển tích cực viết nhiều mã hơn những nhà phát triển không hoạt động.

Mô tả cụ thể cách thước đo LOC bị tham nhũng khi nó được sử dụng như một mục tiêu hiệu suất. Nêu tên ít nhất ba hành vi cụ thể mà những nhà phát triển hợp lý sẽ áp dụng để tối ưu hóa LOC mà không cải thiện năng suất. Sau đó, mô tả một lựa chọn thay thế đa thước đo sẽ khó tham nhũng hơn, & giải thích tại sao nó khó hơn.

Vấn Đề Phạm Vi Động

Hamming nêu ra một vấn đề đo lường tinh tế: thang xếp hạng có phạm vi động, & hầu hết mọi người không sử dụng nó.

Ví dụ: một thang 1-10 trong đó 5 là trung bình. Hầu hết những người xếp hạng sử dụng 4, 5, & 6, không bao giờ đi đến 1 hoặc 9. Phạm vi động của các xếp hạng của họ thực sự là 3 (từ 4 đến 6), mặc dù thang cấp 10.

Hậu quả: một người xếp hạng sử dụng phạm vi đầy đủ có ảnh hưởng gấp 3 lần đến xếp hạng trung bình so với người nén về giữa. Nếu bạn xếp hạng cái gì đó bạn không thích là 2 (phạm vi đầy đủ) trong khi người xếp hạng khác cho điều họ thích là 6 (phạm vi nén), trung bình là 4 — sự không thích của bạn vượt trội hơn việc họ thích mặc dù cả hai đều có giọng nói bằng nhau trong thiết kế của hệ thống xếp hạng.

Kết nối lý thuyết thông tin của Hamming: entropy (ngạc nhiên trung bình) của một phân phối được tối đa hóa khi phân phối đó đồng nhất. Một thang xếp hạng trong đó tất cả các điểm được sử dụng bằng nhau truyền thông tin tối đa. Một thang trong đó hầu hết các xếp hạng tập trung ở 5 truyền rất ít — các xếp hạng mang hầu như không có thông tin.

Lời khuyên thực tế của ông: sử dụng toàn bộ phạm vi động của bất kỳ thang nào bạn được giao. Nếu bạn được cho một thang từ 1 đến 10, không coi nó là 1 đến 6. Làm như vậy làm giảm ảnh hưởng của bạn & làm giảm nội dung thông tin của các xếp hạng của bạn.

Thông Tin & Phạm Vi Động

Hai giáo sư chấm trên thang 0-100. Giáo sư A chỉ sử dụng phạm vi 70-90 (nén thành 20 điểm). Giáo sư B sử dụng phạm vi đầy đủ 0-100 (sử dụng 100 điểm). Giả sử phân phối điểm của mỗi giáo sư đồng nhất trong phạm vi họ sử dụng.

Sử dụng công thức entropy H = log₂(n) cho một phân phối đồng nhất trên n kết quả có xác suất bằng nhau, tính nội dung thông tin (tính bằng bit) của một điểm số từ mỗi giáo sư. Giáo sư B mang thông tin bao nhiêu lần hơn Giáo sư A? Điều này có nghĩa gì đối với một ủy ban tuyển sinh trường sau đại học nhận được điểm từ cả hai giáo sư?