Không gian giá trị vs Không gian đo lường
Model thế giới như hai không gian:
Không gian giá trị V: tập các trạng thái của thế giới với respect đến điều bạn thực sự quan tâm. Điểm trong V đại diện cho các mức khác nhau của lượng thật sự ẩn dưới (học tập sinh viên, tiến bộ quân sự, phúc lợi kinh tế).
Không gian đo lường M: tập các giá trị mà metric có thể lấy. Một metric là một hàm f: V → M — ánh xạ từ không gian giá trị đến không gian đo lường.
Một metric hợp lệ là một nơi f gần với một isometry trong vùng liên quan: các thay đổi tương đương trong M tương ứng với các thay đổi tương đương trong V. Điểm gần kề trong M tương ứng với các điểm gần kề trong V.
Một metric bị méo là một nơi f không làometric: metric nén các vùng khác nhau của V (làm cho các thay đổi lớn không nhìn thấy được) và mở rộng các vùng khác (làm cho các thay đổi nhỏ trông lớn). Việc hiệu chuẩn IQ là một sự méo thiết kế: nó ánh xạ phân bố điểm số gốc sang một Gaussian trong M, bất kể phân bố thật sự của trí thông minh trong V.
Luật Goodhart trong các điều khoản ánh xạ: khi M trở thành một mục tiêu, các agent áp dụng gradient tăng trong M. Vì f là một sự méo, gradient tăng trong M không tương ứng với gradient tăng trong V. Agent di chuyển trong M mà không di chuyển (hoặc di chuyển ngược lại) trong V.
Kiểm tra tính hợp lệ của metric
Một công ty đánh giá hiệu suất công việc của nhân viên trên một thang 1-5 sao. Thang đo được hiệu chuẩn để 80% nhân viên nhận được 3 hoặc cao hơn. Hệ thống đánh giá hiệu suất là dùng cho cả quyết định lương thưởng (ở đó thứ hạng có liên quan) và kế hoạch cải thiện (ở đó mức độ tuyệt đối có liên quan).
Tăng Gradient trong Không gian Sai
Giải quyết vấn đề tối ưu hóa hình học. Cho V = không gian giá trị (học tập sinh viên thực sự, tiến bộ quân sự, etc.) và M = không gian chỉ số (bài kiểm tra, số lượng thiệt hại, etc.).
Gradient của giá trị thực: ∇_V(value) chỉ hướng trong V làm tăng lượng bạn quan tâm.
Gradient của chỉ số: ∇_M(metric) chỉ hướng trong M làm tăng chỉ số.
Vì f: V → M không phải là đồng nhất, gradient của chỉ số trong không gian giá trị (f(∇_M)) không thẳng hàng với ∇_V. Cánh tay giữa của chúng, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), đo mức độ nghiêm trọng của sự thất bại Goodhart.
Nếu θ = 0: gradient chỉ số và gradient giá trị chỉ hướng cùng một hướng. Tối ưu hóa chỉ số tối ưu hóa giá trị. Không có ô nhiễm Goodhart.
Nếu θ = 90°: gradient chỉ số vuông góc với giá trị. Tối ưu hóa chỉ số di chuyển trong M mà không di chuyển trong V.
Nếu θ = 180°: gradient chỉ số ngược lại với giá trị. Tối ưu hóa chỉ số làm giảm giá trị.
Khi chỉ số trở thành mục tiêu và các đại lý áp dụng tăng gradient trên chỉ số, họ theo f*(∇_M), không phải ∇_V. Cánh tay giữa θ tăng theo thời gian khi chỉ số bị chơi - mapping f trở nên ít đồng nhất hơn khi các đại lý tìm thấy các vùng nơi ∇_M và ∇_V phân kỳ nhiều nhất, vì đó là các đường đi hiệu quả nhất để chơi.
Đo độ Divergence
Xem xét không gian giá trị hai chiều V = (kỹ năng, tuân thủ) nơi kỹ năng = hiểu biết thực sự của học sinh, tuân thủ = khả năng của học sinh tuân theo quy trình làm bài.
Chỉ số kiểm tra M = 0.3 × kỹ năng + 0.7 × tuân thủ (một sự kết hợp tuyến tính cụ thể, nơi tuân thủ có trọng lượng 70%).
Tối ưu đa mục tiêu như một cách phòng thủ chống lại hiện tượng Goodhart
Phòng thủ của Hamming: sử dụng đồng thời nhiều chỉ số. Ý nghĩa hình học: thay vì tối ưu hóa một hàm mục tiêu duy nhất f(x), tối ưu hóa trên một vector mục tiêu F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Đối với một vector mục tiêu, khái niệm giải pháp Pareto là ranh giới Pareto: tập hợp các giải pháp không thể cải thiện một mục tiêu nào đó mà không làm suy giảm mục tiêu khác. Ranh giới Pareto thay thế cho một tối ưu duy nhất.
Tại sao điều này chống lại Goodhart: để đánh lừa chỉ số, một đại diện lý trí phải tìm một hướng trong không gian giá trị làm tăng tất cả các fᵢ cùng một lúc (hoặc ít nhất là các chỉ số họ đang được đánh giá). Nếu các chỉ số đủ độc lập - các hướng gradient của chúng đủ không song song - không có hướng như vậy. Đánh lừa một chỉ số làm giảm một chỉ số khác.
Độ cao của phòng thủ: nếu k gradient của các chỉ số chiếm không gian k-đimensino (độc lập tuyến tính), thì tối ưu hóa bất kỳ tập hợp thích hợp nào của các chỉ số sẽ làm giảm ít nhất một chỉ số được loại trừ. Phòng thủ Pareto đầy đủ đòi hỏi rằng không có hướng đánh lừa nào tồn tại để cải thiện tất cả các chỉ số.
Tính không đổi của phép đo: một chỉ số M là không đổi với respecto thuộc tính không liên quan α nếu M(x + δα) = M(x) cho các thay đổi δ trong α. Chỉ số IQ không ổn định với respecto thực hành làm bài test: IQ thay đổi khi học sinh luyện tập bài test mà không có tiến bộ thực sự trong cấu trúc cơ bản.
Thiết kế một hệ thống chỉ số được bảo vệ Pareto
Xin xem xét việc đánh giá một nhà khoa học nghiên cứu trên một hệ thống hai chỉ số: M₁ = số bài báo mỗi năm, M₂ = tỷ lệ dẫn chiếu mỗi bài báo (số dẫn chiếu mỗi bài báo).