什么是模型拟合的真正含义
一个仿真模型提出一个数学断言:真实系统的输出位于(或接近)特定表面M在观察空间中的位置。
真实系统产生观察值y₁, y₂, ..., yₙ。模型预测值ŷ₁, ŷ₂, ..., ŷₙ。
残差作为距离: rᵢ = yᵢ - ŷᵢ。每个残差测量观察值与其对应预测模型预测值之间的距离。在n维观察空间中,残差形成一个向量r = y - ŷ。
最小二乘拟合: 选择模型参数以最小化||r||² = Σrᵢ²。几何上,找到模型表面M上最接近观察向量y的观察向量y的点ŷ,以欧几里得距离为度量。
当残差误导
小的||r||²并不保证模型有效。有两种系统性失败模式:
1. 系统偏差: 残差rᵢ都是正的(或都是负的)的小。模型一致低估或高估。几何上:ŷ位于真实数据平面的一条平行偏移表面上——在结构上错了,但在距离上接近。
2. 错误的平面: 残差小因为模型有足够的自由参数可以精确地拟合训练数据(过拟合)。模型表面穿过数据点,但在它们之间弯曲。对新数据的预测效果不佳。
检测系统偏差
具有零均值残差的模型可能仍然存在与输入变量有关的系统偏差。
示例:一个低估夏天温度2°C,高估冬天2°C的气象学仿真,在全年范围内,残差的均值约为0,但有明显的季节性偏差。
残差诊断: 将rᵢ与每个输入变量进行绘图。如果没有趋势,则表明从该变量没有系统偏差。如果存在趋势,则表明模型中缺少一个维度。
汉明的验证问题——'一个小但至关重要的效应是否被忽略了?'——在几何上可以表述为:残差向量是否具有在模型参数空间中未被展开的方向分量?
系统偏差与随机噪音
哈沃斯效应:在研究中,受试者因为知道他们正在被观察而改变行为,而不是因为实验处理。
几何解释
让真实数据流形 M 在由变量 (x₁, x₂, ..., xₖ, 观察上下文) 组成的空间中。
模型忽略观察上下文。它将观察值在 (x₁, ..., xₖ) 中的数据拟合成一个表面。
当观察上下文为 '正在研究' 时,实际数据点沿观察上下文轴线发生移动。模型的表面——在 (x₁, ..., xₖ) 空间中固定——现在适合移动的数据。在未观察到的上下文中,预测将系统性地错误。
几何:模型表面接近研究上下文的数据流形,但远离现实流形。它们之间的距离:哈沃斯偏移沿观察上下文轴。
汉明的双盲要求:防止观察上下文与治疗相互关联。这使现实流形和研究上下文流形重合——消除几何偏移。
其他隐藏维度效应
任何影响系统但被排除在模型之外的变量会创建相同的几何结构:
- 从经济模型中省略的季节效应
- 从制造模拟中排除的操作员行为
- 在性能模型中缺少的软件版本状态
模型将生活在更高维子空间中的数据拟合到一个低维表面上。残差在模型测量的方向上会很小,在未测量的方向上会很大。
验证作为几何对齐
Hamming的验证清单,重新表述为几何:
支持假设法则的背景理论吗? 模型参数空间的维数是否覆盖了真实数据子空间?如果关键变量被排除(排除维数),模型表面就无法与现实保持对齐。
是否有内部检查? 保存法律是几何约束:数据必须位于由质量守恒、能量守恒等定义的特定子空间。如果模拟违反这些约束,其轨迹已经离开了有效子空间。
与已知过去经验进行交叉检查: 模型表面必须穿过历史验证点——不仅仅是适应训练数据,但也要将数据推广到出样本观察中。
模拟是否稳定? 稳定的模拟在小扰动下仍然接近真实解子空间。不可靠的模拟离开子空间的邻域,不能被称为有效模型。
预测变成了投影
汉明支持在预测不可能的领域使用场景方法:而不是说“系统会做X”,展示在不同假设集下的可能轨迹集。
几何解释
模型表面M(θ)取决于参数θ(关于法则、常数、边界条件的假设)。不同假设集θ₁,θ₂,...,θₖ定义不同的表面M(θ₁),...,M(θₖ)。
场景信封是这些表面之和:输出空间中任何场景模型都可能产生的区域。
单个预测声称:真实结果位于最佳估计θ对应的表面M(θ)附近。场景方法声称:真实结果位于信封内部。
信封何时有用
如果信封狭窄——不同假设下输出一致——对预测的信心高。如果信封宽——不同假设下产生非常不同的输出——模型对假设非常敏感。这种敏感性是输出,而不是一个故障模式。
汉明关于他自己的预测的说法:他在给场景,而不是单点预测。未来他描述的“很可能发生,在我看来”,而不是精确的预测。
与现实的重叠
场景模型在现实落入信封时得到验证。这比单点预测更弱的测试,但对模型能声称的内容更诚实。
把它们放在一起:有效模型及其几何
有效模拟几何归结为三个对齐:
1. 参数空间覆盖真实多维空间:模型的维度包括所有驱动系统的变量。隐藏维度的差距会产生系统偏差。
2. 稳定性使轨迹接近真实多维空间:收敛方向场意味着误差减小。分散的场意味着模拟离开有效区域。
3. 残差小且无结构:随机、无相关性残差表明模型捕捉到了真实多维空间。具有结构残差(趋势、模式)表明缺少维度。
Hamming 的 '谁应该相信这个模拟?' 在几何上翻译为:模型表面与现实多维空间的距离有多近,具有多少维度,具有多大的稳定性,基于多少个外样本点进行验证?