un — Geometría de la Simulación II: Validez del Modelo como Ajuste Geométrico

un

invitado

1 / ?

volver a las lecciones

Qué Significa Realmente Ajustar un Modelo

Un modelo de simulación hace una afirmación matemática: los salidas del sistema real están en (o cerca de) una superficie específica M en el espacio de observaciones.

Deje que el sistema real produzca observaciones y₁, y₂, ..., yₙ. El modelo predice valores ŷ₁, ŷ₂, ..., ŷₙ.

Residuos como distancias: rᵢ = yᵢ - ŷᵢ. Cada residuo mide la distancia entre una observación y su correspondiente predicción de modelo. En el espacio de observaciones n-dimensional, los residuos forman un vector r = y - ŷ.

Ajuste de mínimos cuadrados: elija los parámetros del modelo para minimizar ||r||² = Σrᵢ². Geométricamente, encuentre el punto ŷ en la superficie del modelo más cercano a la vector de observación y en la distancia Euclidiana.

Cuando los Residuos Engañan

Un pequeño ||r||² no garantiza un modelo válido. Dos modos de falla sistemática:

1. Sesgo sistemático: los residuos rᵢ son pequeños pero todos positivos (o todos negativos). El modelo subestima o sobreestima consistentemente. Geométricamente: ŷ está en una superficie desplazada paralela al verdadero haz de datos - cerca en distancia, pero incorrecta en estructura.

2. Haz incorrecto: los residuos son pequeños porque el modelo tiene suficientes parámetros libres para ajustar los datos de entrenamiento exactamente (sobreajuste). La superficie del modelo pasa por los puntos de datos, pero se dobla entre ellos. Las predicciones en nuevos datos son pobres.

Residuos, Sesgo y Ajuste de Haz

Detectando Sesgo Sistemático

Un modelo con un residuo medio cero puede tener sesgo sistemático que varía con una variable de entrada.

Ejemplo: una simulación del tiempo que subestima la temperatura en 2°C en verano y sobreestima en 2°C en invierno tiene un residuo medio ≈ 0 a lo largo de un año completo, pero un sesgo claro estacional.

Diagnóstico de residuo: grafique rᵢ contra cada variable de entrada. Un patrón plano (sin tendencia) sugiere que no hay sesgo sistemático de esa variable. Un patrón de tendencia revela una dimensión perdida en el modelo.

Pregunta de validación de Hamming: '¿Podría faltar un efecto vital pequeño pero importante?' se traduce geométricamente: ¿El vector residual tiene un componente en una dirección no spanada por el espacio de parámetros del modelo?

Un modelo de regresión y = ax + b se ajusta a 4 puntos de datos: (1, 3), (2, 5), (3, 8), (4, 9). La línea ajustada tiene a = 2, b = 1, dando predicciones ŷ = (3, 5, 7, 9). Calcule los residuos. Luego: ¿son los residuos sistemáticos (muestran un patrón) o parecen aleatorios? ¿Qué propiedad geométrica del modelo revisaría basándose en el patrón de residuos?

Desviación Sistemática vs Ruido Aleatorio

El efecto Hawthorne: los sujetos en un estudio cambian su comportamiento porque saben que están siendo observados, no por el tratamiento experimental.

Interpretación Geométrica

Deje que el verdadero manifold de datos M viva en un espacio spanado por las variables (x₁, x₂, ..., xₖ, contexto_observación).

El modelo ignora el contexto_observación. Ajusta una superficie a las observaciones en (x₁, ..., xₖ) solamente.

Cuando contexto_observación = 'estudiado', los puntos de datos reales se desplazan a lo largo del eje contexto_observación. La superficie del modelo - fija en el espacio (x₁, ..., xₖ) - ahora se ajusta a los datos desplazados. Los residuos aparecen pequeños (la superficie sigue ajustándose bien dentro del contexto de estudio), pero las predicciones en el contexto no observado están sistemáticamente equivocadas.

La geometría: la superficie del modelo está cerca del manifold de datos en contexto de estudio, pero lejos del manifold de realidad. La distancia entre ellos: el desplazamiento Hawthorne en el eje contexto_observación.

La requisición de doble ciego de Hamming: prevenga que el contexto_observación se correlacione con el tratamiento. Esto mantiene el manifold de realidad y el manifold de contexto de estudio coincidentes - elimina el desplazamiento geométrico.

Otros Efectos de Dimensiones Ocultas

Cualquier variable que afecte al sistema pero se excluya del modelo crea la misma estructura geométrica:

- Efectos estacionales omitidos en modelos económicos

- Comportamiento del operador excluido de simulaciones de fabricación

- Estado de la versión del software ausente en modelos de rendimiento

El modelo ajusta una superficie de menor dimensión a datos que viven en una variedad de dimensión superior. Los residuos serán pequeños en las direcciones que mide el modelo, grandes en las direcciones no medidas.

Validación como Alineación Geométrica

La lista de verificación de validación de Hamming, reframada como geometría:

¿El fondo teórico respalda las leyes supuestas? ¿Las dimensiones del espacio de parámetros del modelo abarcan la verdadera variedad de datos? Si las variables clave están ausentes (dimensiones excluidas), la superficie del modelo no puede estar alineada con la realidad.

¿Están disponibles controles internos? Las leyes de conservación son restricciones geométricas: los datos deben estar en una subvariedad específica definida por la conservación de la masa, la conservación de la energía, etc. Si la simulación viola estas, su trayectoria ha dejado la subvariedad válida.

Revisión cruzada contra la experiencia conocida en el pasado: la superficie del modelo debe pasar por puntos de validación históricos - no solo ajustarse a los datos de entrenamiento, sino generalizar a observaciones fuera del conjunto de entrenamiento.

¿La simulación es estable? Una simulación estable se mantiene cerca de la verdadera variedad de soluciones ante pequeñas perturbaciones. Una simulación inestable abandona el vecindario de la variedad y no puede llamarse un modelo válido.

Hamming señaló que en las simulaciones comerciales y los juegos de guerra, los participantes que saben que están en una simulación cambian su comportamiento - haciendo que la simulación sea un modelo poco fiable del comportamiento real. Identifica la propiedad geométrica que hace que la simulación fracase en este caso (no solo 'efecto Hawthorne' - describe la estructura geométrica). Luego propone un prueba de validación que detectaría el vacío simulación-realidad sin requerir condiciones de doble ciego.

Cuando la Predicción Se Convierte en Proyección

Hamming respaldó el método de escenarios para dominios en los que la predicción es imposible: en lugar de afirmar 'el sistema hará X', presente un conjunto de posibles trayectorias bajo diferentes conjuntos de suposiciones.

Interpretación Geométrica

La superficie del modelo M(θ) depende de los parámetros θ (suposiciones sobre leyes, constantes, condiciones de contorno). Diferentes conjuntos de suposiciones θ₁, θ₂, ..., θₖ definen diferentes superficies M(θ₁), ..., M(θₖ).

El envoltorio de escenarios es la unión de estas superficies: la región del espacio de salidas que podría producir cualquiera de los modelos de escenarios.

Una sola predicción afirma: la verdadera salida está cerca de M(θ) para la mejor estimación θ. El método de escenarios afirma: la verdadera salida está en algún lugar dentro del envoltorio.

Cuando el Envolvente Es Útil

Si el envoltorio es estrecho - todos los escenarios están de acuerdo en la salida a pesar de diferentes suposiciones - la confianza en la predicción es alta. Si el envoltorio es amplio - diferentes suposiciones producen salidas muy diferentes - el modelo es altamente sensible a las suposiciones. Esa sensibilidad es la salida, no un modo de falla.

La afirmación de Hamming sobre sus propias predicciones: estaba dando escenarios, no predicciones puntual. El futuro que describió era 'lo que es probable que suceda, en mi opinión', no un pronóstico preciso.

Sobreposición con la Realidad

Un modelo de escenarios se valida cuando la realidad cae dentro del envoltorio. Este es un test más débil que la predicción puntual, pero más honesto sobre lo que el modelo puede afirmar.

Poniéndolo Todo Juntos: Modelos Válidos y Su Geometría

La geometría de la simulación válida se reduce a tres alineaciones:

1. El espacio de parámetros cubre el verdadero manifoldo: las dimensiones del modelo incluyen todas las variables que controlan el sistema. Las lagunas de dimensiones ocultas producen desviaciones sistemáticas.

2. La estabilidad mantiene la trayectoria cerca del verdadero manifoldo: un campo de dirección convergente significa que los errores se reducen. Un campo divergente significa que la simulación abandona la región válida.

3. Los residuos son pequeños Y sin estructura: residuos aleatorios, sin correlación, sugieren que el modelo captura el verdadero manifoldo. Residuos estructurados (tendencias, patrones) indican que falta una dimensión.

Hamming's '¿Por qué debería alguien creer en la simulación?' se traduce geométricamente: ¿cuán cerca está la superficie del modelo del manifoldo de la realidad, en cuántas dimensiones, con cuánta estabilidad, validado en cuántos puntos fuera de muestra?

Usted está construyendo un modelo para predecir si un proyecto de construcción de puentes terminará en tiempo. Su modelo utiliza: duración planificada (semanas), tamaño del equipo (personas) y relación de presupuesto (real/planificado). Un colega argumenta que está omitiendo variables críticas. Utilizando el marco geométrico de esta lección, describa dos tipos de variables que faltan: una que crearía un sesgo sistemático en las predicciones y una que aumentaría la varianza de las predicciones sin sesgo. Explique la diferencia geométrica entre estos dos efectos.