Wat Modelpasvorming Eigenlijk Betekent
Een simulatiemodel maakt een wiskundige claim: de uitvoeringen van het echte systeem liggen op (of in de buurt van) een specifiek oppervlak M in de ruimte van waarnemingen.
Laat het echte systeem waarnemingen y₁, y₂, ..., yₙ produceren. Het model voorspelt waarden ŷ₁, ŷ₂, ..., ŷₙ.
Resten als afstanden: rᵢ = yᵢ - ŷᵢ. Elk rest geeft de afstand tussen een waarneming en haar corresponderende modelvoorspelling weer. In n-dimensionale waarnemingsruimte vormen de resten een vector r = y - ŷ.
Minimale kwadraten pasvorming: kies modelparameters om ||r||² = Σrᵢ² te minimaliseren. Geometrisch: vind het punt ŷ op het modeloppervlak M dat het dichtst bij de waarnemingsvector y in Eucledeese afstand ligt.
Wanneer Resten Misleiden
Kleine ||r||² garandeert niet een geldig model. Twee systeemfouten:
1. Systeemfout: resten rᵢ zijn klein maar allemaal positief (of allemaal negatief). Het model voorspelt consistent te laag of te hoog. Geometrisch: ŷ ligt op een parallele verschuivingsoppervlak ten opzichte van de echte gegevensmanifold — dicht in de buurt in afstand, maar verkeerd van structuur.
2. Foute manifold: resten zijn klein omdat het model voldoende vrije parameters heeft om de trainingsgegevens exact te passen (overpassing). Het modeloppervlak gaat door de gegevenspunten heen, maar kronkelt wild tussen hen. Voorspellingen op nieuwe gegevens zijn slecht.
Systeemfout Detecteren
Een model met een gemiddelde rest van nul kan nog steeds een systeemfout hebben die varieert met een invoervariabele.
Voorbeeld: een weerssimulatie die de temperatuur met 2°C onderschat in de zomer en overschat in de winter heeft een gemiddelde rest ≈ 0 over een hele jaar, maar een duidelijke seizoenswijze.
Restdiagnose: teken rᵢ af tegen elke invoervariabele. Een vlakke patronen (geen trend) suggereert geen systeemfout vanwege die variabele. Een trendpatroon onthult een ontbrekende dimensie in het model.
Hamming's validatiewe vraag — 'Kan een kleine maar vitale effect ontbreken?' — vertaalt zich wiskundig: heeft het restvector een component in een richting die niet wordt gespannen door het modelparameter ruimte?
Systeemfout versus Willekeurige Ruis
Het Hawthorne-effect: onderzoekspersonen veranderen hun gedrag omdat ze weten dat ze worden gemonitord, niet vanwege de experimentele behandeling.
Wiskundige Interpretatie
Laat de werkelijke data-manifold M leven in een ruimte die wordt gespannen door de variabelen (x₁, x₂, ..., xₖ, observatiecontext).
Het model negeert de observatiecontext. Het past een oppervlak aan de waarnemingen in (x₁, ..., xₖ) alleen.
Wanneer observatiecontext = 'wordt bestudeerd', verschuiven de werkelijke datapunten langs de observatiecontext-as. Het modeloppervlak — vaste waarden in (x₁, ..., xₖ) ruimte — past nu gestremde data. De restvector lijkt klein (het oppervlak past goed binnen de studiecontext), maar voorspellingen in de onwaargenomen context zijn systematisch fout.
De wiskunde: het modeloppervlak is dicht bij de studiecontext-datummanifold, maar ver van de werkelijkheid-manifold. De afstand tussen hen: het Hawthorne-foutafstand langs de observatiecontext-as.
Hamming's dubbele-blind vereiste: voorkom dat observatiecontext wordt gekoppeld aan behandeling. Dit houdt de werkelijkheid-manifold en de studie-context-manifold gelijk — elimineert de geometrische foutafstand.
Andere Verborgen-Dimension Effecten
Elke variabele die de systeem beïnvloedt maar uit het model wordt uitgesloten, creëert hetzelfde geometrische patroon:
- Seizoense effecten die worden genegeerd in economische modellen
- Operatorgedrag dat wordt uitgesloten uit productiesimulaties
- Softwareversiestaat afwezig in prestatiesmodellen
Het model past een lagedimensionale oppervlak aan data die op een hogerdimensionale manifold leven. Restwaarden zullen klein zijn in de richtingen die het model meet, groot in de ongemeten richtingen.
Validatie als Geometrische Alignement
Hamming's validatiesjabloon, herformuleerd als geometrie:
Steunt de achtergrondtheorie de aangenomen wetten? Spannen de dimensies van het modellen parameter-ruimte het echte data manifold? Als sleutelvariabelen ontbreken (uitgesloten dimensies), kan het modellen oppervlak niet worden gealigneerd met de realiteit.
Zijn interne controles beschikbaar? Behoudswetten zijn geometrische beperkingen: de data moet op een specifieke submani fold liggen die is gedefinieerd door massaconservering, energieconservering, etc. Als de simulatie deze schendt, heeft zijn traject de geldige submani fold verlaten.
Tegenchecks tegen bekende ervaringen uit het verleden: het modellen oppervlak moet door historische validatiepunten heen gaan - niet alleen passen bij trainingsdata, maar generaliseren naar uitmonsterkingen.
Is de simulatie stabiel? Een stabiele simulatie blijft in de buurt van het echte oplossingsmani fold ongeacht kleine verstorende factoren. Een instabiele simulatie verlaat het gebied van het mani fold en kan niet worden aangeduid als een geldig model.
Wanneer voorspelling projectie wordt
Hamming steunde het scenario-voorbeeld voor domeinen waar voorspelling onmogelijk is: in plaats van te zeggen 'het systeem zal X doen', presenteert een reeks mogelijke trajecten onder verschillende aannameverzamelingen.
Wiskundige Interpretatie
Het modells oppervlak M(θ) is afhankelijk van parameters θ (aanname over wetten, constante, grensvoorwaarden). Verschillende aannameverzamelingen θ₁, θ₂, ..., θₖ definiëren verschillende oppervlakken M(θ₁), ..., M(θₖ).
Het scenario-schets is de unie van deze oppervlakken: de regio van uitvoersruimte die elk van de scenario-modellen kan produceren.
Een enkele voorspelling claimt: de werkelijke uitkomst ligt in de buurt van M(θ) voor de beste schatting θ. Het scenario-voorbeeld claimt: de werkelijke uitkomst ligt ergens binnen het schets.
Wanneer het schets nuttig is
Als het schets nauw is - alle scenario's zijn het overeen over de uitvoer ondanks verschillende aanname - is de vertrouwen in de voorspelling hoog. Als het schets breed is - verschillende aanname produceren zeer verschillende uitvoeren - is het model zeer gevoelig voor aanname. Die gevoeligheid is de uitvoer, niet een falende modus.
Hamming's claim over zijn eigen voorspellingen: hij gaf scenario's, niet puntvoorspellingen. De toekomst die hij beschreef was 'wat waarschijnlijk gaat gebeuren, in mijn opinie', niet een precisievoorspelling.
Overlapping met de realiteit
Een scenario-model wordt gevalideerd wanneer de realiteit binnen het schets valt. Dit is een zwakker test dan puntvoorspelling maar is eerlijker over wat het model kan claimen.
Samenvoeging: geldige modellen & hun wiskunde
De geometrie van een valide simulatie komt neer op drie afstemmingen:
1. Parameter ruimte dekt het werkelijke lichaam af: de modellendimensies bevatten alle variabelen die het systeem beïnvloeden. Gaten in verborgen dimensies produceren systeemmatige afwijkingen.
2. Stabiliteit houdt de baan dicht bij het werkelijke lichaam: een convergerende veldrichting betekent dat fouten kleiner worden. Een divergerend veld betekent dat de simulatie de valide regio verlaat.
3. Restwaarden zijn klein EN ongeordend: willekeurige, niet gecorreleerde restwaarden suggereren dat het model het werkelijke lichaam vangt. Gestructureerde restwaarden (trends, patronen) signaleren een ontbrekende dimensie.
Hamming's 'Waarom zou iemand de simulatie geloven?' vertaalt geometrisch: hoe dicht is het modellsurface bij de werkelijke lichaam, in hoeveel dimensies, met hoeveel stabiliteit, geverifieerd op hoeveel uitmonsterpunten?