Kausalanalyse

Mens oplevelsen af at noget er årsag til noget andet er helt almindelig og grundlæggende for mennesker, har statistikken et meget mere forsigtigt forhold til årsager, kausale forklaringer.
Dette har sin forklaring i det væld af misforståelser man ser vedrørende forskning. Det er så almindeligt at en konstateret sammenhæng bliver forstået som en årsagssammenhæng. Der blev i en undersøgelse fundet en sammenhæng mellem moderat alkoholindtag på introkurserne til gymnasiet og hvor godt gymnasiasterne senere klarede sig. Der er muligvis andre fejlkilder i denne undersøgelse, men den store fejltagelse er at fortolke undersøgelsen sådan at man må anbefale unge mennesker at drikke til introkurserne, også de unge som normalt ikke rigtigt drikker. Efter denne forståelse af undersøgelsen risikerer sådanne unge at komme uden for i deres klasse og dermed få et vanskeligere gymnasieforløb.

Denne forståelse betyder at hvis der er sammenhæng mellem A (drikkeri) og B (god tilpasning), så må det være A der er årsag til B. Der er dog to alternative forklaringer: at B er årsag til A eller at der er en fælles årsag C som forårsager både A og B. Man kunne tænke sig at B ikke kan være årsag til A, fordi tilpasningen kommer efter introkurset. Imidlertid måles begge dele med samme spørgeskema, så erindringen om drikkeriet og fortolkningen af tilpasningen er samtidige i undersøgelsen, og det er muligt at en veltilpasset gymnasieelev vil hævde at have drukket moderat, fordi dette er normen i ungdomskulturen. Det er også muligt at C er årsag til både A og B, f.eks. hvis unge med særlige vanskeligheder både kan være tilbøjelige til enten at drikke for meget, eller kompensatorisk at holde sig helt væk fra alkohol og have vanskeligere ved at tilpasse sig i gymnasiet.

Læren af sådanne misforståelser
For at undgå sådanne misforståelse lærer man i forskningsundervisning at korrelation er ikke kausation: man kan ikke sige noget om årsager ud fra målinger af korrelation. Faktisk er der netop en gammel strid i statistikken mellem de to opfattelser. Francis Galton og Karl  Pearson opfandt korrelationsberegning, og indledte den senere så dominerende opfattelse i statistikken at man bør undgå kausalforklaringer. Ronald Fischer, som opfandt det kontrollerede eksperiment, holdt imidlertid fast i at hans metode netop kunne påvise årsager.

Nyere opfattelser af kausalitet
Med introduktionen af pathanalyse (Sewell Wright) og senere den statistik med latente variable som netop bygger på pathanalyse (SEM) er diskussionen om analyse af årsagssammenhænge levet op igen. Der er udviklet metoder til påvisning af årsagssammenhæng.

Særligt Pearl (2009) har været samlingspunkt for udviklingen af disse metoder. Han har forklaret den manglende forståelse af kausalitet i statistikken med at der har manglet et matematisk sprog til at beskrive årsagsforhold, og at statistikkens formler netop ikke har nogen retningsbestemmelse (fra årsag til virkning). Han har genoptaget pathanalysen som udgangspunkt for opstilling af grafiske modeller der kan vise retningsbestemte årsagsforhold, og han har indført en betegnelse for den påvirkning, intervention, som også Fischer introducerede i sine kontrollerede eksperimenter. Pearl har indført betegnelsen do(x) som udtryk for at der aktivt handles med variablen x (gennem eksperimentel påvirkning, f.eks. som behandlingsintervention). Han har opstillet et matematisk sprog som kan bruges til at påvise at man under visse omstændigheder kan slutte sig til kausalitet også uden eksperimentel påvirkning. Dette sker gennem den såkaldte kontrafaktiske analyse.

Litteratur
En matematikfri introduktion til disse synspunkter kan fås i
Pearl, J. and Mackenzie, D. (2018). The book of why. The new science of cause and effect. London: Penguin.

En detaljeret forklaring af de grundlæggende principper og beregningsmetoder, møntet på universitetsstuderende ved deres første statistikkursus, er
Pearl, J., Glymour, M. og Jewell, N.P. (2016). Causal inference in statistics. A primer. New York: Wiley.

Jan Ivanouw
9. juni 2018