Bayesisk statistik

Den form for statistik som der normalt undervises i, kan kaldes frekventistisk og står i modsætning til Bayesisk statistik, som har sit navn efter en engelsk præst og statistiker som levede i 1700-tallet. Der har været indædte kampe mellem tilhængerne af disse to retninger i statistikken.

Efter det frekventistiske synspunkt analyseres data fra en ny undersøgelse som ny uafhængig information. Efter den Bayesiske opfattelse medtager man imidlertid det man allerede ved i forvejen. Viden i statistik består ofte i at kende til fordelingen af en størrelse (med gennemsnit og spredning). At tage hensyn til tidligere viden består derfor efter den Bayesiske opfattelse i at man starter med en prior distribution fra tidligere undersøgeler (eller fra begrundede forventninger til resultatet). I det forsøg man gennemfører, kommer der så en ny fordeling, og det endelige resultat, posterior distribution bliver en slags gennemsnit mellem disse to fordelinger.

Bayeserne hævder at det er mærkelig at lade som om man ikke ved noget om sagen i forvejen hvis andre allerede har gennemført undersøgelser der peger på de sandsynlige resultater, og at man vil få den bedste viden ved at kombinere resultater (det er lidt den samme tankegang der ligger i metaanalysen). Omvendt vil frekventisterne anse det for ‘snyd’ at ‘inficere’ resultatet af en undersøgelse med tidligere viden, og måske oven i købet på konservativ vis dermed blot få bekræftet det man allerede tror på.

Der er imidlertid også en anden anvendelse af Bayes’ principper, som der ikke er konflikt om, hvor de blot bruges som hjælp til statistisk beregning. Det er nemlig muligt at brug ‘uninformative priors’ som er fordelinger der har så stor spredning at der ikke ligger nogen bestemt information i dem, men at de alligevel kan bruges til at lette beregningerne.

Man kan sige at når man i frekventistisk statistik fastlægger en værdi, bruger man blot priors med spredningen 0. Der er imidlertid også metoder der som en mellemting bruger priors der gør de statistiske forudsætninger lidt mindre strenge. Eksempelvis sætter man rutinemæssig i faktoranalyse forbindelsen mellem de items der ikke har noget at gøre med en bestemt latent variabel til at være 0 (altså med en prior der har gennemsnit 0 og spredning 0). Hvis man i stedet sætter spredningen i denne prior til at være bare en smule større end 0, så anerkender man at det er sjældent i psykologien at der slet ikke er nogen relationer mellem to fænomener, og det kan give mere realistiske modeller.

En gennemgang af Bayesisk statistik og dens anvendelse kan ses her (som ppt-fil)

Jan Ivanouw
13. maj 2018