Hvorfor er metaanalyse helt afgørende i psykologien?
Vi læser jævnligt om nye forskningsresultater. Men vi læser også jævnligt om at det vi læste om for et stykke tid siden, nu alligevel ikke er helt rigtigt. ‘De nyeste amerikanske undersøgelser har nu vist . . .’ Så tror man enten på den sidste undersøgelse, eller man prøver at finde ud af om der er metodefejl i en af undersøgelserne. Eller måske prøver man at tænke sig frem til nogle bagvedliggende variable af en eller anden slags. Måske gælder fundet for eksempel kun for personer med lav uddannelse, men ikke for personer med høj uddannelse.
Selvom en række undersøgelser finder den samme bagvedliggende lovmæssighed, kan resultaterne blive yderst forskellige. Det følgende eksempel viser 30 undersøgelser af sammenhængen mellem jobtilfredshed og ‘organizational commitment’. Undersøgelserne er tænkte og data er konstruerede ud fra realistiske forudsætninger om et gennemsnitligt antal forsøgspersoner på 40 i undersøgelserne og en gennemsnitlig korrelation på 0.33 mellem de to variable. Se hvor forskellige resultater der imidlertid kan komme ud af det:
Klik her for Excel-eksemplet. Variationen i korrelationskoefficienterne kommer af sampling error, den tilfældige variation man kommer ud for når man udvælger en gruppe forsøgspersoner i en bestemt undersøgelsessituation. Tænk på hvad man ville have konkluderet hvis man kun havde læst én undersøgelse, f.eks. undersøgelse 18. Og tænk så på hvordan man ville reagere hvis der et stykke tid efter kom en undersøgelse nr 23, som helt modsiger den første.
Man vil også se at kun 19 af de 30 undersøgelser viser at sammenhængen er signifikant. Det betyder jo at korrelationskoefficienten med stor sandsynlighed er større end 0. Men selvom undersøgelserne faktisk er konstrueret så de har korrelationskoefficienten 0,33, så viser 11 af undersøgelserne at man ikke med rimelig sikkerhed kan sige at den er større end 0! Årsagen til dette er fænomenet lav statistisk power. Ved signifikanstests kontrollerer man for den fejlkilde der består i at man kommer til at tro på en sammenhæng som slet ikke er der. P-værdien er udtryk for hvor stor denne risiko er. Når p < 0,05, så er der mindre end 5% risiko for at man kommer til at lægge noget ind i rene tilfældigheder. Derimod er risikoen for at overse lovsmæssigheder der faktisk er der sjældent beskrevet, og den er ofte meget stor. I psykologien er antal forsøgspersoner i undersøgelserne ofte lille. Det medfører at sandsynligheden for at finde faktiske lovmæssigheder ved brug af en statistisk signifikanstest er lille, i praksis ofte under 50%. Så er det jo ikke så mærkeligt hvis den ene undersøgelse finder lovmæssigsheden, og den næste undersøgelse ikke kan finde den. En løsning på dette problem er at rapportere størrelsen af lovmæssigheden, også kaldet effektstørrelsen, med konfidensgrænser (sikkerhedsgrænser) rundt om den. I dette tilfælde bruges korrelationskoefficienten som effektstørrelse, og korrelationskoefficienter plejer at blive anført i forskningsartikle. I andre situationer er det imidlertid ikke så almindeligt at beregne en effektstørrelser. Når det for eksempel drejer sig om at sammenligne to grupper, kan man bruge effektstørrelsen Cohens d,som i øvrigt kan omsættes til en korrelationskoefficient. Konfidendsgrænserne rundt omkring effektstørrelsen viser hvor præcist den er bestemt. Den indeholder sådan set også en signifikanstest. Hvis nemlig 0 ligger inden for konfidensintervallet mellem de to konfidensgrænser, kan man jo ikke afvise at effekstørrelsen i virkeligheden godt kunne være 0, og det svarer til at der ikke er fundet en signifikant sammenhæng. Der er imidlertid brug for en metode til at skabe sammenhæng i de modstridende fund og de forskellige bud på hvor stærk lovmæssigheden er. Denne metode er metaanalysen. Review eller metaanalyse Den traditionelle metode til at skaffe overblik over et forskningsområde er litteraturreview, ofte skrevet af en erfaren forsker på området. Et review kan være godt til at give et overblik over et forskningsområde som helhed, men det egner sig ikke til at løse problemet med de forvirrende fund. Enten bruger revieweren sin egen målestok for hvad der er god forskningsmetode, og lægger vægten på de bedste undersøgelser, eller måske foretrækker hun forskningsresultater der giver mest mening for hende selv. Ofte bruger revieweren en uformel sammentælling af hvor mange undersøgelser der har vist en signifikant sammenhæng på et område og hvor mange der ikke har fundet en sådan signifikant sammenhæng. Revieweren skriver for eksempel at 'Olsen og Petersen har hver for sig fundet xxx. I flertallet af undersøgelserne på området har man dog ikke kunnet finde xxx'. Denne metode duer faktisk ikke. Den udnytter begrebet 'statistisk signifikans' længere end det kan holde. I stedet er man nødt til at beskæftige sig med størrelsen af de fundne lovmæssigheder, som nævnt også kaldet effektstørrelserne. Disse måles ofte enten som korrelationskoefficienter (der viser styrken af sammenhæng mellem to variable), eller som Cohens d (der viser hvor stor forskel der er på resultaterne fra to grupper, f.eks. den gruppe der har fået psykoterapi over for kontrolgruppen der ikke har). Flere slags metaanalyse I begyndelsen bestod metaanalyse i at man blot beregnede gennemsnittet af de effektstørrelser der var fundet i forskellige undersøgelser, evt. vægtet i forhold til antal undersøgte personer i de enkelte undersøgelser så store undersøgelser havde størst vægt. Det var på den måde Glass og Smith påviste at psykoterapi faktisk har en effekt, selvom der havde været modstridende resultater i en lang række enkeltundersøgelser. Senere har man raffineret metaanalysen så det bliver muligt at tage hensyn til en række fejlkilder som man ikke kan kontrollere for i den enkelte undersøgelse. Man ser på mange psykologiske områder at lovmæssighederne faktisk kan være ganske stærke, men at undersøgelserne undervurderer effektstørrelsene fordi de uundgåelige målefejl og en række andre fejlkilder 'trækker ned'. I metaanalyse kan man korrigere for disse fejl og få et skøn over de faktiske effektstørrelser. Udvælgelse som fejlkilde Eksemplet viser hvor stor variation der kan komme i resultatet (effektstørrelsen) alene på baggrund af den tilfældige udvælgelse af forsøgspersoner i en bestemt undersøgelserssituation. Denne fejlkilde påvirker ikke størrelsen af den gennemsnitlige korrelationskoefficient. Hvis man regner gennemsnittet ud for korrelationskoefficienterne fra de enkelte undersøgelser, vil dette ikke blive påvirket af fejlkilden. Denne viser sig ved variationen i resultaterne, f.eks. de 30 forskellige korrelationskoefficienter i eksemplet. Det er vigtigt at undersøge om hele denne variation (eller varians som det hedder) er forårsaget af denne fejlkilde, eller om noget af den afspejler virkelige forskelle i resultaterne fra de forskellige undersøgelser, f.eks. fordi der faktisk er forskelle i lovmæssigheden for mænd og kvinder, for personer med forskellig alder, eller lignende. Man kan beregne hvor stor den tilfældige variation bør være, og ved at trække denne varians fra den der faktisk kan ses i resultaterne, kan man se om der er en variation der ikke er tilfældig. Og så kan man begynde at lede efter bagvedliggende influerende variable (moderatorvariable, også kaldet). Hvis man omvendt finder at hele variationen mellem korrelationskoefficienterne kan forklares som tilfældig variation, så behøver man ikke prøve at finde et mønster i resultaterne som kan forklares ved køn, alder, forskel i metoder mellem undersøgelserne el.lign. Alt dette gælder dog kun hvis andre fejl ikke påvirker effektstørrelserne i forskelligt omfang. Fejl der påvirker den gennemsnitlige effektstørrelser - og hvad man gør ved det En række fejl påvirker effektstørrelserne så de blive mindre end de engentligt skulle være (det kaldes attenuation). En af disse fejlkilder kan man ikke undgå, nemlig målefejl. Man vil aldrig kunne måle noget med perfekt sikkerhed. Vi har begrebet reliabilitet til at beskrive hvor stor usikkerhed der er i en måling. Når man korrelerer to variable som ikke er målt perfekt, så vil der komme noget slør i resultaterne. For hver variabel er sløret tilfældigt udbredt - man kan lige så godt få et resultat der er lidt større og et der er lidt mindre end det skulle være. Men hvis man tænker på den punktsværm der ligger i et sammenhængsdiagram med de to variable på de to akser, så vil man kunne se at tilfældigt slør på akserne vil medføre at punktsværmen bliver mere 'rund i det' - hvilket måles som en lavere korrelationskoefficient. De effekstørrelser man finder i undersøgelserne, vil altså altid undervurdere de faktiske sammenhænge. Man kan imidlertid med statistiske metoder korrigere for den lavere effektstørrelse og få et bedre billede af hvor stor den i virkeligheden er. Nogen tænker måske at det er snyd: så kan man jo bare være tilfreds med et dårligt måleinstrument med lav reliabilitet og så bagefter blot gange resultatet op. Prisen for at korrigere på denne måde er imidlertid at det korrigerede (forhøjede) resultat har bredere konfidensgrænser. Ved at korrigere får man altså et bedre skøn over den faktiske sammenhæng, men usikkerheden på skønnet er til gengæld større. Så kan man spørge om der så er så meget vundet ved at forhøje resultatet ved at korrigere når det bliver mere usikkert? Det er der måske heller ikke i den enkelte undersøgelse, men når man sammenholder mange undersøgelser i metaanalysen, kan man få det bedste af begge dele: ved at korrigere får man et bedre (højere) skøn over lovmæssigheden, og ved at sammenholde mange undersøgelser kan man nedbringe usikkerheden og alligevel få et nogenlunde præcist resultat (med snævre konfidensgrænser). Der findes også andre fejl der kan reducere effektstørrelserne. Disse fejl er ikke så uundgåelige som målefejlen. En af disse er begrænset variation på måleskalaerne. Hvis man i undersøgelsen har fået udvalgt en gruppe der ligger særligt lavt eller højt, eller måske koncentrerer sig særligt meget i midten, så er der mindre variation end der burde være. Denne form for begrænsning er indbygget i nogle slags undersøgelser. Hvis man f.eks. undersøger sammenhængen mellem en erhvervstest der bruges til at udvælge ansøgere og hvor godt de senere fungerer i deres arbejde, så kan man jo ikke vide hvor gode de ansøgere ville være som ikke fik jobbet. Her mangler man altså den gruppe personer som scorede lavt på erhvervstesten. Prøv at tegne et sammenhængsdiagram med en elipseformet punktsværm som angiver sammenhæng mellem test og senere præstation. Prøv derefter at skære de 30% væk som ligger lavest på testen. Elipsen bliver nu mere cirkelfomet, hvilket er det samme som at korrelationskoefficienten bliver lavere. Den samme begrænsede variation på måleskalaen kan man finde hvis man kun undersøger indlagte psykiatriske patienter med en personlighedstest som også skal kunne fortælle noget om ambulante patienter og om ikke-patienter med bestemte personlighedstræk. Lige som med målefejl, kan man korrigere for den reduktion (attenuation) af effektstørrelsen der kommer af begrænset variation på måleskalaerne. Af andre fejltyper som reducerer effektstørrelserne, findes dikotomisering af måleskalaer, altså at man reducerer en skala f.eks. ved at dele den på midten og kun regne med om en person ligger i den øvre eller den nedre gruppe. Mangelfuld validitet af måleskalaen til det intenderede formål reducerer også effekstørrelserne. Også disse fejltyper kan man korrigere for. For at korrigere for de forskellige fejl skal man bruge nogle oplysninger, f.eks. reliabiliteten af måleskalaerne. Hvis alle de undersøgelser som indgår i metaanalysen har disse oplysninger, så korrigerer man hver undersøgelse for sig og beregner derefter det samlede gennemsnit og varians for effektstørrelsen. Hvis ikke alle undersøgelserne har rapporteret de nødvendige oplysninger, kan man ud fra de undersøgelser der faktisk giver disse oplysninger beregne sandsynlige værdier, som derefter bruges til at korrigere det samlede gennemsnit og varians fra alle undersøgelserne. Når man ser på undersøgelser inden for en lang række forskningsområder, finder man typisk korrelationskoefficienter på omkring 0.30. Da disse som regel ikke er korrigeret for de nævnte fejlkilder, må man imidlertid regne med at de faktiske lovmæssigheder er en del stærkere. Hvad skal psykologer kunne? Metaanalyse bruges mere og mere, men det er ikke almindeligt at psykologer kender ret meget til metoden. Det medfører at psykologer får svært ved at få overblik over udviklingen i psykologien. De psykologer som følger med i forskningen, bliver let ofre for 'så er kartofler sunde - så er de alligevel ikke sunde'- effekten. Psykologer skal vide at man sjældent kan stole på fund fra enkelte undersøgelser, og at man oftest heller ikke kan stole på sin egen uformelle opgørelse af hvor mange undersøgelser der har fundet eller ikke fundet et eller andet. Psykologer er derfor nødt til at spørge efter metaanalyser som baggrund for at danne egne meninger. Psykologer kan faktisk også godt selv arbejde med at samle undersøgelser til metaaanalyser på de områder der er vigtige for dem. Det kan gøres med håndkraft, men der findes også billige PC-programmer som kan være til hjælp. Litteratur Hunter, J.E. og Schmidt, F.L. (2004). Methods of Meta-Analysis. Correcting error and bias in research findings. Thousand Oaks: Sage. I denne bog findes endvidere gennemgang af metaanalysens udvikling og henvisninger til andre opfattelser af metaanalyse, eksempelvis Glass og Rosenthal. Egger, M., Smith, G.D. & Altman, D.G. (2001). Systematic Reviews in Health Care. Meta-analysis in context. 2nd ed. London: BMJ Books. I denne bog gennemgås principper for sammenfatning af viden inden for det medicinske område, specielt Cochrane-initiativet. PC-programmer Der findes en række forskellige programmer til metaanalyse som omtales på siden med links.