Missing data | Psykologisk Selskab for Forskningsmetodologi

Det er som regel sådan at der mangler nogle af de data man havde tænkt sig at indsamle i en undersøgelse. Det kan være personer der ikke svarer på bestemte spørgsmål, det kan være personer i et behandlingsforløb der ikke dukker op til nogle af undersøgelserne.

Et gennemgående problem i statistikken har været hvad man stiller op med dette. Problemer er dels at det er ærgerligt at der bliver færre data end man havde planlagt, dels – og værre – at det tit ikke er tilfældigt hvilke data der kommer til at mangle. Det kan f.eks. være at det er de personer der ikke havde så meget ud af behandlingen, der ikke kommer til sidst, eller som ikke gider at svare på flere spørgeskemaer – og så bliver resultatet bedre end det skulle være, fordi kun de tilfredse er med i undersøgelsen.

Traditionelt har der været to metoder at forholde sig til dette. Den ene måde hedder listwise deletion. Det betyder at bare enkelte data mangler for en person, så sletter man hele personen fra samplet. Dette giver dels et stort spild, dels måske den bias der er omtalt ovenfor. Den anden metode er casewise deletion. Det betyder at man kun lader personen udgå af analysen hvis de data for vedkommende der mangler skal bruges i lige denne analyse. Dette er på en måde endnu værre, fordi man mister overblikket over analyserne. Det er ikke til at se hvor mange og hvem der er med i hvilke analyser.

Der har været forsøgt andre metoder, nemlig simple imputation, hvor man der hvor der mangler værdier indsætter enten gennemsnittet for de andre personer. eller vha regressionsanalyse ud fra andre variable beregner hvilken værdi der ‘burde’ stå der hvor den mangler. Begge metoder lider imidlertid under den fejl at der bliver for lille variation for de variable hvor der indsættes beregnede værdier. Hvis der faktisk havde været en værdi, kan det godt være den ville ligne gennemsnittet, eller den beregnede værdi fra regressionsanalysen, men sandsynligvis ikke lige nøjagtigt, snarere lidt ved siden af. Især hvis der er flere manglende værdier for en bestemt variabel, kommer der til at være for mange indsatte værdier ‘lige på midten’ og altså for lille varians.

Der findes imidlertid bedre, moderne metoder til at håndtere missing data. Den ene er multiple imputation, den anden er [FIML].

I de nyere behandlinger af manglende data skelner man mellem forskellige typer:
Missing Complete at random (MCAR) betyder at de manglende værdier ikke har nogen sammenhæng med nogen andre variable i undersøgelsen.
Missing at random (MAR) betyder at der ganske vist kan være sammenhænge mellem mekanismen der fører til manglende data, men at dette kan forklares ved andre variable, Hvis f.eks. mænd er mindre tilbøjelige til at besvare spørgeskemaerne i en undersøgelse af angst, men at den manglende udfyldelse ikke har noget at gøre med angstniveauet. Missing Not at random (MNAR) betyder at der er sammenhæng mellem missingness og den variabel der skal forklares, eksempelvis hvis personer med dårlig effekt i en behandlingseffektundersøgelse ikke besvarer spørgsmålene, som i det tidligere eksempel.

Ved vurdering af undersøgelser er det vigtigt at se om manglende data og bortfald af forsøgspersoner er håndteret relevant.