Principal Component Analyse – en misforstået metode

Principal Component Analyse (PCA) ved udvikling af psykologiske tests

Det er meget almindeligt at PCA bliver brugt som led i at udvikle psykologiske tests. Det er imidlertid en rigtig dårlig ide, og der findes andre og bedre metoder. Det gennemgår jeg nedenfor.

Udvikling af psykologiske tests

En almindelig måde at udvikle en psykologisk test er at 1) beskrive det begreb man vil måle 2) finde en række items som man mener vil være egnede til at måle begrebet. Items vil ofte være sætninger som svarpersonen skal tage stilling til. 3) For at vurdere hvilke af disse items der er egnede skal man finde ud af a) om de faktisk passer til den samme måleskala b) om de repræsenterer en passende fordeling af ‘lette’ og ‘svære’ items. Lette betyder at man ikke skal have særligt meget af egenskaben for at svare positivt på dette item, og svær betyder at man kun svarer positivt hvis man har vældig meget af egenskaben. Dette er vigtigt for at man skal kunne bruge målemetoden både over for personer med lidt og meget af egenskaben.

Det er til denne vurdering at man typisk bruger faktoranalytiske metoder. Pointen er at item gerne skal korrelere indbyrdes og dermed vise at de handler om samme emne (begreb). Disse korrelationer mellem gruppen af items til skalaen sammenfattes gennem faktoranalysen til en faktor, som kommer til at stå for det begreb der skal måles.

Her er det så det går galt. PCA anses af mange for en sådan faktoranalytisk metode som kan bruges til at finde ud af hvilke items som egner sig til at måle et bestemt begreb. Imidlertid er PCA slet ikke en faktoranalytisk metode, og de skalaer der kan komme ud af at bruge PCA, kan vise sig at være rigtigt dårlige målemetoder. Nedenfor bliver gennemgået som et eksempel på dette testen DAPP.

Faktoranalyse og PCA – de to typer varians

Når vi taler om at items korrelerer med hinanden fordi de handler om det samme, så er det en sandhed med modifikationer. Der er nemlig noget af den information men kan få fra sådan et item som vil handle om det begreb man vil måle, men der er næsten altid også altid information som ikke handler om begrebet, men om noget andet. [indsæt depressionseksemplet eller et andet eksempel]. Det som man kan med rigtig faktoranalyse (i den form som kaldes confirmatorisk factor analysis, CFA), er at skelne mellem de to slags informationer (se figuren). Man kan uddrage den information (variation) som er fælles for alle de valgte items (og som handler om begrebet) og se bort fra den information som ikke er fælles og ikke handler om begrebet. Mens man udvikler testen, kan man bruge rigtig faktoranalyse til at vurdere om et item har tilstrækkelig fælles variation med de andre items til at skulle med i testen, samt hvor ‘svært’ dette item er i forhold til de andre.

Problemet er at PCA ikke skelner mellem de to slags information i et item. I PCA bruger man al informationen, både den der handler om begrebet, og den der ikke gør, og på denne måde kommer man ikke til at identificere de items der er gode til at måle begrebet.

Hvad kan PCA så bruges til?
[eksemplet med Apgarscoren]
Vi måler faktisk ikke noget bestemt med en Apgar score. Den bruges i stedet som en samling indikatorer til forudsigelse af mulige somatiske problemer hos det nyfødte barn (Markus and Borsboom, 2013, s. 111ff).
[eksemplet med godt vejr].
Vi kan snarere end at se PCA som en måling af noget bestemt, se det som en regressionsanalyse hvor man ud fra en række uafhængige variable kan forudsige en afhængig variabel. Vi kan måske forudsige skilsmisse ud fra en række sociologiske og psykologiske egenskaber ved parret, f.eks. kommunikation, økonomiske vanskeligheder, belastning fra småbørn, problemer med erhverv og arbejdsløshed, fælles interessser. Vi kan måske ud fra dette vurdere skilsmisserisiko for en bestemt gruppe, og måske i nogle tilfælde også hos det enkelte par, men vil kan ikke påstå at der findes et begreb der hedder skilsmisserisiko og som kan måles med denne samling oplysninger – ikke uden at gøre vold på begrebet måling. Man vil kunne diskutere hvilke faktorer der skal med for at give en god forudsigelse, og disse vil kunne variere i forskellige situationer. En egentlig måling vil ikke være afhængig af situationen.

En anden måde at beskrive forskellen: reflektive versus formative indikatorer

Læren fra DAPP-testen

Testen DAPP er udviklet ud fra den vigtige tanke at diagnoser måske ikke kun skal beskrives som afgrænsede enheder (så man enten er den ene eller den anden diagnose – evt flere), men også skal kunne beskrives som dimensioner (så man f.eks. kan kan være en lille smule narcissistisk, lidt mere borderline, og også ret meget dependent). For at udvikle en test der skulle kunne vise dette, indsamlede xx en lang række sætninger fra psykiatriske journaler. Dem udsatte han så for en PCA, og fik derigennem afgrænset 18 faktorer, som skulle kunne sammenfatte oplysningerne, og som blev ophav til 18 skalaer.

Når man ser på resultatet, bliver det imidlertid tydeligt at der er items til den samme skala som ganske vist nok kan tænkes at korrelere med hinanden, men som faktisk handler om noget forskelligt, Der er f.eks. en række items til skalaen ‘Dyssocial(?)’ som handler om antisocial adfærd som at lyve, stjæle, sætte ild til, og så er der items som handler om alkoholforbrug. Det er jo nok rigtigt at alkoholforbrug kan både føre til sådanne handlinger, og at personer der i øvrigt udfører antisociale handlinger også kan være tilbøjelige til at drikker for meget. MEN at drikke for meget kan ikke i sig selv opfattes som antisocial adfærd. Der er mange grunde til at drikke for meget. Det kan være man bruger alkohol til at dæmpe sin angst, til at styrke sin selvfølelse, til at passe ind i sin sociale omgangskreds osv. Det slører målingen at inddrage disse items.

Det viser sig da også at når man foretager en confirmatorisk faktoranalyse (CFA), som kan belyse i hvilken grad items til en skala faktisk passer godt i skalaen, så duer denne skala slet ikke. Og det er det samme med en række af de andre skalaer i DAPP.

Littertur

Markus, K.A. and Borsboom, D. (2013) Frontiers of test validity theory. Measurement, causation and meaning New York: Routledge

Jan Ivanouw
28. april 2018