Statistik med latente variable omfatter en lang række metoder som er kommet frem i de senere år.
Den traditionelle statistik der typisk undervises i på universiteterne, opleves nok af mange som svær at forbinde med psykologiske problemstillinger. Man kan have en fornemmelse af at metoderne kræver en analyse af enkelte detaljer og derfor kan være svære at forbinde med den psykologiske helhed man som regel er interesseret i.
Statistik med latente variable beskæftiger sig derimod mere med de helheder på det niveau man man tænker i som psykolog. De latente variable svarer til de psykologiske begreber man bruger som psykolog, og man arbejder med hele modeller i stedet for med opdelte detailanalyser. De komplekse helheder man finder i psykologien kræver imidlertid også analyse af komplekse helheder i dataanalysen, og de kræver derfor en anden forståelse når man bruger disse nyere metoder.
Man skelner mellem observerede og latente variable.
Den traditionelle statistik arbejder med observerede variable. Når man har et begreb man vil måle, finder man den bedst mulige metoder – i psykologien er det ofte en test. Denne metode udvikles så den er så pålidelig og valid som mulig, men når den først er udviklet, anvendes den direkte til målinger. Man ved jo godt at disse målemetoder rummer mange fejl, men i den traditionelle måde at arbejde på, er der ikke rigtigt noget at gøre ved det.
Statistik med latente variable kan imidlertid kompensere for en vis type målefejl. Hvis man tænker sig en test med en række spørgsmål (items), så er disse udvalgt fordi de siger noget om det der skal måles. F.eks. kan man spørge om personen sover afbrudt som led i en depressionstest, fordi man ved at depressive har sådanne søvnproblemer. Men der kan på den anden side også være andre grunde til at sove afbrudt. Man kan have en snorkende partner, et nyfødt barn eller være nødt til at stå op regelmæssigt for at gå på toilettet. Et andet spørgsmål i en depressionstest kan gå på om man har mistet lysten til sex. Dette forekommer også hos depressive, men kan også forekomme hvis man har problemer med sin partner. Denne forstyrrende indflydelse er imidlertid en anden end den som kan påvirke spørgsmålet om søvn. I latent statistik kan man skelne mellem den information som er fælles for disse to spørgsmål (og de resterende i testen) fra den information som kommer fra de andre forstyrrende indflydelser. Hvis blot spørgsmålene er valgt således at de tilsammen og på forskellig måde indkredser det begreb man vil måle, så kan man isolere fejlkilderne fra de forskellige former for uvedkommende indflydelse.
Resultatet bliver en måling som er bedre, mindre fejlbehæftet. Og det betyder også at de statistiske undersøgelser man foretager, vil vise større effekter, fordi de slørende målefejl som kunstigt formindsker effekterne (attenuation), bliver undgået.
Se demonstration af hvordan man finder de reelle større effekter ved hjælp af statistik med latente variable, og hvor meget mindre effekterne ser ud når de er udsat for attenuation ved de traditionelle bearbejdningsmetoder. [Indsættes her]
Undervisning i statistik med latente variable
Den mest omfattende og grundige indføring i området statistik med latente variable får man ved at se videoerne af live undervisning af Muthén og medarbejdere. Det er direkte optagelser fra undervisning, og de er derfor meget lange. Man kan med fordel samtidig følge med i de slides som kan downloades fra præsentationerne.
Præsentationerne er opdel i emner:
Topic 1: Introducerende om faktoranalyse, og SEM for kontinuerte data
Topic 2: Introducerende om analyse af kategoriale data, faktoranalyse mv.
Topic 3: Introducerende og mellemniveau om growth modeling (longitudinelle data)
Topic 4: Avanceret growth modeling, missing data og survival analysis
Topic 5: Latente kategoriale variable (klasseanalyse) med tværsnitsdata
Topic 6: Latente kategoriale variable (klasseanalyse) med longitudinelle data
Topic 7: Multilevelmodeller med tværsnitsdata
Topic 8: Multilevelmodeller med longitudinelle data
Topic 9: Bayesisk analyse med Mplus
Topic 10: Nye analysemetoder i Mplus
Topic 11: Regressions og mediationsanalyse (svarende til udgivet bog)
Topic 12: Indledende og mellemniveau: Dynamic Structural Equation Modeling (DSEM)
Topic 13: Avanceret Dynamic Structural Equation Modeling (DSEM)
De første videoer viser undervisning af Bengt og Linda Muthén. De senere involverer også andre undervisere.
Videoer og slides fra præsentationerne (i pdf-format) kan hentes her.
Litteratur om statistik med latente variable
Litteraturen kræver at man er nogenlunde inde i den traditionelle statistik og at man ikke bliver bange for et par enkelte ligninger hist og her.
Brown, T.: (2006). Confirmatory factory analysis for applied research. New York: Guilford.
Dette er en generelt introducerende bog til området med gode eksempler fra psykologiske problemstillinger. Bogen har eksempler fra de mest gængse PC-programmer: LISREL, EQS, Amos, SPSS, SAS og Mplus.
De to næste bøger er også generelle indledninger, men med eksempler fra Mplus. Begge bøger gennemgår nogle af de mest almindelige anvendelser for statistik med latente variable, men hele tiden med et praktisk sigte.
Byrne, B.M. (2012). Structural equation modeling with Mplus. Basic concepts, applications and programming. New York: Routledge.
Geiser, C. (2013). Data analysis with Mplus. New York: Guilford.
Kline, R.B. (2016). Principles and practice of structural equation modeling, New York: Guilford
Denne bog har et mere omfattende sigte og kommer ind på en lang række principielle spørgsmål vedrørende statistik med latente variable. Den er mere krævende end de ovenstående.
Nedenfor er link til en webside om emner vedrørende latente variable
Siden er ganske vist lidt ældre og mangler derfor nyere udviklinger, men indeholder nogle gode og korte forklaringer på en del vigtige emner. Det kræver ikke egentlig matematisk viden, men man skal dog koncentrere sig om at følge fremstillingen i nogle ligninger, som for det meste også vises som figurer.
David Kennys hjemmeside vedrørende Structural Equation Modeling
Jan Ivanouw
5. november 2018