Det är svårt att underskatta vikten av enkätdata:De berättar för oss vilka vi är och – i händerna på beslutsfattare – vad vi ska göra.
Det hade länge varit uppenbart för Brady West, en expert på undersökningsmetodik vid University of Michigan, Ann Arbor, att fördelarna med enkätdata samexisterade med bristande utbildning i hur man tolkar dem korrekt, särskilt när det gällde sekundära analyser – forskare som analyserade enkätdata som hade samlats in av en tidigare studie.
"I mitt konsultarbete för organisationer och företag, folk skulle komma in och säga:'Väl, här är min uppskattning av hur ofta något inträffar i en befolkning, ' såsom graden av en sjukdom eller preferenser för ett politiskt parti. Och de skulle vilja veta hur man tolkar det. Jag skulle svara, "Har du tagit hänsyn till viktningen av undersökningsdata du använder - eller, redogjorde du för provdesignen?' Och jag skulle säga, förmodligen 90 procent av tiden, de tittade på mig och hade ingen aning om vad jag pratade om. De hade aldrig lärt sig om de grundläggande principerna för att arbeta med enkätdata i sina standardklasser för Intro till statistik."
Som enkätmetodolog, West undrade om hans erfarenhet tydde på ett systemproblem. Det fanns inte mycket i den akademiska litteraturen för att svara på frågan, så han och hans kollegor, Joseph Sakshaug och Guy Aurelien, provade 250 papper, rapporter och presentationer – alla tillgängliga online, alla utför sekundära analyser av undersökningsdata – för att se om dessa analytiska fel var, verkligen, allmänning.
"Det var ganska chockerande, " säger West. "Endast ungefär hälften av dessa analyser påstods svara för viktning, påverkan av provdesigner på variansuppskattningar missförstods allmänt och det fanns inga tecken på förbättring av dessa problem över tiden." Men kanske värst av allt, dessa problem var lika vanliga i den peer-reviewade litteraturen i deras urval som de var i tekniska rapporter och konferenspresentationer. "Det var det som verkligen var mest chockerande för mig, " säger West. "Processen för peer-review upptäckte inte dessa fel."
Ett alarmerande exempel på vad som kan hända när du beräknar en uppskattning men ignorerar enkätens viktning finns i 2010 års National Survey of College Graduates (NSCG). "Detta är en stor nationell undersökning av högskoleutexaminerade, och de säger bokstavligen i sin dokumentation att de översamplar individer med vetenskaps- och ingenjörsexamen, " säger West. "Om du tar hänsyn till viktningen, vilket korrigerar för detta översampling, cirka 30 procent av människor får naturvetenskap och ingenjörsexamen; om du glömmer viktningen, du extrapolerar överprovet till hela befolkningen, och plötsligt har 55 procent av människorna naturvetenskap och ingenjörsexamen."
Ironiskt, bättre urval av understuderade populationer kan förvärra problemet. "Det finns ett stort intresse för underrepresenterade befolkningar, som latinamerikaner, " säger West. "Så, många nationella undersökningar översamplar dessa grupper och andra för att skapa ett tillräckligt stort urval för forskare att studera tillräckligt. Men när Average Joe Researcher tar tag i all data – inte bara data från underpopulationen de är intresserade av, men alla, vita, Afrikanska amerikaner, och latinamerikaner – och sedan försöker de analysera all denna data kollektivt, det är då översampling kan ha en fruktansvärd effekt på den övergripande bilden om den egenskapen i provdesignen inte redovisas korrekt i uppskattningen."
Det finns många lättanvända mjukvaruverktyg som enkelt kan redogöra för provtagnings- och viktningskomplexiteten i samband med undersökningsdata, men det faktum att de inte används talar till det underliggande problemet.
"Det här problemet har sitt ursprung i det faktum att de som publicerar dessa artiklar helt enkelt inte får veta något av detta i sin utbildning, " säger West. "Vi har vetat om vikten av enkätviktning i nästan ett sekel – men på något sätt har hur man hanterar viktade enkätdata inte penetrerat statistikklasserna som forskare tar på grund- eller forskarnivå. Vi spenderar en förmögenhet på att göra nationella undersökningar – och vem vet hur mycket det kostar oss att misstolka dessa uppgifter."
För att lösa det problemet, West hjälper till att designa en MOOC (massive open online course) vid University of Michigan och introducerar statistik med programvaran Python. Viktning och korrekta undersökningsanalyser kommer att läras ut i den allra första kursen av den specialiseringen. "Vi fokuserar verkligen på att se till att innan du går in i några analyser av undersökningsdata, du har en riktigt god förståelse för hur uppgifterna samlades in och var de kom ifrån."