En snabbguide till p-värden. Kredit:Repapetilto/Wikimedia, CC BY-SA
Den vetenskapliga världen surrar efter rekommendationer från två av de mest prestigefyllda vetenskapliga tidskrifterna – Den amerikanska statistikern och Natur – att begreppet "statistisk signifikans" tas bort.
I deras introduktion till specialnumret av The American Statistician om ämnet, tidskriftens redaktörer uppmanar "att flytta till en värld bortom 's <0,05, '" den berömda 5-procentströskeln för att avgöra om en studies resultat är statistiskt signifikant. Om en studie klarar detta test, det betyder att sannolikheten för att ett resultat enbart beror på slumpen är mindre än 5 procent. Detta har ofta uppfattats som att studien är värd att uppmärksamma.
Tidskriftens grundläggande budskap – men inte nödvändigtvis konsensusen i de 43 artiklarna i detta nummer, en av dem jag bidrog med – var att forskare först och främst borde "omfamna osäkerhet" och "vara eftertänksamma, öppen och blygsam."
Även om dessa är fina egenskaper, Jag tror att vetenskapsmän inte får låta dem skymma den precision och rigoritet som vetenskapen kräver. Osäkerhet är inneboende i data. Om forskarna ytterligare försvagar den redan mycket svaga tröskeln på 0,05, då skulle det oundvikligen göra vetenskapliga rön svårare att tolka och mindre sannolikt att lita på.
Pålningssvårighet ovanpå svårighet
I traditionell vetenskap, en vetenskapsman genererar en hypotes och designar experiment för att samla in data till stöd för hypoteser. Han eller hon samlar sedan in data och utför statistiska analyser för att avgöra om uppgifterna faktiskt stödde hypotesen.
En standard statistisk analys är p-värdet. Detta genererar ett tal mellan 0 och 1 som indikerar stark, marginellt eller svagt stöd för en hypotes.
Men jag är orolig att om man överger evidensdrivna standarder för dessa bedömningar kommer det att göra det ännu svårare att designa experiment, mycket mindre bedöma deras resultat. Till exempel, hur skulle man ens kunna bestämma en lämplig provstorlek utan en målinriktad precisionsnivå? Och hur ska forskningsresultat tolkas?
Det här är viktiga frågor, inte bara för forskare vid finansierings- eller tillsynsmyndigheter, men för alla vars dagliga liv påverkas av statistiska bedömningar. Det inkluderar alla som tar medicin eller genomgår operation, kör eller åker i fordon, är investerad på aktiemarknaden, har livförsäkring eller är beroende av exakta väderprognoser... och listan fortsätter. Liknande, många tillsynsmyndigheter förlitar sig på statistik för att fatta beslut varje dag.
Forskare måste ha språket för att indikera att en studie, eller grupp av studier, tillhandahållit betydande bevis till förmån för ett förhållande eller en effekt. Statistisk signifikans är den term som tjänar detta syfte.
Grupperna bakom denna rörelse
Fientlighet mot termen "statistisk signifikans" uppstår från två grupper.
Den första består till stor del av forskare som är besvikna när deras studier ger p=0,06. Med andra ord, de vars studier helt enkelt inte klarar av. Dessa är till stor del forskare som tycker att 0,05-standarden är ett alltför högt hinder för att bli publicerad i de vetenskapliga tidskrifter som är en viktig källa till akademisk kunskap – såväl som anställning och befordran.
Den andra gruppen är oroad över misslyckandet med att replikera vetenskapliga studier, och de skyller delvis på signifikanstestning för detta misslyckande.
Till exempel, en grupp forskare upprepade nyligen 100 publicerade psykologiexperiment. Nittiosju av de 100 ursprungliga studierna rapporterade ett statistiskt signifikant fynd (s <0,05), men endast 36 av de upprepade experimenten kunde också uppnå ett signifikant resultat.
Misslyckandet av så många studier att replikera kan delvis skyllas på publikationsbias, vilket resulterar när endast signifikanta fynd publiceras. Publikationsbias får forskare att överskatta storleken på en effekt, såsom förhållandet mellan två variabler, vilket gör replikering mindre sannolikt.
Att komplicera situationen ytterligare är det faktum att nyare forskning visar att p-värdets cutoff inte ger mycket bevis för att ett verkligt samband har hittats. Faktiskt, i replikationsstudier inom samhällsvetenskap, det visar sig nu att p-värden nära standardtröskeln på 0,05 förmodligen betyder att ett vetenskapligt påstående är fel. Det är bara när p-värdet är mycket mindre, kanske mindre än 0,005, att vetenskapliga påståenden sannolikt visar ett verkligt samband.
Förvirringen som leder till denna rörelse
Många icke-statistiker förväxlar p-värde med sannolikheten att ingen upptäckt gjordes.
Låt oss titta på ett exempel från Nature-artikeln. Två studier undersökte den ökade risken för sjukdom efter att ha tagit ett läkemedel. Båda studierna uppskattade att patienter hade en 20 procent högre risk att få sjukdomen om de tar läkemedlet än om de inte gjorde det. Med andra ord, båda studierna uppskattade den relativa risken till 1,20.
Dock, den relativa risken som uppskattades från en studie var mer exakt än den andra, eftersom dess uppskattning baserades på resultat från många fler patienter. Således, uppskattningen från en studie var statistiskt signifikant, och uppskattningen från den andra var det inte.
Författarna citerar denna inkonsekvens – att en studie fick ett signifikant resultat och den andra inte – som bevis på att statistisk signifikans leder till feltolkning av vetenskapliga resultat.
Dock, Jag anser att en rimlig sammanfattning helt enkelt är att en studie samlade in statistiskt signifikanta bevis och en inte, men uppskattningarna från båda studierna antydde att den relativa risken var nära 1,2.
Vart ska man gå härifrån
Jag håller med om Nature-artikeln och The American Statisticians ledare att data som samlats in från alla väldesignade vetenskapliga studier bör göras allmänt tillgängliga, med omfattande sammanfattningar av statistiska analyser. Tillsammans med varje studies p-värden, det är viktigt att publicera uppskattningar av effektstorlekar och konfidensintervall för dessa uppskattningar, samt fullständiga beskrivningar av alla dataanalyser och databehandlingar.
Å andra sidan, endast studier som ger starka bevis till förmån för viktiga associationer eller nya effekter bör publiceras i främsta tidskrifter. För dessa tidskrifter, Bevisstandarder bör ökas genom att kräva mindre p-värden för den initiala rapporten om samband och nya upptäckter. Med andra ord, få forskare att publicera resultat som de är ännu mer säkra på.
Summan av kardemumman är att avveckling av accepterade standarder för statistiska bevis kommer att minska osäkerheten som forskare har när det gäller att publicera sin egen forskning. Men det kommer också att öka allmänhetens osäkerhet när det gäller att acceptera de resultat som de publicerar – och det kan vara problematiskt.
Den här artikeln är återpublicerad från The Conversation under en Creative Commons-licens. Läs originalartikeln.