I denna 1 juli, 1960 filfoto, en kemist arbetar i laboratoriet i Cambridge, Mässa I decennier, forskare har använt "statistisk signifikans" för att uppskatta om deras resultat är tillförlitliga eller bara slumpmässiga. Det har länge kritiserats, men 2019 har inneburit två högprofilerade samtal för att bli av med det helt. (AP Photo/Peter J. Carroll)
Tidigare i höst presenterade Dr. Scott Solomon resultaten av en enorm hjärtläkemedelsstudie för en publik av andra kardiologer i Paris.
Resultaten som Solomon beskrev såg lovande ut:Patienter som tog medicinen hade en lägre frekvens av sjukhusvistelse och dödsfall än patienter på ett annat läkemedel.
Sedan visade han sin publik ett annat nummer.
"Det var några flämtningar, eller 'åååh, '" Salomo, vid Harvard's Brigham and Women's Hospital, påminde nyligen. "Många människor var besvikna."
En investeringsanalytiker reagerade genom att sänka sin prognos för toppförsäljning av läkemedlet – med 1 miljard dollar.
Vad hände?
Siffran som orsakade flämtarna var 0,059. Publiken letade efter något under 0,05.
Vad det betydde var att Salomos lovande resultat hade stött på ett statistiskt koncept som du kanske aldrig har hört talas om:statistisk signifikans. Det är en allt-eller-inget-grej. Dina statistiska resultat är antingen signifikanta, vilket betyder att de är pålitliga, eller inte betydande, vilket tyder på en oacceptabelt stor chans att de bara var en lyckträff.
Konceptet har använts i decennier. Det har mycket makt över hur vetenskapliga resultat bedöms, vilka studier publiceras, och vilka läkemedel som gör det till apotek.
Men i år har två högprofilerade samtal från kritiker, inklusive från insidan av statistikens mystiska värld, att bli av med det – delvis av oro för att det i förtid avfärdar resultat som Salomos.
Signifikans återspeglas i en beräkning som ger något som kallas ett p-värde. Vanligtvis, om detta ger ett p-värde på mindre än 0,05, studiens resultat anses vara betydande. Om inte, studien har underkänt testet.
Salomos studie missade precis. Så den uppenbara fördelen som hans drog visade över den andra medicinen ansågs vara obetydlig. Enligt detta kriterium fanns det ingen "verklig" skillnad.
Solomon tror att läkemedlet faktiskt gav en verklig fördel och att en större eller mer långvarig studie kunde ha nått statistisk signifikans.
"Jag gråter inte över spilld mjölk, " sa han. "Vi sätter reglerna. Frågan är, är det rätt sätt att gå till väga?"
Han är inte ensam om att ställa den frågan.
"Det är säkert att människor har lidit eller dött eftersom forskare (och redaktörer, regulatorer, journalister och andra) har använt signifikanstest för att tolka resultat, " epidemiolog Kenneth Rothman från RTI Health Solutions i Research Triangle Park, N.C., och Boston University skrev 2016.
Faran är både att ett potentiellt fördelaktigt medicinskt fynd kan ignoreras eftersom en studie inte når statistisk signifikans, och en skadlig eller fruktlös medicinsk praxis skulle kunna accepteras bara för att den gör det, sa han i ett mejl.
P-värdets cutoff för signifikans är "ett mått som har fått status som grindvakt ... inte bara för publicering utan för att människor ska ta dina resultat på allvar, " säger Northwestern Universitys statistiker Blake McShane.
Det är inte konstigt att en statistiker, vid ett samtal nyligen med journalister om frågan strax före Halloween, visade en bild av en jack-o'-lantern snidad med denna syn, uppenbarligen skrämmande för alla inom vetenskap eller medicin:"P =0,06."
McShane och andra hävdar att vikten av tröskelvärdet för p-värdet är oförtjänt. Han var medförfattare till en uppmaning att avskaffa begreppet statistisk signifikans, som publicerades i den prestigefyllda tidskriften Nature i år. Förslaget lockade mer än 800 medundertecknare.
Till och med American Statistical Association, som aldrig hade avgett något formellt uttalande om specifika statistiska metoder, föll hårt 2016 på att använda någon form av p-värde cutoff på detta sätt. Och i år gick det längre, deklarerar i ett specialnummer med 43 artiklar i ämnet, "Det är dags att helt sluta använda termen "statistiskt signifikant".
Vad är problemet? McShane och andra listar flera:
— P-värde mäter inte direkt sannolikheten för att resultatet av ett experiment bara är en slump. Vad den verkligen representerar är allmänt missförstådd, även av forskare och vissa statistiker, sa Nicole Lazar, en statistikprofessor vid University of Georgia.
— Att använda en etikett med statistisk signifikans "ger mer säkerhet som faktiskt är berättigad, " sa Lazar. "Vi bör inse att det finns osäkerhet i våra fynd."
— Den traditionella gränsen på 0,05 är godtycklig.
— Statistisk signifikans betyder inte nödvändigtvis "signifikant" - eller att ett fynd är viktigt praktiskt eller vetenskapligt, säger Lazar. Det kanske inte ens är sant:Solomon citerar en stor hjärtläkemedelsstudie som fann en signifikant behandlingseffekt för patienter födda i augusti men inte juli, uppenbarligen bara en slumpmässig fluktuation.
— Termen "statistisk signifikans" sätter upp en mållinje för forskare, ett tydligt mått på framgång eller misslyckande. Det betyder att forskare kan anstränga sig lite för mycket för att nå det. De kan medvetet spela systemet för att få ett acceptabelt p-värde, eller bara omedvetet välja analytiska metoder som hjälper, sa McShane och Lazar.
— Det kan förvränga effekterna inte bara av enskilda experiment, men också de kumulativa resultaten av studier om ett givet ämne, så att ett läkemedel totalt sett kan se "mycket bättre ut än vad det faktiskt är, " sa McShane.
Vad ska man göra istället? Avskaffa den ljusa linjen för statistisk signifikans, och rapportera bara p-värdet tillsammans med andra analyser för att ge en mer omfattande översikt över vad testresultatet kan betyda, McShane och andra säger.
Det kanske inte är lika tydligt som en enkel förklaring av betydelse eller obetydlighet, men "vi får en bättre uppfattning om vad som händer, " sa Lazar. "Jag tror att det blir lättare att sålla bort det dåliga arbetet."
Alla köper inte tanken på att göra sig av med statistisk signifikans. Den framstående Stanford-forskaren Dr. John Ioannidis säger att avskaffandet "kan främja partiskhet. Obestridligt nonsens skulle härska." Även om han håller med om att en p-värdesstandard på mindre än 0,05 är svag och lätt att missbruka, han anser att forskare borde använda ett strängare p-värde eller annat statistiskt mått istället, specificeras innan experimentet utförs.
McShane sa att även om krav på att avskaffa statistisk signifikans har väckts i flera år, det verkar ha blivit mer fart på sistone.
"Kanske, " han sa, "det är dags att sätta spiken i kistan på den här för gott."
© 2019 The Associated Press. Alla rättigheter förbehållna.