Kredit:Caltech
Om det finns en central grundsats som förenar alla vetenskaper, det är förmodligen så att forskare bör närma sig upptäckter utan partiskhet och med en hälsosam dos av skepsis. Tanken är att det bästa sättet att nå sanningen är att låta fakta leda dit de vill, även om det inte är dit du tänkt gå.
Men det kan vara lättare sagt än gjort. Människor har omedvetna fördomar som är svåra att skaka, och de flesta gillar inte att ha fel. Under de senaste åren, forskare har upptäckt oroväckande bevis för att dessa fördomar kan påverka integriteten i forskningsprocessen inom många områden.
Bevisen tyder också på att även när forskare arbetar med de bästa avsikterna, allvarliga fel är vanligare än förväntat eftersom även subtila skillnader i hur en experimentell procedur utförs kan kasta av sig resultaten.
När fördomar och fel läcker in i forskning, andra forskare som försöker samma experiment kan upptäcka att de inte kan replikera resultaten från den ursprungliga forskaren. Detta har gett den bredare frågan dess namn:replikeringskrisen.
Colin Camerer, Caltechs Robert Kirby professor i beteendeekonomi och T&C Chen Center for Social and Decision Neuroscience Leadership Chair, verkställande tjänsteman för samhällsvetenskaperna och chef för T&C Chen Center for Social and Decision Neuroscience, har legat i framkant av forskningen om replikeringskrisen. Han har skrivit ett antal studier i ämnet och är en ivrig förespråkare för reformer. Vi pratade med Camerer om hur illa problemet är och vad som kan göras för att rätta till det; och rörelsen "öppen vetenskap", som uppmuntrar delning av data, information, och material bland forskare.
Vad är replikeringskrisen egentligen?
Det som ledde till allt detta är upptäckten att många fynd – ursprungligen inom medicin men senare inom psykologi, inom ekonomi, och förmodligen inom alla områden – replikera eller reproducera bara inte så bra som vi hoppas. Genom att reproducera, Jag menar att ta data som någon samlat in för en studie och göra samma analys bara för att se om du får samma resultat. Människor kan få stora skillnader, till exempel, om de använder nyare statistik än vad som var tillgängligt för de ursprungliga forskarna.
De tidigaste studierna av reproducerbarhet fann också att det ibland är svårt att ens få människor att dela sina data på ett snabbt och tydligt sätt. Det fanns en norm att datadelning är en slags bonus, men är inte absolut en nödvändig del av jobbet som vetenskapsman.
Hur stort problem är detta?
Jag skulle säga att det är tillräckligt stort för att vara mycket oroande. Jag ska ge ett exempel från socialpsykologin, vilket har varit ett av de mest problematiska områdena. Inom socialpsykologi, det finns en idé som heter priming, vilket betyder att om jag får dig att tänka på en sak undermedvetet, dessa tankar kan aktivera relaterade associationer och förändra ditt beteende på något överraskande sätt.
Många studier om priming gjordes av John Bargh, som är en välkänd psykolog på Yale. Bargh och hans kollegor fick unga människor att tänka på att vara gamla och lät dem sedan sitta vid ett bord och göra ett test. Men testet var bara ett fyllmedel, eftersom forskarna inte var intresserade av resultatet av testet. De var intresserade av hur tanken på att vara gammal påverkade de ungas beteende. När ungdomarna var klara med fillertestet, forskargruppen tajmade hur lång tid det tog dem att resa sig från bordet och gå till en hiss. De fann att de personer som var beredda att tänka på att vara gamla gick långsammare än kontrollgruppen som inte hade fått den primingen.
De försökte få ett dramatiskt resultat som visar att mentala associationer om gamla människor påverkar fysiskt beteende. Problemet var att när andra försökte replikera studien, de ursprungliga fynden replikerades inte särskilt bra. I en replikering, något ännu värre hände. Några av assistenterna i det experimentet fick höra att primingen skulle få de unga försökspersonerna att gå långsammare, och andra fick höra att primingen skulle få dem att gå snabbare – det här är vad vi kallar en reaktans- eller boomerangeffekt. Och vad assistenterna blev tillsagda att förvänta sig påverkade deras mätningar av hur snabbt försökspersonerna gick, trots att de tog tid med stoppur. Assistenternas stoppursmått var partiska jämfört med en automatiserad timer. Jag nämner det här exemplet eftersom det är den typen av studie vi tycker är för söt för att vara sann. När misslyckandet att replikera kom ut, det blev ett stort uppståndelse om hur mycket skicklighet en experimentator behöver för att göra en korrekt replikering.
Du utforskade nyligen den här frågan i ett par artiklar. Vad hittade du?
I vår första tidning, vi tittade på experimentell ekonomi, vilket är något som var banbrytande här på Caltech. Vi tog 18 artiklar från flera institutioner som publicerades i två av de ledande ekonomiska tidskrifterna. Det här är de papper som du hoppas skulle replikera det bästa. Vad vi fann var att 14 av 18 replikerade ganska bra, men fyra av dem gjorde det inte.
Det är viktigt att notera att i två av dessa fyra fall, vi gjorde små avvikelser i hur experimentet gjordes. Det är en påminnelse om att små förändringar kan göra stor skillnad i replikeringen. Till exempel, om du studerar politisk psykologi och partiskhet och du replikerar en uppsats från 2010, dagens resultat kan bli mycket annorlunda eftersom det politiska klimatet har förändrats. Det är inte så att författarna till originaltidningen gjorde ett misstag, det är att fenomenet i deras studie förändrades.
I vår andra tidning, vi tittade på samhällsvetenskapliga artiklar publicerade mellan 2010 och 2015 i Vetenskap och Natur , som är flaggskeppet för allmänna vetenskapliga tidskrifter. Vi var intresserade av dem eftersom dessa var mycket citerade tidningar och sågs som mycket inflytelserika.
Vi valde ut de som inte skulle vara alltför mödosamma att replikera, och vi slutade med 21 papper. Vad vi fann var att endast cirka 60 procent replikerade, och de som inte replikerade tenderade att fokusera på saker som priming, som jag nämnde tidigare. Priming har visat sig vara det minst replikerbara fenomenet. Det är synd eftersom det underliggande konceptet – att tänka på en sak lyfter associationer till relaterade saker – är utan tvekan sant.
Hur händer något sådant?
En orsak till att fynden inte replikerar är vad vi kallar "p-hacking". P-värde är ett mått på den statistiska sannolikheten att din hypotes är sann. Om p-värdet är lågt, en effekt är högst osannolikt en slump på grund av slumpen. Inom samhällsvetenskap och medicin, till exempel, du brukar testa om ändring av villkoren för experimentet ändrar beteende. Du vill verkligen få ett lågt p-värde eftersom det betyder att tillståndet du ändrade hade en effekt. P-hacking är när du fortsätter att prova olika analyser med din data tills du får p-värdet att vara lågt.
Ett bra exempel på p-hacking är att ta bort datapunkter som inte passar din hypotes – extremvärden – från din datamängd. Det finns statistiska metoder för att hantera extremvärden, men ibland förväntar sig människor att se en korrelation och hittar inte mycket av en, till exempel. Så då tänker de på en rimlig anledning att förkasta några avvikande punkter, för genom att göra det kan de få korrelationen att bli större. Den praxisen kan missbrukas, men samtidigt, det finns ibland extremvärden som bör kasseras. Till exempel, om motiv blinkar för mycket när du försöker mäta visuell perception, det är rimligt att redigera bort blinkningarna eller inte använda vissa motiv.
En annan förklaring är att forskare ibland helt enkelt hjälps åt av tur. När någon annan försöker replikera det ursprungliga experimentet men inte får samma lycka, de kommer inte att få samma resultat.
Inom vetenskaperna, du ska vara opartisk och säga "Här är min hypotes, och jag kommer att bevisa att det är rätt eller fel." Så, varför justerar folk resultaten för att få ett svar de vill ha?
Överst i pyramiden finns rent bedrägeri och, lyckligt, det är ganska sällsynt. Vanligtvis, om du gör en obduktion eller en bekännelse i fallet med bedrägeri, du hittar en vetenskapsman som känner en enorm press. Ibland är det personligt – "Jag ville bara bli respekterad" – och ibland är det bidragspengar eller att skämmas för mycket för att vara ren.
I de bedrägliga fallen, forskare kommer undan med en liten mängd bedrägeri, och de blir väldigt engagerade eftersom de verkligen satsar sina karriärer på det. Upptäckten de förfalskade kan vara det som får dem att bjuda in till konferenser och ge dem massor av finansiering. Då är det för pinsamt att stanna upp och erkänna vad de har gjort hela tiden.
Det finns också felaktiga vetenskapliga metoder som är mindre allvarliga än rent bedrägeri, höger?
Säker. Det är vetenskapsmannen som tänker, "Jag vet att jag har rätt, och även om dessa data inte bevisade det, Jag är säker på att jag skulle kunna köra många fler experiment och bevisa det. Så jag ska bara hjälpa processen genom att skapa den bästa versionen av data." Det är som kosmetisk kirurgi för data.
Och igen, det finns incitament som driver detta. Ofta i Big Science and Big Medicine, du stöttar många människor på ditt bidrag. Om något verkligen går fel med din stora teori eller din banbrytande metod, dessa människor blir uppsagda och deras karriärer skadas.
En annan kraft som bidrar till svag replikerbarhet är att, i vetenskap, vi förlitar oss i mycket stor utsträckning på hedersnormer och tanken att människor bryr sig om processen och vill komma fram till sanningen. Det finns ett enormt förtroende inblandat. Om jag får ett papper att recensera från en ledande tidskrift, Jag tänker inte nödvändigtvis som en polisdetektiv på om det är påhittat.
Många av bedrägerierna avslöjades bara för att det fanns ett mönster över många olika tidningar. Ett papper var för bra för att vara sant, och nästa var för bra för att vara sant, och så vidare. Ingen är tillräckligt bra för att få 10 för-bra-för-att-vara-sanning i rad.
Så, ofta, det är typ en slump. Någon halkar eller en person märker och ber sedan om uppgifterna och gräver lite längre.
Vilka bästa praxis bör forskare följa för att undvika att hamna i dessa fällor?
Det finns många saker vi kan göra – jag kallar det uppgraderingen av reproducerbarheten. En är föranmälan, vilket innebär innan du samlar in dina uppgifter, du offentligt förklarar och publicerar online exakt vilken data du kommer att samla in, varför du valde din provstorlek, och exakt vilken analys du ska köra. Om du sedan gör väldigt olika analyser och får ett bra resultat, folk kan ifrågasätta varför du avvek från det du förregistrerade och om de oplanerade analyserna var p-hackade.
Den mer allmänna rubriken kallas öppen vetenskap, där du agerar som att i princip allt du gör ska vara tillgängligt för andra människor förutom vissa saker som patientens integritet. Det inkluderar originaldata, koda, instruktioner, och experimentellt material som videoinspelningar – allt.
Metaanalys är en annan metod jag tror att vi kommer att se mer och mer av. Det är där man kombinerar resultaten från studier som alla försöker mäta samma generella effekt. Du kan använda den informationen för att hitta bevis på saker som publikationsbias, vilket är ett slags grupptänk. Till exempel, Det finns starka experimentella bevis för att ge människor mindre tallrikar gör att de äter mindre. Så kanske du studerar små och stora tallrikar, och du hittar ingen effekt på portionsstorleken. Du kanske tänker för dig själv, "Jag har förmodligen gjort ett misstag. Jag tänker inte försöka publicera det." Eller så kan man säga, "Wow! Det är verkligen intressant. Jag fick ingen liten tallrik-effekt. Jag ska skicka den till en journal." Och redaktörerna eller domarna säger, "Du har förmodligen gjort ett misstag. Vi kommer inte att publicera det." Det är publikationsfördomar. De kan orsakas av att forskare undanhåller resultat eller av att tidskrifter inte publicerar dem eftersom de får ett okonventionellt resultat.
Om en grupp forskare kommer att tro att något är sant och de motsatta bevisen ignoreras eller sopas under mattan, det betyder att många människor försöker komma till någon kollektiv slutsats om något som inte är sant. Den stora skadan är att det är ett kolossalt slöseri med tid, och det kan skada allmänhetens uppfattningar om hur solid vetenskap är i allmänhet.
Är människor mottagliga för de förändringar du föreslår?
Jag skulle säga att 90 procent av människorna har varit väldigt stöttande. En mycket god nyhet är att Open Science Framework har fått stöd av Laura och John Arnold Foundation, som är en stor privat stiftelse, och av andra givare. De privata stiftelserna har en unik position att lägga mycket pengar på sådant här. Vårt första anslag för att göra repliker inom experimentell ekonomi kom när jag träffade programansvarig från Alfred P. Sloan Foundation. Jag berättade för honom att vi piloterade ett stort projekt som replikerade ekonomiexperiment. Han blev upphetsad, och det var bildligt talat som om han tog en påse kontanter ur sin portfölj där. Mina medarbetare i Sverige och Österrike fick senare ett särskilt stort anslag på 1,5 miljoner dollar för att arbeta med replikering. Nu när det är lite fart, finansiärer har varit ganska generösa, vilket är fantastiskt.
En annan sak som har varit intressant är att även om tidskrifter inte är angelägna om att publicera en replikering av en uppsats, de gillar verkligen det vi har gjort, som är en grupp replikeringar. Några månader efter att ha arbetat på det första replikeringsdokumentet inom experimentell ekonomi finansierat av Sloan, Jag fick ett mejl från en redaktör på Vetenskap vem sa, "Jag hörde att du jobbar med den här replikeringsgrejen. Har du funderat på var du ska publicera den?" Det är en blinkning, otrevligt sätt att säga "snälla skicka det till oss" utan att något löfte gjorts. De publicerade den till slut.
Vilka utmaningar ser du framöver?
Jag tror att den största utmaningen är att avgöra var ansvaret ligger. Fram till omkring 2000, den konventionella visdomen var, "Ingen kommer att betala för din replikering och ingen kommer att publicera din replikering. Och om det inte blir rätt, du kommer bara att skapa en fiende. Bry dig inte om att replikera." Studenter blev ofta tillsagda att inte replikera eftersom det skulle vara dåligt för deras karriärer. Jag tror att det är falskt, men det är sant att ingen kommer att vinna ett stort pris för att replikera någon annans arbete. Den bästa karriärvägen inom vetenskap kommer från att visa att du kan göra något originellt, Viktig, och kreativa. Replikering är precis tvärtom. Det är viktigt för någon att göra det, men det är inte kreativt. Det är något som de flesta forskare vill att någon annan ska göra.
Vad som behövs är institutioner för att skapa stadiga, pågående replikationer, snarare än att förlita sig på forskare som försöker vara kreativa och göra genombrott för att göra det. Det kan vara några få centra som bara är dedikerade till att replikera. De kunde välja vart femte papper som publicerades i en viss tidskrift, replikera det, och publicera sina resultat online. Det skulle vara som revision, eller ett slags Consumer Reports för vetenskap. Jag tror att några sådana institutioner kommer att dyka upp. Eller kanske beviljande organ, som National Institutes of Health eller National Science Foundation, bör ansvara för att bygga in skyddsåtgärder. De kan ha en revisionsprocess som avsätter bidragspengar för att göra en replikering och kontrollera ditt arbete.
För mig är detta som en hobby. Nu hoppas jag att någon annan grupp försiktiga människor som är väldigt passionerade och smarta kommer att ta tag i stafettpinnen och börja göra replikeringar väldigt rutinmässigt.