Testa reproducerbarheten av samhällsvetenskaplig forskning

Kredit:Charles Rondeau/public domain

I dag, i Naturen Mänskligt beteende , ett samarbetsteam på fem laboratorier publicerade resultaten av 21 kraftfulla replikeringar av samhällsvetenskapliga experiment som ursprungligen publicerades i Vetenskap och Natur , två av de mest prestigefyllda tidskrifterna inom vetenskap. De misslyckades med att replikera resultaten från mer än en tredjedel av studierna och visade betydligt svagare bevis för resten jämfört med de ursprungliga studierna.

Dessutom, innan du utför replikationerna, teamet skapade förutsägelsemarknader för andra forskare att satsa pengar på om de trodde att vart och ett av fynden skulle replikera. Marknaderna var mycket exakta i att förutsäga vilka studier som senare skulle lyckas eller misslyckas med att replikera.

"Det är möjligt att fel i replikeringen eller skillnader mellan original- och replikeringsstudierna är ansvariga för vissa misslyckanden med att replikera, " säger Gideon Nave, en biträdande professor i marknadsföring vid University of Pennsylvanias Wharton School of Business och en av projektets ledare, "men det faktum att marknaderna förutspådde replikeringsframgång och misslyckande exakt i förväg minskar sannolikheten för dessa förklaringar."

Teamet inkluderade forskare från Penn, universitetet i Innsbruck, Handelshögskolan i Stockholm, New Zealand Institute for Advanced Study, Centrum för öppen vetenskap, National University of Singapore, University of Virginia, California Institute of Technology, Göteborgs universitet, Harvard Universitet, Spotify Sverige, LMU München, universitetet i Amsterdam, och Harbin Institute of Technology.

Forskarna försökte replikera ett huvudfynd från varje experimentellt samhällsvetenskapligt dokument som publicerades mellan 2010 och 2015 som uppfyllde teamets krav på att involvera randomiserade kontrollerade experiment utförda antingen med studenter eller online. För att utöka och förbättra tidigare replikeringsinsatser, teamet fick det ursprungliga materialet och fick granskning och godkännande av protokollen från nästan alla de ursprungliga författarna innan studierna genomfördes. Studierna förregistrerades för att offentligt deklarera design- och analysplanen, och studiedesignen inkluderade stora provstorlekar så att replikationerna sannolikt skulle upptäcka stöd för fynden även om de var så lite som hälften så stora som det ursprungliga resultatet.

"För att säkerställa hög statistisk kraft, " säger Felix Holzmeister vid universitetet i Innsbruck, en annan av projektets ledare, "den genomsnittliga provstorleken för replikationsstudierna var ungefär fem gånger större än den genomsnittliga provstorleken för de ursprungliga studierna."

Teamet fann att 13 av de 21 replikationerna, eller 62 procent, visade signifikanta bevis i överensstämmelse med den ursprungliga hypotesen, och andra metoder för att utvärdera replikeringsframgången visade liknande resultat, mellan 57 och 67 procent. Också, i genomsnitt, replikationsstudierna visade effektstorlekar som var cirka 50 procent mindre än de ursprungliga studierna. Tillsammans tyder detta på att reproducerbarheten är ofullkomlig även bland studier publicerade i de mest prestigefyllda tidskrifterna inom vetenskap.

"Dessa resultat visar att "statistiskt signifikanta" vetenskapliga fynd, säger Magnus Johannesson på Handelshögskolan i Stockholm. en annan projektledare, "måste tolkas mycket försiktigt tills de har replikerats även om de publicerats i de mest prestigefyllda tidskrifterna."

Förutsägelsemarknaderna som forskargruppen etablerade förutspådde korrekt resultaten för 18 av de 21 replikationerna. Marknadens uppfattning om replikering var starkt korrelerad med replikeringseffektstorlekar.

"Fynden från förutsägelsemarknaderna tyder på att forskare har förhandskännedom om sannolikheten att vissa fynd kommer att replikera, " konstaterar Thomas Pfeiffer från New Zealand Institute for Advanced Study, en annan av projektledarna. Den uppenbara robustheten hos detta fenomen tyder på att förutsägelsemarknader kan användas för att hjälpa till att prioritera replikeringsinsatser för de studier som har mycket viktiga resultat men relativt osäkra eller svaga sannolikheter för framgång för replikering.

"Att använda förutsägelsemarknader kan vara ett annat sätt för forskarvärlden att använda resurser mer effektivt och påskynda upptäckten, ", tillägger Anna Dreber från Handelshögskolan i Stockholm, annan projektledare.

Denna studie ger ytterligare bevis på utmaningarna med att reproducera publicerade resultat, och tar upp några av de potentiella kritikerna av tidigare replikeringsförsök. Till exempel, det är möjligt att resultat med högre profil skulle vara mer reproducerbara på grund av höga standarder och publikationsställets prestige. Denna studie valde ut artiklar från de mest prestigefyllda tidskrifterna inom vetenskap.

Likaså, en kritik av Reproducibility Project in Psychology antydde att mer kraftfulla forskningsdesigner och trohet mot de ursprungliga studierna skulle resultera i hög reproducerbarhet. Denna studie hade mycket kraftfulla tester, originalmaterial för alla studier utom en, och godkännandet av protokoll för alla studier utom två, och ändå misslyckades med att replikera vissa fynd och fann en väsentligt mindre effektstorlek i replikationerna.

"Detta visar att det inte är tillräckligt att öka kraften för att reproducera alla publicerade resultat, " says Lily Hummer of the Center for Open Science, en av medförfattarna.

That there were replication failures does not mean that those original findings are false. Ändå, some original authors provided commentaries with potential reasons for failures to replicate. These productive ideas are worth testing in future research to determine whether the original findings can be reproduced under some conditions.

The replications undertaken in this work follow emerging best practices for improving the rigor and reproducibility of research. "I detta projekt, we led by example, involving a global team of researchers, , " says Teck-Hua Ho of the National University of Singapore, another project lead. "The team followed the highest standards of rigor and transparency to test the reproducibility and robustness of studies in our field."

All of the studies were preregistered on OSF to eliminate reporting bias and to commit to the design and analysis plan. Också, all project data and materials are publicly accessible with the OSF registrations to facilitate the review and reproduction of the replication studies themselves.

Brian Nosek, executive director of the Center for Open Science, professor at the University of Virginia, and one of the co-authors, notes, "Someone observing these failures to replicate might conclude that science is going in the wrong direction. In fact, science's greatest strength is its constant self-scrutiny to identify and correct problems and increase the pace of discovery."

This large-scale replication project is just one part of an ongoing reformation of research practices. Forskare, funders, journals, and societies are changing policies and practices to nudge the research culture toward greater openness, rigor, and reproducibility. Nosek concludes, "With these reforms, we should be able to increase the speed of finding cures, lösningar, and new knowledge. Självklart, like everything else in science, we have to test whether the reforms actually deliver on that promise. Om de inte gör det, then science will try something else to keep improving."

Kall, torra klimatförändringar kopplade till neandertalarnas försvinnande

Australiska arkeologer släppte termen stenålder för decennier sedan, och det borde du också

Andra