• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Hur big data har skapat en stor kris inom vetenskapen

    Forskare står inför en reproducerbarhetskris. Kredit:Y Photo Studio/shutterstock.com

    Det finns en ökande oro bland forskare att, inom många vetenskapsområden, kända publicerade resultat tenderar att vara omöjliga att återge.

    Denna kris kan vara allvarlig. Till exempel, under 2011, Bayer HealthCare granskade 67 interna projekt och fann att de kunde replikera mindre än 25 procent. Vidare, över två tredjedelar av projekten hade stora inkonsekvenser. På senare tid, i november, en undersökning av 28 stora psykologipapper fann att bara hälften kunde replikeras.

    Liknande fynd rapporteras på andra områden, inklusive medicin och ekonomi. Dessa slående resultat försätter alla forskares trovärdighet i djupa problem.

    Vad är det som orsakar detta stora problem? Det finns många bidragande faktorer. Som statistiker, Jag ser stora problem med hur vetenskapen görs i en tid med big data. Reproducerbarhetskrisen drivs delvis av ogiltiga statistiska analyser som kommer från datadrivna hypoteser-motsatsen till hur saker traditionellt görs.

    Vetenskaplig metod

    I ett klassiskt experiment, statistikern och vetenskapsmannen skapar först tillsammans en hypotes. Sedan genomför forskare experiment för att samla in data, som sedan analyseras av statistiker.

    Ett känt exempel på denna process är historien om "lady tasting tea". På 1920 -talet, på en fest av akademiker, en kvinna påstod sig kunna se skillnaden i smak om teet eller mjölken tillsattes först i en kopp. Statistikern Ronald Fisher tvivlade på att hon hade någon sådan talang. Han antog att av åtta koppar te, beredd så att fyra koppar tillsattes mjölk först och de andra fyra kopparna tillsattes te först, antalet korrekta gissningar skulle följa en sannolikhetsmodell som kallas hypergeometrisk fördelning.

    Ett sådant experiment gjordes med åtta koppar te skickade till damen i slumpmässig ordning - och enligt legenden, hon kategoriserade alla åtta rätt. Detta var starka bevis mot Fishers hypotes. Chansen att damen hade uppnått alla korrekta svar genom slumpmässiga gissningar var extremt låga 1,4 procent.

    Den processen - hypotesera, samla sedan in data, analysera sedan - är sällsynt i big data -eran. Dagens teknik kan samla in enorma mängder data, i storleksordningen 2,5 exabyte om dagen.

    Även om detta är bra, vetenskapen utvecklas ofta i mycket långsammare hastighet, och därför vet forskare kanske inte hur man dikterar rätt hypotes vid analys av data. Till exempel, forskare kan nu samla tiotusentals genuttryck från människor, men det är mycket svårt att avgöra om man ska inkludera eller utesluta en viss gen i hypotesen. I detta fall, det är tilltalande att forma hypotesen utifrån data. Även om sådana hypoteser kan verka övertygande, konventionella slutsatser från dessa hypoteser är i allmänhet ogiltiga. Det här är för att, i kontrast till processen "damsmakande te", ordningen för att bygga hypotesen och se data har vänt.

    Dataproblem

    Varför kan denna återgång orsaka ett stort problem? Låt oss överväga en big data -version av tedamen - ett exempel på "100 damer som smakar te".

    Antag att det finns 100 damer som inte kan se skillnaden mellan teet, men ta en gissning efter att ha smakat alla åtta kopparna. Det finns faktiskt en 75,6 procents chans att minst en dam lyckligtvis skulle gissa alla beställningar korrekt.

    Nu, om en forskare såg någon dam med ett överraskande resultat av alla korrekta koppar och körde en statistisk analys för henne med samma hypergeometriska fördelning ovan, då kan han dra slutsatsen att den här damen hade förmågan att se skillnad mellan varje kopp. Men detta resultat är inte reproducerbart. Om samma dam gjorde experimentet igen skulle hon med stor sannolikhet sortera kopparna fel – inte ha lika tur som första gången – eftersom hon inte riktigt kunde se skillnad på dem.

    Detta lilla exempel illustrerar hur forskare "lyckligtvis" kan se intressanta men falska signaler från en datauppsättning. De kan formulera hypoteser efter dessa signaler, använd sedan samma dataset för att dra slutsatserna, hävdar att dessa signaler är verkliga. Det kan ta ett tag innan de upptäcker att deras slutsatser inte är reproducerbara. Detta problem är särskilt vanligt vid analys av stora data på grund av den stora storleken på data, bara av en slump kan några falska signaler "lyckligtvis" uppstå.

    Vad värre, denna process kan tillåta forskare att manipulera data för att ge det mest publicerbara resultatet. Statistiker skämtar om en sådan praxis:"Om vi ​​torterar data tillräckligt hårt, de kommer att berätta något. "Men är detta "något" giltigt och reproducerbart? Antagligen inte.

    Starkare analyser

    Hur kan forskare undvika ovanstående problem och uppnå reproducerbara resultat i stordataanalys? Svaret är enkelt:Var mer försiktig.

    Om forskare vill ha reproducerbara resultat från datadrivna hypoteser, då måste de noggrant ta hänsyn till den datadrivna processen i analysen. Statistiker måste utforma nya procedurer som ger giltiga slutsatser. Det finns några redan på gång.

    Statistik handlar om det optimala sättet att extrahera information från data. Av denna natur, det är ett fält som utvecklas med utvecklingen av data. Problemen med stordatatiden är bara ett exempel på en sådan utveckling. Jag tycker att forskare borde anamma dessa förändringar, eftersom de kommer att leda till möjligheter att utveckla nya statistiska tekniker, vilket i sin tur kommer att ge giltiga och intressanta vetenskapliga upptäckter.

    Denna artikel publiceras från The Conversation under en Creative Commons -licens. Läs originalartikeln.




    © Vetenskap https://sv.scienceaq.com