För att visa att DEFT kan tillämpas på en mängd små datamängder, CSHL -forskare använde den för att analysera data från CMS Higgs Boson -detektorn. Av 60 partikelavtryck, DEFT uppskattade att upp till sex var från verkliga händelser. (Bilden:Ett 3D -perspektiv av en Higgs Boson -händelse inspelad 2012. Intryck kännetecknas av gröna torn och röda linjer.) Kredit:McCauley, T; Taylor, L; CERN
Big Data är allt raseri idag, men Small Data spelar också roll! Dra tillförlitliga slutsatser från små datamängder, som från kliniska prövningar för sällsynta sjukdomar eller i studier av hotade arter, är fortfarande ett av de svåraste hindren i statistiken. Nu, Cold Spring Harbor Laboratory (CSHL) forskare har utvecklat ett nytt sätt att analysera små data, en inspirerad av avancerade metoder i teoretisk fysik, men tillgänglig som lättanvänd programvara.
"Att hantera små datamängder är en grundläggande del av att göra vetenskap, "CSHL -biträdande professor Justin Kinney förklarade. Utmaningen är att, med mycket lite data, det är inte bara svårt att komma fram till; Det är också svårt att avgöra hur säkra dina slutsatser är.
"Det är viktigt att inte bara ge den bästa gissningen för vad som händer, men också att säga, 'Denna gissning är förmodligen korrekt, sa Kinney.
Ett bra exempel är kliniska läkemedelsförsök.
"När varje datapunkt är en patient, du kommer alltid att hantera små datamängder, och av mycket goda skäl, "sa han." Du vill inte testa en behandling på fler människor än du måste innan du bestämmer om läkemedlet är säkert och effektivt. Det är verkligen viktigt att kunna fatta dessa beslut med så lite data som möjligt. "
Att kvantifiera denna säkerhet har varit svårt på grund av de antaganden som vanliga statistiska metoder gör. Dessa antaganden var nödvändiga redan när standardmetoder utvecklades, före datoråldern. Men dessa approximationer, Kinney noterar, "kan vara katastrofalt" på små datamängder.
Överst:Antal Higgs Boson -partikelhändelser som förväntas baserat på standardmodelsimuleringar.
Nederst:DEFT användes för att smidigt förutsäga (svart) hur många 4-leptonförfallshändelser var indikatorer på en sann Higgs Boson-händelse inom en osäkerhetsmarginal (grön). Upphovsman:Kinney Lab/CSHL
Nu, Kinneys lab har utformat en modern beräkningsmetod som kallas Density Estimation med hjälp av Field Theory, eller DEFT, som åtgärdar dessa brister. DEFT är fritt tillgängligt via ett paket med öppen källkod som heter SUFTware.
I deras senaste tidning, publicerad i Fysiska granskningsbrev , Kinneys laboratorium visar DEFT på två datamängder:nationell hälsostatistik sammanställd av Världshälsoorganisationen, och spår av subatomära partiklar som används av fysiker vid Large Hadron Collider för att avslöja förekomsten av Higgs bosonpartikel.
Kinney säger att att kunna tillämpa DEFT på så drastiskt olika "verkliga" situationer-trots att beräkningarna är inspirerade av teoretisk fysik-är det som gör det nya tillvägagångssättet så kraftfullt.
"Flexibilitet är en riktigt bra sak ... Vi anpassar nu DEFT till problem i överlevnadsanalyser, vilken typ av statistik som används i kliniska prövningar, "Sade Kinney." De nya möjligheterna kommer att läggas till SUFTware när vi fortsätter att utveckla denna nya metod för statistik. "