Datahashning förbättrar uppskattningen av antalet offer i databaser

Förstörda stridsvagnar framför en moské i Azaz, Syrien, 2012. Kredit:Christiaan Triebert via Wikimedia Commons

Forskare från Rice University och Duke University använder verktygen för statistik och datavetenskap i samarbete med Human Rights Data Analysis Group (HRDAG) för att exakt och effektivt uppskatta antalet identifierade offer som dödats i det syriska inbördeskriget.

I ett papper som är tillgängligt online och kommer att publiceras i juninumret av den Annals of Applied Statistics , forskarna rapporterar om ett fyraårigt försök att kombinera en dataindexeringsmetod som kallas "hashing med statistisk uppskattning." Den nya metoden ger uppskattningar i realtid av dokumenterade, identifierade offer med en mycket lägre felmarginal än befintliga statistiska metoder för att hitta dubbletter i databaser.

"Att kasta ut dubbletter av poster är lätt om all data är rena - namnen är fullständiga, stavningar är korrekta, datum är exakta, etc., " sa studiens medförfattare Beidi Chen, en Rice doktorand i datavetenskap. "Krigsofferdatan är inte så. Människor använder smeknamn. Datum ingår ibland i en databas men saknas i en annan. Det är ett klassiskt exempel på vad vi refererar till som en "bullrig" datauppsättning. Utmaningen är att hitta ett sätt att uppskatta antalet unika poster exakt trots detta brus."

Med hjälp av register från fyra databaser över människor dödade i Syrienkriget, Chen, Hertigstatistikern och maskininlärningsexperten Rebecca Steorts och Rice datavetare Anshumali Shrivastava uppskattade att det fanns 191, 874 unika individer dokumenterade från mars 2011 till april 2014. Det är mycket nära uppskattningen på 191, 369 sammanställd 2014 av HRDAG, en ideell organisation som hjälper till att bygga vetenskapligt försvarbara, evidensbaserade argument om kränkningar av mänskliga rättigheter.

Men medan HRDAG:s uppskattning förlitade sig på mänskliga arbetares mödosamma ansträngningar att noggrant sålla bort potentiella dubbletter av register, hashning med statistisk uppskattning visade sig vara snabbare, lättare och billigare. Forskarna sa att hashing också hade den viktiga fördelen med ett skarpt konfidensintervall:Felintervallet är plus eller minus 1, 772, eller mindre än 1 procent av det totala antalet offer.

"Den stora vinsten med denna metod är att vi snabbt kan beräkna det sannolika antalet unika element i en datauppsättning med många dubbletter, sa Patrick Ball, HRDAG:s forskningschef. "Vi kan göra mycket med den här uppskattningen."

Shrivastava sa att skärpan i hashing-uppskattningen beror på den teknik som används för att indexera olyckor. Hashing innebär att konvertera en fullständig datapost – ett namn, datum, dödsplats och kön i fallet med varje syrisk krigsoffer – i ett nummer som kallas en hash. Hashes produceras av en algoritm som tar hänsyn till den alfanumeriska informationen i en post, och de lagras i en hashtabell som fungerar ungefär som indexet i en bok. Ju mer textmässig likhet det finns mellan två poster, desto närmare varandra är deras hash i tabellen.

"Vår metod – unik entitetsuppskattning – kan visa sig vara användbar utöver bara den syriska konflikten, sade Steorts, biträdande professor i statistisk vetenskap vid Duke.

Hon sa att algoritmen och metoden kan användas för medicinska journaler, officiell statistik och industriansökningar.

"När vi samlar in mer och mer data, dubbelarbete blir ett mer aktuellt och socialt viktigt problem, " Sa Steorts. "Entitetsupplösningsproblem måste skalas till miljoner och miljarder poster. Självklart, det mest exakta sättet att hitta dubbletter av poster är att låta en expert kontrollera varje post. Men detta är omöjligt för stora datamängder, eftersom antalet par som behöver jämföras växer dramatiskt när antalet rekord ökar."

Till exempel, en rekord-för-post-analys av alla fyra syriska krigsdatabaserna skulle innebära cirka 63 miljarder parade jämförelser, Hon sa.

Shrivastava, biträdande professor i datavetenskap vid Rice, sa, "Om du gör antaganden, som att datum som är nära kan vara dubbletter, du kan minska antalet jämförelser som behövs, men varje antagande kommer med en fördom, och i slutändan vill du ha en opartisk uppskattning. Ett statistiskt tillvägagångssätt som undviker partiskhet är slumpmässigt urval. Så kanske välj 1 miljon slumpmässiga par av de 63 miljarderna, se hur många som är dubbletter och tillämpa sedan den hastigheten på hela datamängden. Detta ger en opartisk uppskattning, vilket är bra, men sannolikheten för att hitta dubbletter rent slumpmässigt är ganska låg, och det ger en hög varians.

"I detta fall, till exempel, slumpmässigt urval kan också uppskatta de dokumenterade antalet till cirka 191, 000, " sade han. "Men det kunde inte säga oss med säkerhet om räkningen var 176, 000 eller 216, 000 eller något nummer däremellan.

"I det senaste arbetet, mitt labb har visat att hashalgoritmer som ursprungligen designades för att göra sökningar också kan användas som adaptiva provtagare som exakt mildrar den höga variansen som är förknippad med slumpmässig sampling, " sa Shrivastava.

"Att lösa varje dubblett verkar väldigt tilltalande, " han sa, "men det är det svårare sättet att uppskatta antalet unika enheter. Den nya teorin om adaptiv sampling med hashing tillåter oss att direkt uppskatta antalet unika enheter effektivt, med stort självförtroende, utan att lösa dubbletterna."

"Vid slutet av dagen, det har varit fenomenalt att göra metodologiska och algoritmiska framsteg motiverade av ett så viktigt problem, " sade Steorts. "HRDAG har banat väg. Vårt mål och förhoppning är att våra ansträngningar kommer att visa sig användbara för deras arbete."

Shrivastava och Steorts sa att de planerar framtida forskning för att tillämpa hashtekniken för unik enhetsapproximation på andra typer av datamängder.

Forskning belyser felaktigheter i radiokoldatering

De vilseledande bevisen som lurade forskare i årtionden

Andra