Ändrade datamängder kan fortfarande ge statistisk integritet och bevara integriteten

Syntetiska nätverk kan öka tillgängligheten för vissa data samtidigt som de skyddar individuell eller institutionell integritet, enligt en statistiker från Penn State.

"Mitt huvudintresse är att utveckla metodik som skulle möjliggöra bredare delning av konfidentiell data på ett sätt som kan hjälpa till med vetenskaplig upptäckt, sa Aleksandra Slavkovic, professor i statistik och biträdande dekan för forskarutbildning, Eberly College of Science, Penn State. "Att kunna dela konfidentiell data med minimal kvantifierbar risk för upptäckt av känslig information och ändå säkerställa statistisk noggrannhet och integritet, är målet."

Slavkovic har hittat lösningar på detta dataintegritetsproblem genom tvärvetenskapliga samarbeten, speciellt med data- och samhällsvetare. Hennes forskning fokuserar på olika data, inklusive nätverksdata som fångar relationsinformation mellan enheter som individer eller institutioner. Hon rapporterade sina metoder för att tillhandahålla syntetiska nätverk som tillfredsställer en uppfattning om differentiell integritet idag (16 februari) under 2019 års årliga möte för American Association for the Advancement of Science i Washington, D.C.

Differentiell integritet ger en matematiskt bevisbar garanti för nivån av privatlivsförlust för individer.

Forskare vill ha tillgång till data som samlats in av andra för sin forskning, men sådan åtkomst kan också äventyra den personliga integriteten, även efter borttagning av så kallade personuppgifter.

"Ett överflöd av extra data är den främsta boven, ", sade Slavkovic. "Med metodologiska och tekniska framsteg inom datainsamling och koppling av register, enklare tillgång till olika datakällor som kan kopplas till en datauppsättning i handen, och finansiärer krav på att dela data, riskerna för dataintegriteten ökar. Men, Att hitta bra lösningar för att hantera förlust av integritet är avgörande för att möjliggöra sunda vetenskapliga upptäckter."

Allmänt tillgänglig information från en läkemedelsprövning på ett HIV-läkemedel, till exempel, skulle ange vem som var i behandlingsgruppen och vem som var i kontrollgruppen. Behandlingsgruppen skulle endast innehålla personer som diagnostiserats med hiv och även om dataägarna undanhöll personliga uppgifter från den datamängden, viss identifieringsinformation skulle finnas kvar. Eftersom så mycket information idag finns tillgänglig online i sociala medier och i andra datamängder, det är möjligt att koppla ihop prickarna och identifiera personer, potentiellt avslöjar deras hiv-status.

"Tekniker för att länka två datamängder, säg väljarregister och sjukförsäkringsdata, har förbättrats avsevärt, " sade Slavkovic. "I ett av de tidigaste fynden, Latanya Sweeny (nu vid Harvard) visade att genom att länka denna typ av data, du kan identifiera 87 procent av personerna i USA:s folkräkning från 1990 baserat på deras födelsedatum, kön och 5-siffrigt postnummer. På senare tid, Forskare använde tweets och tillhörande Twitter-metadata för att visa att de kan identifiera användare med 96,7 procents noggrannhet."

Slavkovic noterar att det inte bara är personer eller institutioner vars data finns i databaserna, men att personer utanför databasen också kan drabbas av intrång i privatlivet, direkt eller genom förening. Kopplingar mellan information i en datamängd och information på sociala medier kan leda till allvarliga integritetskränkningar – något som hiv-status eller sexuell läggning kan få allvarliga återverkningar om det avslöjas.

Även om integritet är viktigt, insamlade datauppsättningar utgör en viktig informationskälla för forskare. För närvarande, i vissa fall när uppgifterna är exceptionellt känsliga, forskare måste fysiskt gå till datalagren för att göra sin forskning, gör forskningen svårare och dyrare.

Slavkovic är intresserad av nätverksdata. Information som visar kopplingen mellan människor eller institutioner – noderna – och kopplingarna mellan noder. Hennes tillvägagångssätt är att skapa något förändrade, speglade nätverksdatauppsättningar med några av noderna flyttade, anslutningar förskjutna eller kanter ändrade.

"Syftet är att skapa nya nätverk som uppfyller de rigorösa differentiella integritetskraven och som samtidigt fångar de flesta statistiska funktioner från det ursprungliga nätverket, sa Slavkovic.

Dessa syntetiska datauppsättningar kan vara tillräckliga för att vissa forskare ska kunna tillfredsställa sina forskningsbehov. För andra, det skulle vara tillräckligt att testa deras tillvägagångssätt och hypoteser innan de måste gå till datalagringsplatsen. Forskare kan testa kod, göra utforskande forskning och kanske grundläggande analys i väntan på tillåtelse att använda originaldata på sin förvarsplats.

"Vi kan inte tillgodose kraven på all statistisk analys med samma typ av ändrade data, ", sa Slavkovic. "Vissa människor kommer att behöva originaldata, men andra kan komma långt med syntetiska data som syntetiska nätverk."

Potentiellt sekretessbortfall hittades i amerikanernas folkräkningsdata från 2010

OpenAIs GPT-2-algoritm är bra för att sticka falska nyheter

Elektronik