• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Anonymisering av personuppgifter är inte tillräckligt för att skydda integriteten, visar ny studie

    Upphovsman:CC0 Public Domain

    Med de första stora böterna för brott mot EU:s allmänna dataskyddsförordning (GDPR), och den brittiska regeringen på väg att se över GDPR -riktlinjerna, forskare har visat hur även anonymiserade datamängder kan spåras tillbaka till individer som använder maskininlärning.

    Forskarna säger att deras papper, publicerad idag i Naturkommunikation , visar att tillåtelse att använda data - för att träna AI -algoritmer, till exempel - samtidigt som människors integritet bevaras, kräver mycket mer än att bara lägga till brus, urval av datamängder, och andra avidentifieringstekniker.

    De har också publicerat ett demonstrationsverktyg som gör att människor kan förstå hur sannolikt de kommer att spåras, även om datauppsättningen de är i är anonymiserad och bara en liten del av den delas.

    De säger att deras fynd borde vara en väckarklocka för beslutsfattare om behovet av att skärpa reglerna för vad som verkligen utgör anonym information.

    Företag och regeringar samlar och använder rutinmässigt våra personuppgifter. Våra uppgifter och hur de används är skyddade enligt relevanta lagar som GDPR eller USA:s California Consumer Privacy Act (CCPA).

    Data "samplas" och anonymiseras, vilket inkluderar att strippa uppgifterna för att identifiera egenskaper som namn och e -postadresser, så att individer inte kan i teorin, identifieras. Efter denna process, uppgifterna inte längre omfattas av dataskyddsföreskrifter, så det kan användas fritt och säljas till tredje part som reklamföretag och datamäklare.

    Den nya forskningen visar att en gång köpt, data kan ofta omvandlas med maskininlärning för att identifiera individer igen, trots anonymiseringsteknikerna.

    Detta kan avslöja känslig information om personligt identifierade individer, och låta köpare bygga upp allt mer omfattande personliga profiler av individer.

    Forskningen visar för första gången hur enkelt och exakt detta kan göras - även med ofullständiga datamängder.

    I forskningen, 99,98 procent av amerikanerna identifierades korrekt i alla tillgängliga 'anonymiserade' datauppsättningar med endast 15 egenskaper, inklusive ålder, kön, och civilstånd.

    Förste författaren Dr. Luc Rocher från UCLouvain sa:"Även om det kan vara många människor som är i trettioårsåldern, manlig, och bor i New York City, långt färre av dem föddes också den 5 januari, kör en röd sportbil, och bor med två barn (båda tjejer) och en hund. "

    För att demonstrera detta, forskarna utvecklade en maskininlärningsmodell för att utvärdera sannolikheten för att en individs egenskaper ska vara exakta nog att beskriva endast en person i en befolkning på miljarder.

    De utvecklade också ett onlineverktyg, som inte sparar data och endast är för demonstrationsändamål, för att hjälpa människor att se vilka egenskaper som gör dem unika i datamängder.

    Verktyget ber dig först lägga in den första delen av deras post (Storbritannien) eller postnummer (USA), kön, och födelsedatum, innan de ger dem en sannolikhet att deras profil kan identifieras igen i någon anonymiserad datamängd.

    Den frågar sedan om din civilstånd, antal fordon, status som husägare, och anställningsstatus, innan man räknar om. Genom att lägga till fler egenskaper, sannolikheten för en match att vara korrekt ökar dramatiskt.

    Seniorförfattare Dr Yves-Alexandre de Montjoye, från Imperial's Department of Computing, och Data Science Institute, sade:"Detta är ganska standardinformation för företag att begära. Även om de är bundna av GDPR -riktlinjer, de är fria att sälja data till någon när den är anonymiserad. Vår forskning visar hur enkelt - och hur exakt - individer kan spåras när detta händer.

    Han tillade:"Företag och regeringar har minskat risken för omidentifiering genom att hävda att de datamängder de säljer alltid är ofullständiga.

    "Våra fynd motsäger detta och visar att en angripare enkelt och exakt kan uppskatta sannolikheten att posten de hittat tillhör personen de letar efter."

    Omidentifiering av anonymiserad data är hur journalister avslöjade Donald Trumps skattedeklarationer 1985-94 i maj 2019.

    Medförfattare Dr Julien Hendrickx från UCLouvain sa:"Vi är ofta säkra på att anonymisering kommer att hålla vår personliga information säker. Vårt papper visar att avidentifiering inte är tillräckligt nära för att skydda personuppgifterna."

    Forskarna säger att beslutsfattare måste göra mer för att skydda individer från sådana attacker, vilket kan få allvarliga konsekvenser för såväl karriär som personliga och ekonomiska liv.

    Dr. Hendrickx tillade:"Det är viktigt att anonymiseringsstandarder är robusta och tar hänsyn till nya hot som det som visas i detta dokument."

    Dr de Montjoye sa:"Målet med anonymisering är så att vi kan använda data för att gynna samhället. Detta är oerhört viktigt men bör inte och behöver inte ske på bekostnad av människors integritet."


    © Vetenskap https://sv.scienceaq.com