• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Sekretessriskerna med att sammanställa mobilitetsdata

    MIT -forskare finner att den växande praxisen med att sammanställa massiva datamängder om människors rörelsemönster för stadsplanering och utvecklingsforskning kan, faktiskt, riskera människors privata data - även om den är anonymiserad. Upphovsman:Massachusetts Institute of Technology

    En ny studie av MIT -forskare finner att den växande praxisen att sammanställa massiva, anonymiserade datamängder om människors rörelsemönster är ett tveeggat svärd:Även om det kan ge djup insikt i mänskligt beteende för forskning, det kan också utsätta människors privata data för fara.

    Företag, forskare, och andra enheter börjar samla in, Lagra, och behandla anonymiserad data som innehåller "platsstämplar" (geografiska koordinater och tidsstämplar) för användare. Data kan hämtas från mobiltelefonposter, kreditkortstransaktioner, kollektivtrafik smartkort, Twitter -konton, och mobilappar. Att slå samman dessa datamängder kan ge rik information om hur människor reser, till exempel, för att optimera transporter och stadsplanering, bland annat.

    Men med stora data kommer stora integritetsfrågor:Platsfrimärken är extremt specifika för individer och kan användas för elaka ändamål. Ny forskning har visat att med endast några få slumpmässigt valda punkter i mobilitetsdatauppsättningar, någon kunde identifiera och lära sig känslig information om individer. Med sammanslagna mobilitetsdatauppsättningar, detta blir ännu enklare:En agent kan eventuellt matcha användares banor i anonymiserade data från en datauppsättning, med deanonymiserad data i en annan, att maskera anonymiserade data.

    I en artikel publicerad idag IEEE -transaktioner på Big Data , MIT-forskarna visar hur detta kan hända i den första analysen av den så kallade användarens "matchbarhet" i två storskaliga datamängder från Singapore, en från en mobiloperatör och en från ett lokalt transportsystem.

    Forskarna använder en statistisk modell som spårar platsmärken för användare i båda datamängderna och ger en sannolikhet att datapunkter i båda uppsättningarna kommer från samma person. I experiment, forskarna fann att modellen kunde matcha cirka 17 procent av individerna i en veckas värde av data, och mer än 55 procent av individerna efter en månads insamlade data. Arbetet visar ett effektivt, skalbart sätt att matcha mobilitetsbanor i datamängder, som kan vara en välsignelse för forskning. Men, forskarna varnar, sådana processer kan öka möjligheten att deanonymisera verkliga användardata.

    "Som forskare, vi tror att arbete med storskaliga datamängder kan göra det möjligt att upptäcka oöverträffade insikter om det mänskliga samhället och rörligheten, så att vi kan planera städer bättre. Ändå, det är viktigt att visa om identifiering är möjlig, så att människor kan vara medvetna om potentiella risker med att dela mobilitetsdata, säger Daniel Kondor, en postdoc i Future Urban Mobility Group vid Singapore-MIT Alliance for Research and Technology.

    "Vid publicering av resultaten - och, särskilt, konsekvenserna av deanonymisering av data - vi kände oss lite som "vit hatt" eller "etiska" hackare, "tillägger medförfattaren Carlo Ratti, professor i praktiken vid MIT:s institution för stadsstudier och planering och chef för MIT:s Senseable City Lab. "Vi ansåg att det var viktigt att varna människor om dessa nya möjligheter [att sammanfoga data] och [överväga] hur vi kan reglera det."

    Medförfattarna till studien är Behrooz Hashemian, en postdoc på Senseable City Lab, och Yves-Alexandre de Mondjoye vid Institutionen för dator- och datavetenskapligt institut vid Imperial College London.

    Eliminera falska positiva

    För att förstå hur matchande platsstämplar och potentiell deanonymisering fungerar, tänk på detta scenario:"Jag var på Sentosa Island i Singapore för två dagar sedan, kom till Dubai flygplats igår, och är på Jumeirah Beach i Dubai idag. Det är högst osannolikt att en annans bana ser exakt likadan ut. Kortfattat, om någon har min anonymiserade kreditkortsinformation, och kanske min öppna platsdata från Twitter, de kan deanonymisera mina kreditkortsuppgifter, Säger Ratti.

    Liknande modeller finns för att utvärdera deanonymisering i data. Men de använder beräkningsintensiva metoder för omidentifiering, innebär att slå samman anonym data med offentliga data för att identifiera specifika individer. Dessa modeller har bara fungerat på begränsade datamängder. MIT -forskarna använde istället ett enklare statistiskt tillvägagångssätt - att mäta sannolikheten för falska positiva - för att effektivt förutsäga matchbarhet bland mängder av användare i massiva datamängder.

    I deras arbete, forskarna sammanställde två anonymiserade "lågdensitets" datamängder-några register per dag-om mobiltelefonanvändning och personliga transporter i Singapore, registrerades över en vecka 2011. Mobildata kom från en stor mobiloperatör och omfattade tidsstämplar och geografiska koordinater i mer än 485 miljoner poster från över 2 miljoner användare. Transportdata innehöll över 70 miljoner poster med tidsstämplar för individer som rör sig genom staden.

    Sannolikheten för att en given användare har poster i båda datamängderna kommer att öka tillsammans med storleken på de sammanslagna datamängderna, men så kommer sannolikheten för falska positiva. Forskarnas modell väljer en användare från en dataset och hittar en användare från den andra datasetet med ett stort antal matchande platsstämplar. Enkelt uttryckt, när antalet matchningspunkter ökar, sannolikheten för en falsk-positiv matchning minskar. Efter att ha matchat ett visst antal punkter längs en bana, modellen utesluter möjligheten att matchningen är falskt positiv.

    Med fokus på vanliga användare, de uppskattade en matchningsframgång på 17 procent under en vecka med sammanställd data, och cirka 55 procent i fyra veckor. Den uppskattningen hoppar till cirka 95 procent med data sammanställd över 11 veckor.

    Forskarna uppskattade också hur mycket aktivitet som behövs för att matcha de flesta användare under en vecka. Tittar på användare med mellan 30 och 49 personliga transporter, och runt 1, 000 mobilrekord, de uppskattade mer än 90 procent framgång med en veckas sammanställda data. Dessutom, genom att kombinera de två datamängderna med GPS -spår - som regelbundet samlas aktivt och passivt av smartphone -appar - uppskattade forskarna att de skulle kunna matcha 95 procent av enskilda banor, med mindre än en veckas data.

    Bättre integritet

    Med sin studie, forskarna hoppas kunna öka allmänhetens medvetenhet och främja skärpta regler för delning av konsumentdata. "All data med platsstämplar (som är de flesta av dagens insamlade data) är potentiellt mycket känslig och vi borde alla fatta mer välgrundade beslut om vem vi delar den med, "Ratti säger." Vi måste fortsätta tänka på utmaningarna i behandlingen av storskaliga data, om individer, och rätt sätt att tillhandahålla tillräckliga garantier för att bevara integriteten. "

    För detta ändamål, Ratti, Kondor, och andra forskare har arbetat mycket med de etiska och moraliska frågorna kring big data. Under 2013, Senseable City Lab på MIT lanserade ett initiativ med namnet "Engaging Data, "som involverar ledare från regeringen, integritetsrättsliga grupper, akademin, och affärer, som studerar hur mobilitetsdata kan och bör användas av dagens datainsamlingsföretag.

    "Världen idag är full av stora data, "Säger Kondor." 2015, mänskligheten producerade lika mycket information som skapades under alla tidigare år av mänsklig civilisation. Även om data innebär en bättre kunskap om stadsmiljön, för närvarande innehas mycket av denna mängd information av bara några företag och offentliga institutioner som vet mycket om oss, medan vi vet så lite om dem. Vi måste se till att undvika datmonopol och missbruk. "

    Denna artikel publiceras på nytt med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT -forskning, innovation och undervisning.




    © Vetenskap https://sv.scienceaq.com