Kredit:CC0 Public Domain
Det kommer inte som någon överraskning att konsumentdata kontinuerligt samlas in av olika organisationer, inklusive lokala myndigheter, marknadsföringsbyråer och sociala medieföretag. Dessa organisationer garanterar anonymitet och konfidentialitet när de samlar in denna data, dock, befintliga dataskyddslagar garanterar inte att dataintrång inte kommer att inträffa. Enligt en färsk rapport, mer än 2, 000 bekräftade dataintrång inträffade bara under 2019, med 34 % av dem som utförs av interna aktörer såsom anställda. För att lägga till det, Stads- och statliga myndigheter samlar in känslig data som de enligt lag är skyldiga att dela med allmänheten – med tillstånd av Open Data-rörelser och Freedom of Information Act.
Dataskyddslagar kräver kryptering och, i vissa fall, omvandla den ursprungliga informationen till "skyddad data" innan den släpps till externa parter. Men för forskare som Matthew Schneider, Ph.D., en biträdande professor i beslutsvetenskap och ledningsinformationssystem vid Drexel Universitys LeBow College of Business, detta är inte tillräckligt.
"Kryptering hjälper definitivt, men det förhindrar inte ett dataintrång, " sa han. "Det liknar att skydda ditt e-postlösenord. En intern aktör med tillgång till krypteringsnyckeln kan lätt orsaka ett dataintrång. Det är mer konservativt ur ett riskperspektiv att anta att all data så småningom kommer ut och bör omvandlas innan den delas var som helst inom organisationen."
I en nyligen publicerad tidning i Journal of Marketing Analytics , Schneider och Dawn Iacobucci, Ph.D., vid Vanderbilt University, föreslagit en ny metod som permanent ändrar enkätdatauppsättningar för att skydda konsumenternas integritet – när data delas – samtidigt som en nivå av rimlig noggrannhet för dessa datauppsättningar bevaras.
Enligt författarna, undersökningsdata förvaras ofta inom organisationer och används för ändamål utöver det ursprungliga skälet för att samla in uppgifterna. "Databaser och kundinformation har blivit en modern tillgång som gör ett företag attraktivt för ett annat när man skapar allianser, "Även företag med höga standarder för datasäkerhet kan tycka att det är utmanande att skydda konsumentdatas integritet."
En annan mindre vanlig, men alltför äkta, hot, enligt författarna, är fall där anställda olagligt tagit data från sina tidigare företag till en position hos en ny arbetsgivare – av skäl som sträcker sig från att få ett positivt intryck av det nya företaget, att skada det gamla företaget, att ens behöva lämna uppgifterna som ett villkor för jobberbjudandet.
För Schneider, lösningen för att uppfylla löften om datasekretess visar sig vara en teknisk lösning.
"Enkätdata används alltmer för analys på respondentnivå, såsom i koppling till andra proprietära datamängder, och löften om integritet kan inte garanteras i de myriader av efterföljande användningar av uppgifterna, ", sa Schneider. "Sekretess garanterar inte anonymitet. Det krävs ungefär tre eller fyra noggrant ställda frågor i en undersökning för att identifiera någon unikt."
I tidningen, författarna analyserade en undersökningsdatauppsättning som samlades in 2015 av staden Austin, Texas och släpptes till allmänheten efter en Open Data-rörelse. Andra städer har liknande rörelser, inklusive New York och Philadelphia.
"Det finns massor av integritetsrisker i Open Data eftersom de inte gör integritet lika bra som den federala regeringen som har den stora budgeten och resurserna för att anställa statistiker, ekonomer eller datavetare för att ta itu med detta tekniska problem, ", sa Schneider. "Skydd beror ofta på hur data används."
Staden Austin administrerade en undersökning till 2, 614 asiatiska amerikaner som bor i staden för att utforska hälso- och servicebehoven hos en av stadens snabbast växande befolkningar som syftar till att skapa högre nivåer av samhällsengagemang, politik och att identifiera resurser för att möta behoven hos det asiatiska amerikanska samhället. Tjänstemän i Austin publicerade sina datamängder, såsom krävs, för att göra dem lättillgängliga för användarna.
I en enkätdatauppsättning, varje respondent tillfrågades om sitt etniska ursprung, som hade 32 kategorier; ålder, som hade 77 kategorier; postnummer, som hade 61 kategorier; och kön.
"Nästan alla är identifierbara med dessa fyra variabler - vissa mer än andra, sa Schneider. När du väl har identifierat dem, denna undersökning avslöjade andra känsliga svar som anställningsstatus, religiös tillhörighet, hushållsinkomst, överkomliga bostäder och många attitydfrågor. "
Liknande, New York City upplevde ett Open Data-problem med New York City Taxi and Limousine Commission där 124 miljoner körvägar kunde spåras till en förares hemadress.
En stor utmaning när man överväger metoder för att effektivt ändra deltagardata är att göra detta på ett sätt som inte i stor utsträckning förändrar undersökningsresultatens noggrannhet. Metodiken som föreslagits av författarna, byggdes på en teknik som finns i genomisk sekvenseringstillämpningar som kunde dölja konsumenternas identitet samtidigt som insikternas noggrannhet bibehölls inom 5 %.
"Vår metod skulle i huvudsak "blanda" demografiska data i en enkätdatauppsättning, sade Schneider. Men, till skillnad från tidigare metoder, vår blandar bara data när den upprätthåller korrelationerna mellan viktiga variabler som är viktiga för analytiker. Den skyddade informationen simuleras på konsumentnivå men är fortfarande värdefull för slutanvändaren. Om denna datauppsättning fick ut, då skulle bara organisationens insikter vara kända."
Pappret, "Skydda undersökningsdata på konsumentnivå, " publicerades i Journal of Marketing Analytics och finns på denna länk. Detaljer om den nya metoden finns i artikeln.