Kredit:CC0 Public Domain
Efter att U.S. Census Bureau meddelade att de ändrade hur de skyddar individers identiteter för 2020 års folkräkning, en forskargrupp ledd av Penn State började utvärdera hur dessa förändringar kan påverka folkräkningsdataintegriteten.
Census Bureau föreslår att man använder differentiell integritet, en ny metod som försöker skydda individers identiteter vid publicering av offentlig data. Folkräkningsdata används för att fördela federal finansiering som påverkar samhällen och även bestämmer kongressens representation.
Alexis Santos, biträdande professor i mänsklig utveckling och familjestudier vid Penn State, tillsammans med forskarna Jeffrey Howard, biträdande professor vid University of Texas i San Antonio, och Ashton Verdery, biträdande professor i sociologi, demografi, och social dataanalys på Penn State, undersökte dödligheten 2010. Forskarna jämförde båda metoderna för integritetsskydd och konsekvenserna av denna förändring för att bättre förstå hälsoskillnaderna i USA. Verket publicerades nyligen i Proceedings of the National Academy of Sciences .
Forskargruppen upptäckte att när differentiell integritetsmetod användes på Census-data, det ledde till dramatiska förändringar i befolkningsantalet för ras och etniska minoriteter jämfört med de traditionella metoderna.
"Vi fokuserade på uppskattningar av dödligheten eftersom de är ett viktigt mått på befolkningsnivå för vilket data samlas in och sprids på nationell nivå och eftersom dödligheten är en kritisk indikator på befolkningens hälsa, sa Santos.
Forskargruppen undersökte sedan förändringarna i dödligheten till följd av de två systemen för undvikande av avslöjande genom storstadsklassificeringar.
"Vi upptäckte att genom att använda differentiell integritet, det fanns både fall av under- och överräkning av befolkningen. På landsbygden, det förekom underräkning av rasistiska och etniska minoriteter, medan det i stadsområden förekom en överräkning av dessa befolkningar, sa Santos.
Forskarna fann att vissa avvikelser mellan de två metoderna för dataanalys översteg en skillnad på 10 %.
"Detta är mycket oroande eftersom det kan påverka hur mycket finansieringsprogram får för ett specifikt geografiskt område, " sa Santos. "Dessa avvikelser kan resultera i underskattade hälsorisker i vissa områden, och samtidigt överdriva i andra där det inte finns ett stort behov."
Enligt Santos, resultaten belyser konsekvenserna av att implementera differentierad integritet och visar på utmaningarna med att använda dataprodukter som härrör från denna metod.
"Census Bureau har varit mycket mottagliga för vår forskning, och visat oro för uppgifternas riktighet, ", sa Santos. "Vi planerar att gå vidare med ytterligare forskning för att avgöra hur differentierad integritet kan påverka befolkningstillväxtskattningar och befolkningsförändringar från folkräkningsår till folkräkningsår. Vi har fortfarande tid att finjustera den differentiella integritetsalgoritmen, och vår forskning kommer att hjälpa till att lokalisera förbättringsområden."