Kredit:CC0 Public Domain
En enorm mängd digital data har skördats, lagrat och delat under de senaste åren från källor som sociala medier, geolokaliseringssystem och flygbilder från drönare och satelliter, ger forskare många nya sätt att studera information och dekryptera vår värld. I Schweiz, Federal Statistical Office (FSO) har intresserat sig för big data-revolutionen och de möjligheter den erbjuder att generera prediktiv statistik till gagn för samhället.
Konventionella metoder som folkräkningar och undersökningar förblir riktmärket för att generera socioekonomiska indikatorer på kommunen, kantonal och nationell nivå. Men dessa metoder kan nu kompletteras med sekundära, mestadels redan existerande data, från källor som mobiltelefonabonnemang och kreditkort. Enligt FSO:s 2017 datainnovationsstrategi, "Målet med datainnovation är att förbättra kvaliteten, statistiska produkters omfattning och kostnadseffektivitet och för att minska svarsbördan för hushåll och företag."
Anonymiserad data
Mot denna bakgrund, ett team av forskare vid EPFL:s Laboratory on Human-Environment Relations in Urban Systems (HERUS) genomförde en banbrytande studie om nya användningsområden för data som innehas av försäkringsbolag. Labbets ledande partnerföretag, La Mobilière, tillhandahållit anonymiserade uppgifter från hundratusentals försäkringstagare. Dessa data inkluderade faktorer som ålder, bostadspostnummer, bil- och villaägande, och anställningsstatus.
"Vi ville se om vi kunde använda dessa data för att förutsäga specifika socioekonomiska indikatorer - sådana som skulle kunna ge oss en bättre bild av kvaliteten på Schweiz stadsområden. En stor fördel med försäkringsbolagens data - förutsatt att de är villiga att dela det — är att de är billiga att använda, eftersom de redan finns, och årliga undersökningar kan utföras utan extra kostnad, " säger Emanuele Massaro, en huvudförfattare till studien, som publicerades i PLOS ETT den 3 mars.
Med hjälp av datautvinningstekniker, forskargruppen extraherade den relevanta informationen och aggregerade den för att täcka de 170 mest befolkade schweiziska städerna. I alla, de fick nästan 600, 000 profiler, var och en identifierad med en unik kod. "La Mobilières datauppsättning är mycket komplett; den innehåller ett brett utbud av information som gjorde det möjligt för oss att räkna in över 30 variabler, som vi främst använde för att välja de variabler som bäst matchar varje socioekonomisk indikator, " säger Lorenzo Donadio, en masterstudent i miljövetenskap och teknik vid EPFL och studiens första författare.
En rumslig regressionsmodell
Forskarna utvecklade en rumslig regressionsmodell för att exakt förutsäga tolv variabler i sex kategorier:befolkning, transport, arbete, rymd och region, hus, och ekonomin. "Självklart, våra förutsägelser kan inte ersätta officiella folkräkningar, men de kan fungera som årliga vägvisare. Vi ville också visa att försäkringsbolagens datauppsättningar innehåller en hel del socialt relevant information – utöver vad de använder för marknadsföring och marknadsundersökningar – och att försäkringsgivare bör överväga att arbeta närmare forskare, säger Massaro.
Teamets statistiska modell utvecklades enbart för forskningsändamål och har ingen praktisk tillämpning som sådan. Det kan användas för att vägleda beslutsfattare, men regelbundna folkräkningsuppgifter behövs fortfarande. La Mobilières data saknar viss information, till exempel för ungdomar under 18 år, men är ändå representativa för en stor del av befolkningen. "Vår modell kan användas av stadens beslutsfattare och statliga statistikkontor, som skulle kunna införliva denna typ av information i sina moderniseringsarbeten. Försäkringsbolagens datauppsättningar är mycket detaljerade eftersom de innehåller mycket specifik information om deras kunder, säger Massaro.