Variabler som tid på dygnet, plats och befolkningstäthet bidrar till att vid varje given tidpunkt klassificera en viss tomtmark som riskerad eller inte inbrottsrisk. Kredit:ETH Zürich
En ny maskininlärningsmetod utvecklad av ETH-forskare gör det möjligt att förutse inbrott även i glesbygd.
Inbrott sker inte överallt hela tiden. Vissa samhällen, stadsdelar och gator, såväl som årstider och tider på dygnet, har en lägre eller högre risk för att ett inbrott ska ske. Med hjälp av inbrottsstatistik, Maskininlärningstekniker kan identifiera mönster och förutsäga risken för ett inbrott på en specifik plats. Datorprogram kan alltså hjälpa polisen att identifiera inbrottsplatser – platser med särskilt hög risk för inbrott – varje dag, gör det möjligt för dem att sätta in patruller i enlighet med detta.
Klassobalans gör inlärningen svårare
Hittills, sådana varningssystem fungerar bara i tätbefolkade områden, främst i städer. Det beror på att datorprogram behöver tillräckligt med data för att känna igen mönster, och brottsligheten är mindre frekvent i glesbygden. Detta kallas för en "klassobalans" i statistiken. Specifikt, det betyder att för varje vägavsnitt som har ett inbrott, det finns flera hundra eller till och med tusen som inte gör det.
Algoritmer fungerar parallellt
Cristina Kadar är datavetare och doktorand vid institutionen för management, Teknologi, och ekonomi. Hon har utvecklat en metod som kan göra tillförlitliga prognoser trots obalanserad data. Hennes forskning har precis publicerats i tidskriften Decision Support Systems. Hon testade många maskininlärningsmetoder med en stor datauppsättning av inbrott i den schweiziska kantonen Aargau, kombinerade dem och jämförde träfffrekvensen. En metod som använder ensemble learning och kombinerar analyser av olika algoritmer visade sig vara den mest exakta.
Maskininlärning är när en algoritm använder stora datamängder för att träna sig själv att klassificera data korrekt. I det här exemplet, det tar variabler som tid på dygnet, plats, befolkningstäthet och mycket mer och lär sig av dem om man vid varje given tidpunkt ska klassificera en viss tomtmark som inbrottsrisk eller inte.
Utmaningen låg i att träna klassificeringsalgoritmerna trots det lilla antalet inbrott i datamängden. Kadar förbehandlade datamängden genom att slumpmässigt ta bort dataenheter utan inbrott tills hon kom fram till samma antal enheter med inbrott som enheter utan. Denna statistiska metod kallas "slumpmässig undersampling". Kadar tränade många klassificeringsalgoritmer med denna reducerade datamängd parallellt, och deras aggregerade prognoser producerade inbrottsprognosen. Kadar tog rutnätsceller på 200 gånger 200 meter en viss dag som sina individuella dataenheter.
Medan konventionella varningssystem huvudsakligen använder inbrottsdata, Kadar matade också klassificeringsalgoritmerna med opersonliga aggregerade befolkningsdata, som befolkningstäthet, åldersstruktur, typ av byggnadsutveckling, infrastruktur (närvaro av skolor, polisstationer, sjukhus, vägar), närhet till nationella gränser, samt tidsinformation inklusive veckodag, allmänna helgdagar, timmar av dagsljus och till och med månens fas.
Träfffrekvens bättre än i städer
Med den nya metoden, Kadar kunde avsevärt förbättra träfffrekvensen jämfört med konventionella metoder. Hon uppmanade datorn att använda sin metod för att förutsäga hotspots där inbrott sannolikt skulle inträffa i kantonen. En granskning visade att cirka 60 procent av de faktiska inbrotten begicks i de förutsedda hotspots. Som jämförelse, när hotspots förutspåddes med den traditionella metoden som används av polisen, endast 53 procent av de faktiska inbrotten inträffade i det förutsedda området. "Med obalanserad data, metoden uppnår minst lika bra och i vissa fall bättre träffar än konventionella metoder i tätorter, där data är tätare och mer jämnt fördelad, säger Kadar.
Fynden är användbara först och främst för polisen, då metoden även kan användas för att förutsäga regioner och tider med ökad risk för inbrott i mindre tätbebyggda områden. Dock, det finns ingen anledning till varför metoden inte skulle kunna användas för att förutsäga andra risker:hälsorisker, till exempel, eller sannolikheten för nödsamtal till ambulanstjänsten. Fastighetsbranschen skulle också kunna använda den för att prognostisera utvecklingen av fastighetspriserna utifrån rumsliga faktorer.