En ny NIST -studie undersöker hur exakt verktyg för ansiktsigenkänning identifierar människor av varierat kön, ålder och rasbakgrund. Upphovsman:N. Hanacek/NIST
Hur exakt identifierar mjukvaruverktyg för ansiktsigenkänning människor av varierat kön, ålder och rasbakgrund? Enligt en ny studie från National Institute of Standards and Technology (NIST), svaret beror på algoritmen i systemets hjärta, applikationen som använder den och data som den matas - men majoriteten av algoritmer för ansiktsigenkänning uppvisar demografiska skillnader. En differential innebär att en algoritms förmåga att matcha två bilder av samma person varierar från en demografisk grupp till en annan.
Resultat i rapporten, Face Recognition Vendor Test (FRVT) Del 3:Demografiska effekter (NISTIR 8280), är avsedda att informera beslutsfattare och hjälpa mjukvaruutvecklare att bättre förstå prestandan för deras algoritmer. Ansiktsigenkänningsteknik har delvis inspirerat till offentlig debatt på grund av behovet av att förstå demografins effekt på ansiktsigenkänningsalgoritmer.
"Även om det vanligtvis är felaktigt att uttala sig om algoritmer, vi hittade empiriska bevis för förekomsten av demografiska skillnader i majoriteten av ansiktsigenkänningsalgoritmerna vi studerade, "sa Patrick Grother, en NIST -datavetare och rapportens huvudförfattare. "Även om vi inte undersöker vad som kan orsaka dessa skillnader, dessa uppgifter kommer att vara värdefulla för beslutsfattare, utvecklare och slutanvändare att tänka på begränsningarna och lämplig användning av dessa algoritmer. "
Studien genomfördes genom NIST:s Face Recognition Vendor Test (FRVT) program, som utvärderar ansiktsigenkänningsalgoritmer som skickats in av industrin och akademiska utvecklare om deras förmåga att utföra olika uppgifter. Även om NIST inte testar de färdiga kommersiella produkterna som använder dessa algoritmer, programmet har avslöjat en snabb utveckling på det växande området.
NIST -studien utvärderade 189 programvarealgoritmer från 99 utvecklare - en majoritet av branschen. Den fokuserar på hur bra varje enskild algoritm utför en av två olika uppgifter som är bland ansiktsigenkänningens vanligaste applikationer. Den första uppgiften, bekräftar att ett foto matchar ett annat foto av samma person i en databas, är känd som "en-till-en" -matchning och används vanligtvis för verifieringsarbete, som att låsa upp en smartphone eller kontrollera ett pass. Den andra, avgöra om personen på fotot har någon matchning i en databas, är känd som "en-till-många" -matchning och kan användas för identifiering av en person av intresse.
För att utvärdera varje algoritms prestanda på sin uppgift, laget mätte de två klasserna av fel som programvaran kan göra:falska positiva och falska negativ. Ett falskt positivt innebär att programvaran felaktigt betraktade foton av två olika individer för att visa samma person, medan ett falskt negativt betyder att programvaran misslyckades med att matcha två foton som, faktiskt, visa samma person.
Att göra dessa skillnader är viktigt eftersom felklassen och söktypen kan få väldigt olika konsekvenser beroende på den verkliga applikationen.
"I en en-till-en-sökning, ett falskt negativt kan bara vara ett besvär - du kan inte komma in i telefonen, men problemet kan vanligtvis åtgärdas genom ett andra försök, "Grother sa." Men en falsk positiv i en-till-många-sökningar sätter en felaktig matchning på en kandidatlista som motiverar ytterligare granskning. "
Det som skiljer publikationen från de flesta andra ansiktsigenkänningsforskningar är dess oro för varje algoritms prestanda när man beaktar demografiska faktorer. För en-till-en-matchning, bara några tidigare studier undersöker demografiska effekter; för en-till-många-matchning, ingen har.
För att utvärdera algoritmerna, NIST -teamet använde fyra samlingar av fotografier som innehöll 18,27 miljoner bilder av 8,49 miljoner människor. Allt kom från operativa databaser från utrikesdepartementet, Department of Homeland Security och FBI. Teamet använde inga bilder som "skrapades" direkt från internetkällor som sociala medier eller från videoövervakning.
Fotona i databaserna innehöll metadata som anger ämnets ålder, sex, och antingen ras eller födelseland. Teamet mätte inte bara varje algoritms falska positiva och falska negativ för båda söktyperna, men det bestämde också hur mycket dessa felhastigheter varierade mellan taggarna. Med andra ord, hur relativt bra fungerade algoritmen på bilder av människor från olika grupper?
Tester visade ett brett spektrum av noggrannhet mellan utvecklare, med de mest exakta algoritmerna som producerar många färre fel. Medan studiens fokus låg på individuella algoritmer, Grother påpekade fem bredare fynd:
Varje diskussion om demografiska effekter är ofullständig om den inte skiljer mellan de fundamentalt olika uppgifterna och typerna av ansiktsigenkänning, Sa Grother. Sådana skillnader är viktiga att komma ihåg när världen konfronterar de bredare konsekvenserna av teknik för ansiktsigenkänning.