Kredit:CC0 Public Domain
Forskare från Higher School of Economics har utvecklat en algoritm som upptäcker känslor hos en grupp människor på en video av låg kvalitet. Lösningen ger ett slutgiltigt beslut på bara en hundradels sekund, vilket är snabbare än alla andra befintliga algoritmer med liknande noggrannhet. Resultaten har beskrivits i artikeln "Emotion Recognition of a Group of People in Video Analytics Using Deep Off-the-Shelf Image Embeddings."
Att analysera människors sociala beteende med hjälp av bilder och videor är en av de mest populära uppgifterna för utvecklare av smarta människa-maskin-gränssnitt. Forskare har uppnått en ganska hög kvalitet i känsloigenkänning på gruppnivå, men det förblev omöjligt att genomföra denna utveckling i massskala. Problemet var kravet på de flesta videosystem för bilder innehållande ansiktsnärbilder i bra upplösning. Men vanliga kameror installerade på gatan eller i en stormarknad har låg upplösning och är ganska högt monterade, så att de typiska ansiktsregionerna i de samlade videorna är mycket små.
Alexander Tarasov och Andrey Savchenko, forskare från HSE, har utvecklat en algoritm som är jämförbar med de befintliga teknikerna för emotionsigenkänning på gruppnivå när det gäller noggrannhet i igenkänning (75,5 %). På samma gång, det kräver bara 5MB i systemminnet, bearbetar en bild eller videoram på bara en hundradels sekund och kan användas med videodata av låg kvalitet.
Algoritmen fungerar i flera steg. Först, bilden bearbetas med MTCNN neurala nätverk, som traditionellt används för att upptäcka små ansikten. Sedan, funktionerna extraheras från varje ansikte med ett helt konvolutionerande nätverk, som var preliminärt tränad för att klassificera känslor hos ansikten med mycket låg upplösning, inte större än en profilbild på sociala medier. Det slutliga beslutet om känslan (negativ, positiv eller neutral) av hela gruppen görs av en ensemble av kända klassificerare (slumpmässiga skogs- och stödvektormaskiner) applicerade på den viktade summan av egenskapsvektorer för alla detekterade ansikten.
Den nya utvecklingen kan potentiellt användas i olika videoövervakningssystem. Det kan hjälpa till att upptäcka förändringar i gruppkänslor vid en konsert, fotbollsmatch, eller ett protestmöte, som kan hjälpa till att förebygga konflikter i tid. Integrerad i ett supermarketövervakningssystem, det kommer att upptäcka konsumenternas känslomässiga reaktion på olika kampanjer. Tillsammans med kameror som spelar in ett offentligt tal, den kan bedöma publikens respons.