Exempel på på varandra följande ramar bearbetade med ROI -packningsmekanismen. Upphovsman:Athindran et al.
Forskare vid Robert Bosch Center for Data Science and Artificial Intelligence och Center for Computational Brain Research, Indian Institute of Technology Madras, och Purdue University har nyligen utvecklat en ny metod för att minska beräkningskraven för objektdetektering i videor med neurala nätverk. Deras teknik, kallas Pack and Detect (PaD), beskrivs i ett papper som för publicerats på arXiv.
Objektdetektering är en nyckelaspekt för många datorvisionsapplikationer, t.ex. spårning av objekt, videosammanfattning, och videosökning. Även om de senaste framstegen inom maskininlärning har lett till utvecklingen av allt mer exakta verktyg för att slutföra denna uppgift, befintliga metoder är fortfarande beräkningsmässigt mycket intensiva. Till exempel, bearbetning av en video med 300 x 300 upplösning med hjälp av SSD300 objektdetekteringsnätverk, med VGG16 som ryggrad och vid 30 fps kräver 1,87 biljoner flytande punktoperationer per sekund (FLOPS).
Forskarna observerade att i vissa fall dock, de flesta regioner i en videoram är bara bakgrund, med framträdande föremål som bara upptar en liten bråkdel av ytan i ramen. Dessutom, de fann att det finns en stark tidsmässig korrelation mellan på varandra följande ramar. De utnyttjade dessa observationer och föreslog en ny teknik för objektdetektering i videor som kan minska beräkningskraven för objektdetekteringsuppgifter.
"Vi inspirerades av den foveala mekanismen i både biologiska och artificiella synsystem, "Athindran Ramesh Kumar, en av forskarna som genomförde studien, berättade TechXplore. "Tidigare ansträngningar avseende de foveala uppmärksamhetsmekanismerna i artificiella synsystem fokuserar bara på en region i bilden eller på ett objekt i taget. Vi undrade hur ett vision system skulle vara om det kunde fokusera på alla framträdande områden i scenen samtidigt . "
Objektdetekteringsmetoden som forskarna utarbetat är därför inspirerad av biologiska synsystem. Dock, i motsats till tidigare försök, deras system packar ihop alla intressanta regioner i en enda ram, istället för att bearbeta dem sekventiellt.
"Målet med vårt arbete var att påskynda objektdetektering i videor genom att bara fokusera på de framträdande områdena i ramen och eliminera bakgrundsstörningen, "Balaraman Ravindran, en annan forskare som genomförde studien, berättade TechXplore. "För att eliminera röran i bakgrunden, vi utnyttjade den tidsmässiga korrelationen mellan intilliggande ramar i en video. Detta är en egenskap som videokomprimeringstekniker använder för att minska lagringskraven och bandbreddskraven. Vi använder den för att påskynda beräkningen. "
Vaddera, den objektdetekteringsmetod som föreslås av Ravindran och hans kollegor fungerar genom att bearbeta ramar med jämna mellanrum i full storlek. Dessa ramar kallas "ankarramar". I alla andra ramar, å andra sidan, verktyget identifierar intressanta regioner baserat på platsen där objekten befann sig i den föregående ramen.
"Dessa intresseområden är arrangerade tillsammans som i ett collage, som används som ingång för objektdetektorn, "Anand Raghunathan, en av forskarna som genomförde studien, berättade TechXplore. "Detekteringarna kartläggs sedan tillbaka till platserna i den ursprungliga bilden. Denna metod är snabbare eftersom collagebilderna är av mindre storlek än hela ramarna. Vi utnyttjar flexibiliteten hos populära objektdetektorer som SSD300 för att bearbeta bilder i både full storlek och mindre storlekar. "
Forskarna utvärderade sin metod på ImageNet VID -datauppsättningen och fann att den ökade tiden med 1,25x, med mindre än 1,6 procents minskning av noggrannheten. Dessutom, de observerade att tiden det tog att bearbeta ramar i mindre storlek var nästan tre gånger lägre, med FLOP -antalet minskat med fyra gånger.
Dessutom, deras studie belyste två viktiga aspekter som kan informera utvecklingen av snabbare och mindre beräkningsmässigt intensiva metoder för att upptäcka objekt i videor. Först, objekt av intresse upptar vanligtvis bara en liten bråkdel av pixlar i en ram; andra, det finns ett samband mellan angränsande bildrutor i en video.
"Vårt arbete kan hjälpa till att göra videoanalyser möjliga på resursbegränsade enheter i utkanten av sakernas internet genom att minska beräkningskraven, eller kan förbättra antalet videoströmmar som kan bearbetas av en server i molnet, "Sa Athindran.
Studien som gjorts av detta forskargrupp är ett första steg mot utvecklingen av effektivare objektdetekteringsverktyg. De planerar nu ytterligare utredningar som kan förbättra deras metod ytterligare.
Till exempel, för närvarande, PaD väljer ankarramar med jämna mellanrum, men forskarna kunde utveckla en mekanism som dynamiskt identifierar dessa nyckelramar. De planerar också att testa sin teknik i mer resursbegränsad hårdvara, som smartphones, bärbara enheter och smarta hushållsapparater.
"Vi handgjorda en algoritm för att utläsa intressanta regioner och bilda en collagebild, "Ravindran sa." Men ett helt neuralt system skulle ha neurala nätverk som genererar collagebilden baserat på föregående ram. Detta är en mer ambitiös linje för framtida arbete. "
© 2018 Tech Xplore