Kredit:CC0 Public Domain
Miniatyriseringen av videokameror har lett till en explosion i deras användning, inklusive deras inkorporering i en rad bärbara enheter såsom huvudkameror, används i scenarier som sträcker sig från sportevenemang till väpnad strid. För att analysera uppgifter som utförs med tanke på sådana enheter och ge realtidsvägledning till individer som använder dem, det skulle vara bra att karakterisera var användaren faktiskt fokuserar i filmen vid varje ögonblick i tiden, men de tillgängliga verktygen för att förutsäga detta är fortfarande begränsade.
I en ny studie som rapporterades vid den 15:e europeiska konferensen om datorseende (ECCV 2018), Forskare vid University of Tokyo har utvecklat ett beräkningsverktyg som kan lära sig av bilder tagna med en headcam, i detta fall av olika uppgifter som utförs i köket, och sedan exakt förutsäga var användarens fokus nästa mål kommer att riktas. Det här nya verktyget kan vara användbart för att göra det möjligt för videolänkade tekniker att förutsäga vilka åtgärder användaren för närvarande utför, och ge lämplig vägledning angående nästa steg.
Befintliga program för att förutsäga var den mänskliga blicken sannolikt kommer att falla inom en ram av videofilmer har i allmänhet varit baserade på konceptet "visuell framträdande, " som använder distinktioner av funktioner som färg, intensitet, och kontrast i bilden för att förutsäga var en person sannolikt kommer att titta. Dock, i bilder av människor som utför komplexa uppgifter, detta synsätt är otillräckligt, eftersom individen sannolikt kommer att flytta sin uppmärksamhet från ett objekt till ett annat i en sekventiell, och ofta förutsägbar, sätt.
För att dra fördel av denna förutsägbarhet, i denna studie använde teamet ett nytt tillvägagångssätt som kombinerar visuell framträdande karaktär med "blickförutsägelse, " som involverar en artificiell intelligens som lär sig sådana sekvenser av åtgärder från befintliga filmer och sedan tillämpar den erhållna kunskapen för att förutsäga riktningen för användarens blick i nya bilder.
"Vårt nya tillvägagångssätt innebär att först bygga en "saliency map" för varje bildruta, sedan en "uppmärksamhetskarta" baserad på var användaren tidigare tittade och på rörelsen av användarens huvud, och slutligen kombinationen av båda dessa till en blickkarta, "" säger Yoichi Sato. "Våra resultat visade att det här nya verktyget överträffade tidigare alternativ när det gäller att förutsäga vart huvudkameraanvändarens blick faktiskt riktades."
Även om lagets resultat erhölls för bilder av sysslor i ett kök, som att koka vatten på en spis, de skulle kunna utvidgas till situationer som uppgifter som utförs på kontor eller fabriker. Faktiskt, enligt huvudförfattaren Yifei Huang, "Verktyg för att utvärdera så kallade egocentriska videor av detta slag kan till och med användas i medicinska sammanhang, som att bedöma var en kirurg fokuserar och erbjuda vägledning om de lämpligaste stegen som ska tas härnäst i en operation."
Artikeln "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition" publiceras i rapporten från European Conference on Computer Vision (ECCV 2018) och som en arXiv-artikel på arxiv.org/abs/1803.09125 .