Jia-Bin Huang, biträdande professor vid Bradley Department of Electrical and Computer Engineering och en fakultetsmedlem vid Discovery Analytics Center. Kredit:Virginia Tech
Jia-Bin Huang, biträdande professor vid Bradley Department of Electrical and Computer Engineering och en fakultetsmedlem vid Discovery Analytics Center, har fått ett Google Faculty Research Award för att stödja sitt arbete med att upptäcka interaktion mellan människa och objekt i bilder och videor.
Google-priset, som är i kategorin Machine Perception, kommer att tillåta Huang att ta itu med utmaningarna med att upptäcka två aspekter av interaktion mellan människa och objekt:modellering av relationen mellan en person och relevanta objekt/scen för att samla in kontextuell information och automatiskt utvinna hårda exempel från omärkta men interaktionsrika videor.
Enligt Huang, medan betydande framsteg har gjorts i klassificeringen, upptäcka, och segmentera objekt, att representera bilder/videor som en samling av isolerade objektinstanser har misslyckats med att fånga den information som är nödvändig för att förstå aktivitet.
"Genom att förbättra modellen och skala upp utbildningen, vi siktar på att ta ett steg längre mot att bygga socialt intelligenta maskiner, " sa Huang.
Med tanke på en bild eller en video, Målet är att lokalisera personer och objektinstanser, samt känna igen interaktion, om någon, mellan varje par av en person och ett föremål. Detta ger en strukturerad representation av en visuellt grundad graf över människorna och objektinstanserna de interagerar med.
Till exempel:Två män står bredvid varandra vid sidan av en tennisbana, en står upp och håller ett paraply och en sitter på en stol med en tennisracket och tittar på en väska på marken bredvid honom. Allt eftersom videon fortskrider, de två ler mot varandra, byt ut paraply och tennisracket, sitta sida vid sida, och drick ur vattenflaskor. Så småningom, de vänder sig för att se på varandra, byt ut paraplyet och tennisracket igen, och slutligen, prata med varandra.
"Att förstå mänsklig aktivitet i bilder och/eller videor är ett grundläggande steg mot att bygga socialt medvetna agenter, semantisk bild/videohämtning, bildtext, och svar på frågor, " sa Huang.
Han sa att upptäcka människa-dator-interaktion leder till en djupare förståelse av mänskligt centrerad aktivitet.
"Istället för att svara "Vad är var?" Målet med detektion av interaktion mellan människa och objekt är att svara på frågan "Vad händer?" Resultaten av interaktion mellan människa och objekt ger en mer detaljerad beskrivning av scenens tillstånd och tillåter oss att bättre förutsäga framtiden och förstå deras avsikt, " sa Huang.
Ph.D. studenten Chen Gao kommer att arbeta med projektet med Huang. De förväntar sig att forskningen avsevärt kommer att förbättra den senaste upptäckten av mänskliga objekt och möjliggöra många tillämpningar med stor effekt, såsom långsiktig hälsoövervakning och socialt medvetna robotar.
Huang planerar att dela resultaten av forskningen via publikationer på toppkonferenser och tidskrifter och kommer också att göra källkoden, insamlade datamängder, och förtränade modeller framtagna från detta projekt offentligt tillgängliga.
"Vårt projekt stämmer väl överens med flera av Googles pågående ansträngningar för att bygga "social visuell intelligens". Vi ser fram emot att samarbeta med forskare och ingenjörer på Google för att utbyta och dela idéer och främja framtida samarbetsrelationer, " sa Huang.