Intels forskare utvecklar ett ögonkontaktskorrigeringssystem för videochatt

Ögonkontaktskorrigering:i inmatningsramen (vänster) tittar användaren på skärmen. I utmatningsramen (höger) korrigeras hans blick för att titta in i kameran. Upphovsman:Isikdogan, Gerasimow &Michael.

När du deltar i ett videosamtal eller konferens, det är ofta svårt att upprätthålla direkt ögonkontakt med andra deltagare, eftersom detta kräver att man tittar in i kameran snarare än på skärmen. Även om de flesta använder videosamtalstjänster regelbundet, än så länge, det har inte funnits någon utbredd lösning på detta problem.

Ett team av forskare vid Intel har nyligen utvecklat en ögonkontaktskorrigeringsmodell som kan hjälpa till att övervinna denna olägenhet genom att återställa ögonkontakten i livevideochatt, oavsett var en enhets kamera och skärm är placerad. Till skillnad från tidigare föreslagna metoder, denna modell centrerar automatiskt en persons blick utan att behöva indata som anger omdirigeringsvinkeln eller kamera/display/användargeometri.

"Huvudmålet med vårt projekt är att förbättra kvaliteten på videokonferensupplevelser genom att göra det lättare att upprätthålla ögonkontakt, "Leo Isikdogan, en av forskarna som genomförde studien, berättade TechXplore. "Det är svårt att upprätthålla ögonkontakt under ett videosamtal eftersom det inte är naturligt att titta in i kameran under ett samtal. Människor tittar på den andra personens bild på skärmen, eller ibland tittar de till och med på sin egen förhandsgranskning, men inte in i kameran. Med denna nya funktion för ögonkontaktskorrigering, användare kommer att kunna föra en naturlig konversation ansikte mot ansikte. "

Huvudmålet med studien som utfördes av Isikdogan och hans kollegor var att skapa en naturlig videochattupplevelse. För att uppnå detta, de ville bara att deras ögonkontaktskorrigeringsfunktion skulle fungera när en användare är engagerad i konversationen, snarare än när de naturligt tar ögonen från skärmen (t.ex. när de tittar på papper eller manipulerar objekt i omgivningen).

"Ögonkontaktskorrigering och blickomdirigering i allmänhet, är inte nya forskningsidéer, " Sa Isikdogan. "Många forskare har föreslagit modeller för att manipulera var människor tittar på i bilder. Dock, några av dessa kräver speciella hårdvaruinställningar, andra behöver ytterligare information från användaren, till exempel åt vilket håll och hur mycket omdirigeringen behöver vara, och andra använder beräkningsmässigt dyra processer som bara är möjliga för behandling av förinspelade videor. "

Det nya systemet som utvecklats av Isikdogan och hans kollegor använder ett djupt konvolutionellt neuralt nätverk (CNN) för att omdirigera en persons blick genom att vrida och ställa in ögonen i dess inmatningsramar. Väsentligen, CNN bearbetar en monokulär bild och producerar ett vektorfält och en ljusstyrkekarta för att korrigera en användares blick.

I motsats till tidigare föreslagna metoder, deras system kan köras i realtid, ur lådan och utan att kräva någon input från användare eller dedikerad hårdvara. Dessutom, korrektorn fungerar på en mängd olika enheter med olika skärmstorlekar och kamerapositioner.

"Vår ögonkontaktskorrigerare använder en uppsättning kontrollmekanismer som förhindrar plötsliga förändringar och säkerställer att ögonkontaktskorrigeraren undviker att göra någon onaturlig korrigering som annars skulle vara läskig, " Sa Isikdogan. "Till exempel, korrigeringen avaktiveras smidigt när användaren blinkar eller tittar någonstans långt borta."

Forskarna tränade sin modell på ett dubbelriktat sätt på ett stort dataset av syntetiskt genererade, fotorealistiska och märkta bilder. De utvärderade sedan dess effektivitet och hur användarna uppfattade det i en serie blindtester.

"Vår blindtestning visade att de flesta inte vet när vi slår på eller av vår algoritm, de ser inga artefakter utan känner bara att de har ögonkontakt med personen de kommunicerar med, "Gilad Michael, en annan forskare involverad i studien, berättade TechXplore.

Intressant, forskarna observerade att deras modell också hade lärt sig att förutsäga inmatningsblicken (dvs. där den trodde att en användare tittade innan hans/hennes blick korrigerades), även om han aldrig var utbildad att göra det. De tror att denna förmåga kan vara en biprodukt av modellens kontinuerliga omdirigering av en användares blick till mitten, utan att ange var en användare letade från första början.

"Modellen drog helt enkelt slutsatsen från ingångsblicken så att den kan flytta den till mitten, " förklarade Isikdogan. "Därför, Vi kan utan tvekan betrakta ögonkontaktkorrigeringsproblemet som en partiell superuppsättning av blickprognoser. "

Resultaten som forskarna samlat in visar också värdet av att använda fotorealistiska syntetiska data för att träna algoritmer. Faktiskt, deras modell uppnådde anmärkningsvärda resultat även om den under träningen nästan helt och hållet förlitade sig på datorgenererade bilder. Forskarna är långt ifrån de första som experimenterar med syntetiska träningsdata, ändå är deras studie en ytterligare bekräftelse på dess potential för att skapa högpresterande applikationer.

"Vi bekräftade också att det är en bra praxis att ha kartläggningsreversibilitet i åtanke när man bygger modeller som manipulerar deras indata, " Tillade Isikdogan. "T.ex. om modellen flyttar några pixlar från nedre vänster till mitten, vi borde kunna be modellen att flytta tillbaka dem längst ner till vänster och få en bild som ser nästan identisk ut med originalbilden. Detta tillvägagångssätt förhindrar modellen från att modifiera bilder utan reparation."

I framtiden, det system som föreslagits av Isikdogan, Michael och deras kollega Timo Gerasimow kan hjälpa till att förbättra videokonferensupplevelser, för dem ännu närmare personliga interaktioner. Forskarna planerar nu att färdigställa sitt system så att det kan tillämpas på befintliga videokonferenstjänster.

"Vi lägger mycket ansträngning på att se till att vår lösning är praktisk och redo att användas i riktiga produkter, "Michael sa." Vi kan nu försöka förbättra några av biproduktfynden från algoritmen som blickdetektering och engagemangsbetyg för att möjliggöra intilliggande användningsfall. "

Amazon lägger till nytt alternativ:Köp på Amazon, hämta på Rite Aid

RoboBee flyger solo—Klipper av nätsladden för den första obundna flygningen

Elektronik