Visuell återgivning av former på 2D-displayenheter styrd av handgester

Det föreslagna ramverket för gestanalys. Kredit:Singla, Roy, och Dogra.

Forskare vid NIT Kurukshetra, IIT Roorkee och IIT Bhubaneswar har utvecklat en ny Leap Motion-kontrollerbaserad metod som kan förbättra renderingen av 2D- och 3D-former på skärmenheter. Denna nya metod, beskrivs i en tidning som förpublicerats på arXiv, spårar fingerrörelser medan användare utför naturliga gester inom synfältet för en sensor.

På senare år har forskare har försökt designa innovativa, beröringsfria användargränssnitt. Sådana gränssnitt kan tillåta användare att interagera med elektroniska enheter även när deras händer är smutsiga eller icke-ledande, samtidigt som de hjälper personer med partiella fysiska funktionshinder. Studier som undersöker dessa möjligheter har förbättrats av framväxten av lågkostnadssensorer, som de som används av Leap Motion, Kinect- och RealSense-enheter.

"Vi ville utveckla en teknik som kan ge en engagerande undervisningsupplevelse till elever som lär sig lerkonst eller till och med barn som lär sig grundläggande alfabet, "Dr Debi Prosad Dogra, en av forskarna som genomförde studien berättade för TechXplore. "Förstå det faktum att barn lär sig bättre av visuella stimuli, vi använde en välkänd hand motion capture-enhet för att ge denna upplevelse. Vi ville designa ett ramverk som kan identifiera lärarens gester och återge det visuella på skärmen. Inställningen kan användas för applikationer som kräver visuell rendering med handgester."

Den ram som Dr Dogra och hans kollegor föreslagit har två distinkta delar. I den första delen, användaren utför en naturlig gest bland de 36 typer av gester som finns tillgängliga inom Leap Motion-enhetens synfält.

"De två IR-kamerorna inuti sensorn kan spela in gestsekvensen, "Dr. Dogra sa. "Den föreslagna maskininlärningsmodulen kan förutsäga klassen av gester och en renderingsenhet återger motsvarande form på skärmen."

Användarens handbanor analyseras för att extrahera utökade Npen++-funktioner i 3D. Dessa funktioner, representerar användarens fingerrörelser under gesterna, matas till en enkelriktad vänster-till-höger-dold Markov-modell (HMM) för träning. Systemet utför sedan en en-till-en-mappning mellan gester och former. Till sist, formerna som motsvarar dessa gester återges över skärmen med hjälp av MuPad-gränssnittet.

"Ur ett utvecklares perspektiv, det föreslagna ramverket är ett typiskt öppet ramverk, Dr. Dogra förklarade. "För att lägga till fler gester, en utvecklare behöver bara samla in gestsekvensdata från ett antal volontärer och träna om maskininlärningsmodellen (ML) för nya klasser. Denna ML-modell kan lära sig en generaliserad representation."

Som en del av deras studie, forskarna skapade en datauppsättning med 5400 prover inspelade av 10 frivilliga. Deras datauppsättning innehåller 18 geometriska och 18 icke-geometriska former, inklusive cirkel, rektangel, blomma, kon, sfär, och många fler.

"Funktionsval är en av de väsentliga delarna för en typisk maskininlärningsapplikation, " sade Dr. Dogra. "I vårt arbete, vi har utökat de befintliga 2-D Npen++-funktionerna i 3-D. Det har visat sig att utökade funktioner förbättrar prestandan avsevärt. 3-D Npen++-funktionerna kan också användas för andra typer av signaler, såsom kroppsställningsdetektion, aktivitetsigenkänning, etc."

Dr Dogra och hans kollegor utvärderade sin metod med en femfaldig korsvalidering och fann att den uppnådde en noggrannhet på 92,87 procent. Deras utökade 3D-funktioner överträffade befintliga 3D-funktioner för formrepresentation och klassificering. I framtiden, den metod som forskarna tagit fram kan hjälpa utvecklingen av användbara applikationer för interaktion mellan människor och datorer (HCI) för smarta displayenheter.

"Vår inställning till gestigenkänning är ganska allmän, " Dr. Dogra tillade. "Vi ser denna teknik som ett verktyg för döva och funktionshindrade människors kommunikation. Vi vill nu använda systemet för att förstå gesterna och konvertera dem till skrivna format eller former, att hjälpa människor i dagliga samtal. Med tillkomsten av avancerade maskininlärningsmodeller som återkommande neurala nätverk (RNN) och långtidsminne (LSTM), det finns också gott om räckvidd i tidsmässig signalklassificering."

Kommer nya tekniska skatter i Mountain View, San Francisco, East Palo Alto vara smittsam?

Genomskinlig film avvisar 70 procent av inkommande solvärme

Elektronik