Ett systemdiagram över MDS -nätverket. Upphovsman:Khorram, McInnis &Provost.
Maskininlärningsmodeller som kan känna igen och förutsäga mänskliga känslor har blivit alltmer populära under de senaste åren. För att de flesta av dessa tekniker ska fungera bra, dock, data som används för att träna dem kommenteras först av människor. Dessutom, känslor förändras kontinuerligt med tiden, vilket gör annotering av videor eller röstinspelningar särskilt utmanande, resulterar ofta i avvikelser mellan etiketter och inspelningar.
För att hantera denna begränsning, forskare vid University of Michigan har nyligen utvecklat ett nytt konvolutionellt neuralt nätverk som samtidigt kan anpassa och förutsäga känslomeddelanden på ett end-to-end-sätt. De presenterade sin teknik, kallas ett multi-delay sync (MDS) nätverk, i ett papper publicerat i IEEE -transaktioner på affektiv dator .
"Känslan varierar kontinuerligt i tid; det ebbar och flödar i våra konversationer" Emily Mower Provost, en av forskarna som genomförde studien, berättade TechXplore. "Inom teknik, vi använder ofta kontinuerliga beskrivningar av känslor för att mäta hur känslor varierar. Vårt mål blir då att förutsäga dessa kontinuerliga mått från tal. Men det finns en fångst. En av de största utmaningarna i arbetet med kontinuerliga beskrivningar av känslor är att det kräver att vi har etiketter som kontinuerligt varierar i tid. Detta görs av team av mänskliga annotatorer. Dock, människor är inte maskiner. "
När klipparen Provost fortsätter att förklara, mänskliga annotatorer kan ibland vara mer anpassade till specifika känslomässiga signaler (t.ex. skratt), men missa meningen bakom andra ledtrådar (t.ex. en upprörd suck). Dessutom, människor kan ta lite tid att bearbeta en inspelning, och sålunda, deras reaktioner på känslomässiga ledtrådar är ibland försenade. Som ett resultat, kontinuerliga känslotiketter kan presentera mycket variation och är ibland feljusterade med tal i data.
I deras studie, Mower Provost och hennes kollegor tog direkt upp dessa utmaningar, med fokus på två kontinuerliga mått på känslor:positivitet (valens) och energi (aktivering/upphetsning). De introducerade nätverket med flera fördröjningar, en ny metod för att hantera feljustering mellan tal och kontinuerliga kommentarer som reagerar olika på olika typer av akustiska signaler.
"Tidskontinuerliga dimensionella beskrivningar av känslor (t.ex. upphetsning, valens) ge detaljerad information om både förändringar på kort tid och långsiktiga trender i känslouttryck, "Soheil Khorram, en annan forskare som är involverad i studien, berättade TechXplore. "Huvudmålet med vår studie var att utveckla ett automatiskt känslighetsigenkänningssystem som kan uppskatta de tidskontinuerliga dimensionella känslorna från talsignaler. Detta system kan ha ett antal verkliga tillämpningar inom olika områden, inklusive interaktion mellan människa och dator, e-lärande, marknadsföring, sjukvård, underhållning och lag. "
Det konvolutionsnätverk som utvecklats av Mower Provost, Khorram och deras kollegor har två nyckelkomponenter, en för känslomässig förutsägelse och en för anpassning. Känslan för förutsägelse av känslor är en gemensam konvolutionsarkitektur som är utbildad för att identifiera sambandet mellan akustiska funktioner och känslomärken.
Justeringskomponenten, å andra sidan, är det nya lagret som forskarna introducerade (dvs. det fördröjda synkroniseringsskiktet), som tillämpar en inlärbar tidsförskjutning på en akustisk signal. Forskarna kompenserade för variationen i förseningar genom att införliva flera av dessa lager.
"En viktig utmaning för att utveckla automatiska system för att förutsäga tidskontinuerliga känslaetiketter från tal är att dessa etiketter i allmänhet inte är synkroniserade med inmatningstalet, "Khorram förklarade." Detta beror främst på förseningar som orsakas av reaktionstid, som är inneboende i mänskliga utvärderingar. I motsats till andra tillvägagångssätt, vårt konvolutionella neurala nätverk kan samtidigt anpassa och förutsäga etiketter på ett änd-till-slut-sätt. Synkroniseringsnätverk med flera fördröjningar utnyttjar traditionella koncept för signalbehandling (dvs synkroniseringsfiltrering) i moderna djupinlärningsarkitekturer för att hantera problem med reaktionsfördröjning. "
Forskarna utvärderade sin teknik i en serie experiment med två offentligt tillgängliga datamängder, nämligen RECOLA- och SEWA -datamängderna. De fann att kompensation för annotatörernas reaktionsförseningar under träning av deras känslomässiga igenkänningsmodell ledde till betydande förbättringar av modellens känslighetsigenkänningsnoggrannhet.
De observerade också att reaktionsfördröjningarna för annotatorer vid definiering av kontinuerliga känslotiketter vanligtvis inte överstiger 7,5 sekunder. Till sist, deras resultat tyder på att talord som inkluderar skratt i allmänhet kräver mindre fördröjningskomponenter jämfört med de som präglas av andra känslomässiga ledtrådar. Med andra ord, Det är ofta lättare för annotatörer att definiera känslotiketter i talsegment som inkluderar skratt.
"Känslan finns överallt och den är central för vår kommunikation, "Gräsklippare Provost sa." Vi bygger robusta och generaliserbara känslighetsigenkänningssystem så att människor enkelt kan komma åt och använda denna information. En del av detta mål uppnås genom att skapa algoritmer som effektivt kan använda stora externa datakällor, både märkta och inte, och genom att effektivt modellera den naturliga dynamiken som är en del av hur vi känslomässigt kommunicerar. Den andra delen uppnås genom att förstå all den komplexitet som finns i själva etiketterna. "
Även om klipparen Provost, Khorram och deras kollegor använde sin teknik för känslor igenkännande uppgifter, den kan också användas för att förbättra andra maskininlärningsprogram där inmatningar och utgångar inte är helt anpassade. I deras framtida arbete, forskarna planerar att fortsätta undersöka hur emotionella etiketter från mänskliga annotatorer effektivt kan integreras i data.
"Vi använde ett synkroniseringsfilter för att approximera Dirac delta -funktionen och kompensera för förseningarna. Men andra funktioner, som Gauss och triangulär, kan också användas istället för synkronkärnan, "Khorram sa." Vårt framtida arbete kommer att undersöka effekten av att använda olika typer av kärnor som kan approximera Dirac delta -funktionen. Dessutom, i detta dokument fokuserade vi på talmodalitet för att förutsäga kontinuerliga känslomeddelanden, medan det föreslagna synkroniseringsnätet med flera fördröjningar också är en rimlig modelleringsteknik för andra ingångsmetoder. En annan framtidsplan är att utvärdera det föreslagna nätverkets prestanda jämfört med andra fysiologiska och beteendemässiga metoder såsom:video, kroppsspråk och EEG. "
© 2019 Science X Network