Forskare från MIT Media Lab har utvecklat en maskininlärningsmodell som tar datorer ett steg närmare att tolka våra känslor lika naturligt som människor gör. Modellen fångar bättre subtila ansiktsuttrycksvariationer för att bättre mäta stämningar. Genom att använda extra träningsdata, modellen kan också anpassas till en helt ny grupp människor, med samma effekt. Kredit:Massachusetts Institute of Technology
Forskare från MIT Media Lab har utvecklat en maskininlärningsmodell som tar datorer ett steg närmare att tolka våra känslor lika naturligt som människor gör.
I det växande området "affektiv datoranvändning, "robotar och datorer utvecklas för att analysera ansiktsuttryck, tolka våra känslor, och svara därefter. Tillämpningar inkluderar, till exempel, övervaka en individs hälsa och välbefinnande, mäta elevernas intresse för klassrum, hjälpa till att diagnostisera tecken på vissa sjukdomar, och utveckla hjälpsamma robotkamrater.
En utmaning, dock, uttrycker människor känslor helt olika, beroende på många faktorer. Generella skillnader kan ses mellan kulturer, kön, och åldersgrupper. Men andra skillnader är ännu mer finkorniga:tiden på dygnet, hur mycket du sovit, eller till och med din förtrogenhet med en konversationspartner leder till subtila variationer i hur du uttrycker dig, säga, lycka eller sorg i ett givet ögonblick.
Mänskliga hjärnor fångar instinktivt dessa avvikelser, men maskiner kämpar. Tekniker för djupinlärning har utvecklats under de senaste åren för att fånga upp subtiliteterna, men de är fortfarande inte så exakta eller så anpassningsbara för olika populationer som de skulle kunna vara.
Media Lab-forskarna har utvecklat en maskininlärningsmodell som överträffar traditionella system när det gäller att fånga dessa små ansiktsuttrycksvariationer, för att bättre mäta humör medan du tränar på tusentals bilder av ansikten. Dessutom, genom att använda lite extra träningsdata, modellen kan anpassas till en helt ny grupp människor, med samma effekt. Syftet är att förbättra befintliga affektiva datortekniker.
"Det här är ett diskret sätt att övervaka vårt humör, " säger Oggi Rudovic, en Media Lab-forskare och medförfattare på ett papper som beskriver modellen, som presenterades förra veckan på konferensen om maskininlärning och datautvinning. "Om du vill ha robotar med social intelligens, du måste få dem att på ett intelligent och naturligt sätt svara på våra humör och känslor, mer som människor."
Medförfattare på tidningen är:första författaren Michael Feffer, en student i elektroteknik och datavetenskap; och Rosalind Picard, professor i mediekonst och vetenskap och grundare av forskningsgruppen Affective Computing.
Personliga experter
Traditionella affektiva datormodeller använder ett "one-size-fits-all"-koncept. De tränar på en uppsättning bilder som visar olika ansiktsuttryck, optimera funktioner – som hur en läpp krullas när den ler – och kartlägga dessa allmänna funktionsoptimeringar över en hel uppsättning nya bilder.
Forskarna, istället, kombinerat en teknik, kallas "blandning av experter" (MoE), med modellanpassningstekniker, som hjälpte till att bryta mer finkorniga ansiktsuttrycksdata från individer. Detta är första gången dessa två tekniker har kombinerats för affektiv datoranvändning, säger Rudovic.
I MoEs, ett antal neurala nätverksmodeller, kallas "experter, " är var och en utbildad att specialisera sig på en separat bearbetningsuppgift och producera en utgång. Forskarna inkorporerade också ett "gating-nätverk, " som beräknar sannolikheterna för vilken expert som bäst upptäcker stämningar hos osynliga ämnen. "I grund och botten kan nätverket skilja mellan individer och säga, "Detta är rätt expert för den givna bilden, '" säger Feffer.
För deras modell, forskarna anpassade MoEs genom att matcha varje expert med en av 18 individuella videoinspelningar i RECOLA-databasen, en offentlig databas med människor som samtalar på en videochattplattform designad för affektiva datorapplikationer. De tränade modellen med nio ämnen och utvärderade dem på de andra nio, med alla videor uppdelade i individuella bildrutor.
Varje expert, och grindnätverket, spårade ansiktsuttryck hos varje individ, med hjälp av ett kvarvarande nätverk ("ResNet"), ett neuralt nätverk som används för objektklassificering. Genom att göra så, modellen poängsatte varje bildruta baserat på valensnivå (trevlig eller obehaglig) och upphetsning (spänning) – vanliga mätvärden för att koda olika känslotillstånd. Separat, sex mänskliga experter märkte varje bildruta för valens och upphetsning, baserat på en skala från -1 (låga nivåer) till 1 (höga nivåer), som modellen också använde för att träna.
Forskarna utförde sedan ytterligare modellanpassning, där de matade den tränade modelldatan från några bildrutor av de återstående videorna med försökspersoner, och testade sedan modellen på alla osynliga bildrutor från dessa videor. Resultaten visade att med bara 5 till 10 procent av data från den nya befolkningen, modellen överträffade traditionella modeller med stor marginal – vilket betyder att den fick valens och upphetsning på osynliga bilder som var mycket närmare tolkningarna av mänskliga experter.
Detta visar modellernas potential att anpassa sig från befolkning till befolkning, eller individ till individ, med väldigt få data, säger Rudovic. "Det är nyckeln, " säger han. "När du har en ny befolkning, du måste ha ett sätt att redogöra för förskjutning av datadistribution [subtila ansiktsvariationer]. Föreställ dig en modelluppsättning för att analysera ansiktsuttryck i en kultur som behöver anpassas för en annan kultur. Utan att ta hänsyn till denna dataförskjutning, dessa modeller kommer att underprestera. Men om du bara provar lite från en ny kultur för att anpassa vår modell, dessa modeller kan göra mycket bättre, speciellt på individnivå. Det är där vikten av modellanpassningen bäst kan ses."
För närvarande tillgängliga data för sådan forskning om affektiva datorer är inte särskilt olika i hudfärger, så forskarnas utbildningsdata var begränsade. Men när sådana uppgifter blir tillgängliga, modellen kan tränas för användning på fler olika populationer. Nästa steg, Feffer säger, är att träna modellen på "en mycket större datauppsättning med fler olika kulturer."
Bättre interaktion mellan maskin och människa
Ett annat mål är att träna modellen för att hjälpa datorer och robotar att automatiskt lära sig av små mängder föränderlig data för att mer naturligt upptäcka hur vi mår och bättre tillgodose mänskliga behov, säger forskarna.
Det kunde, till exempel, kör i bakgrunden på en dator eller mobil enhet för att spåra en användares videobaserade konversationer och lära dig subtila ansiktsuttrycksförändringar i olika sammanhang. "Du kan ha saker som smartphoneappar eller webbplatser som kan berätta hur människor mår och rekommendera sätt att hantera stress eller smärta, och andra saker som påverkar deras liv negativt, " säger Feffer.
Detta kan också vara till hjälp vid övervakning, säga, depression eller demens, eftersom människors ansiktsuttryck tenderar att subtilt förändras på grund av dessa förhållanden. "Att kunna passivt övervaka våra ansiktsuttryck, " säger Rudovic, "vi skulle med tiden kunna anpassa dessa modeller till användare och övervaka hur mycket avvikelser de har på daglig basis - avvikande från den genomsnittliga nivån av ansiktsuttrycksförmåga - och använda det för indikatorer på välbefinnande och hälsa."
En lovande ansökan, Rudovic säger, är interaktioner mellan människa och robot, till exempel för personlig robotik eller robotar som används för utbildningsändamål, där robotarna behöver anpassa sig för att bedöma känslotillståndet hos många olika människor. En version, till exempel, har använts för att hjälpa robotar att bättre tolka humöret hos barn med autism.
Roddy Cowie, professor emeritus i psykologi vid Queen's University Belfast och en affektiv dataforskare, säger MIT-arbetet "illustrerar var vi verkligen är" på området. "Vi går mot system som ungefär kan placera, från bilder av människors ansikten, där de ligger på skalor från mycket positiva till mycket negativa, och mycket aktiv till mycket passiv, " säger han. "Det verkar intuitivt att de känslomässiga tecknen en person ger inte är desamma som de tecken en annan ger, och därför är det mycket logiskt att känsloigenkänning fungerar bättre när det är personligt. Metoden att personifiera återspeglar en annan spännande punkt, att det är mer effektivt att utbilda flera experter, ' och sammanställer sina bedömningar, än att utbilda en enda superexpert. De två tillsammans utgör ett tillfredsställande paket."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.