• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Känsloigenkänning baserat på paralingvistisk information

    Exempelspektrogram från var och en av de fyra inkluderade klasserna. Kredit:Papakostas et al.

    Forskare vid University of Texas i Arlington har nyligen utforskat användningen av maskininlärning för att känna igen känslor enbart baserat på paralingvistisk information. Paralingvistik är aspekter av talad kommunikation som inte involverar ord, såsom tonhöjd, volym, intonation, etc.

    De senaste framstegen inom maskininlärning har lett till utvecklingen av verktyg som kan känna igen emotionella tillstånd genom att analysera bilder, röstinspelningar, elektroencefalogram eller elektrokardiogram. Dessa verktyg kan ha flera intressanta tillämpningar, till exempel, möjliggör effektivare interaktioner mellan människa och dator där en dator känner igen och reagerar på en mänsklig användares känslor.

    "I allmänhet, man kan hävda att tal bär två distinkta typer av information:explicit eller språklig information, som gäller artikulerade mönster av talaren; och implicit eller paralingvistisk information, som gäller variationen i uttalet av de språkliga mönstren, " skrev forskarna i sin tidning, publiceras i Framsteg inom experimentell medicin och biologi bokserie. "Använda en eller båda typerna av information, man kan försöka klassificera ett ljudsegment som består av tal, baserat på den eller de känslor den bär. Dock, Känsloigenkänning från tal verkar vara en mycket svår uppgift även för en människa, oavsett om han/hon är expert på detta område (t.ex. en psykolog)."

    Många befintliga metoder för automatisk taligenkänning (ASR) försöker känna igen känslor från tal genom att analysera både språklig och paralingvistisk information. Genom att delvis fokusera på språkliga egenskaper, dessa modeller har flera nackdelar, som ett strikt språkberoende. Forskarna bestämde sig därför för att fokusera på känslomässig igenkänning endast baserat på analys av paralingvistisk information, med hopp om att uppnå flerspråkig känslomässig igenkänning.

    "I det här pappret, vi strävar efter att analysera talarens känslor baserat enbart på paralingvistisk information, " skrev forskarna i sin uppsats. "Vi jämför två metoder för maskininlärning, nämligen ett konvolutionellt neuralt nätverk (CNN) och en stödvektormaskin (SVM)."

    Forskarna tränade en CNN-modell på råspektrogram och en SVM-modell på en uppsättning funktioner på låg nivå. Båda modellerna tränades och utvärderades med hjälp av tre allmänt kända datauppsättningar för emotionellt tal:EMOVO, SAVEE, och EMO-DB. Dessa datauppsättningar innehåller känslomässiga talinspelningar på olika språk — italienska, engelska respektive tyska.

    De två maskininlärningsmodellerna tränades för att känna igen fyra vanliga känsloklasser:lycka, sorg, ilska och neutral. Forskarna genomförde tre experiment för varje maskininlärningsmetod, där ett enda dataset användes för testning och de återstående två för utbildning.

    "En stor svårighet till följd av valet av datauppsättningar är den stora skillnaden mellan språk, eftersom förutom de språkliga skillnaderna, det finns också en stor variation i hur varje känsla uttrycks, " skrev forskarna i sin uppsats.

    Övergripande, de fann att SVM presterade mycket bättre än CNN, uppnå de bästa resultaten när de tränas i SAVEE- och EMOVO-datauppsättningarna, men testad på EMO-DB. Dessa resultat var lovande men inte optimala, vilket tyder på att vi fortfarande är långt ifrån att uppnå konsekvent effektiv flerspråkig känslout igenkänning.

    "Våra planer för framtida arbete inkluderar användningen av fler datamängder för utbildning och utvärdering, " skrev forskarna i sin uppsats. "Vi siktar också på att undersöka andra förutbildade nätverk för djupinlärning, eftersom vi känner att djupinlärning avsevärt kan bidra till problemet. Till sist, bland våra planer är att tillämpa sådana tillvägagångssätt på verkliga problem, t.ex. känsla igenkänning inom tränings- och/eller utbildningsprogram."

    © 2018 Science X Network




    © Vetenskap https://sv.scienceaq.com