MIT-forskare har utvecklat en neural-nätverksmodell som kan analysera rå text- och ljuddata från intervjuer för att upptäcka talmönster som tyder på depression. Denna metod skulle kunna användas för att utveckla diagnostiska hjälpmedel för läkare som kan upptäcka tecken på depression i naturliga samtal. Kredit:Massachusetts Institute of Technology
För att diagnostisera depression, läkare intervjuar patienter, ställa specifika frågor – om, säga, tidigare psykiska sjukdomar, livsstil, och humör – och identifiera tillståndet baserat på patientens svar.
På senare år har maskininlärning har förespråkats som ett användbart hjälpmedel för diagnostik. Maskinlärande modeller, till exempel, har utvecklats som kan upptäcka ord och intonationer i tal som kan tyda på depression. Men dessa modeller tenderar att förutsäga att en person är deprimerad eller inte, utifrån personens specifika svar på specifika frågor. Dessa metoder är korrekta, men deras beroende av typen av fråga som ställs begränsar hur och var de kan användas.
I ett dokument som presenterades på Interspeech-konferensen, MIT-forskare beskriver en neural-nätverksmodell som kan släppas lös på rå text- och ljuddata från intervjuer för att upptäcka talmönster som tyder på depression. Med tanke på ett nytt ämne, den kan exakt förutsäga om individen är deprimerad, utan att behöva någon annan information om frågorna och svaren.
Forskarna hoppas att denna metod kan användas för att utveckla verktyg för att upptäcka tecken på depression i naturliga samtal. I framtiden, modellen kunde, till exempel, kraftfulla mobilappar som övervakar en användares text och röst för psykisk ångest och skickar varningar. Detta kan vara särskilt användbart för dem som inte kan komma till en läkare för en första diagnos, på grund av avstånd, kosta, eller bristande medvetenhet om att något kan vara fel.
"De första tipsen vi har om att en person är lycklig, upphetsad, ledsen, eller har något allvarligt kognitivt tillstånd, som depression, är genom deras tal, " säger första författaren Tuka Alhanai, en forskare vid datavetenskap och artificiell intelligens Laboratory (CSAIL). "Om du vill distribuera [depression-detektion]-modeller på ett skalbart sätt ... du vill minimera mängden begränsningar du har på den data du använder. Du vill distribuera den i en vanlig konversation och få modellen att plocka upp, från den naturliga interaktionen, individens tillstånd."
Tekniken kunde fortfarande självklart, användas för att identifiera psykisk ångest i tillfälliga samtal på kliniska kontor, tillägger medförfattaren James Glass, senior forskare inom CSAIL. "Varje patient kommer att prata olika, och om modellen ser förändringar kanske det kommer att vara en flagga för läkarna, " säger han. "Detta är ett steg framåt för att se om vi kan göra något hjälpsamt för att hjälpa kliniker."
Den andra medförfattaren på tidningen är Mohammad Ghassemi, medlem av Institutet för medicinsk teknik och vetenskap (IMES).
Kontextfri modellering
Den viktigaste innovationen i modellen ligger i dess förmåga att upptäcka mönster som tyder på depression, och sedan kartlägga dessa mönster till nya individer, utan ytterligare information. "Vi kallar det "kontextfritt, ' eftersom du inte sätter några begränsningar för vilka typer av frågor du letar efter och typen av svar på dessa frågor, " säger Alhanai.
Andra modeller är försedda med en specifik uppsättning frågor, och sedan ges exempel på hur en person utan depression reagerar och exempel på hur en person med depression reagerar – till exempel, den enkla undersökningen, "Har du en historia av depression?" Den använder de exakta svaren för att sedan avgöra om en ny individ är deprimerad när den ställs exakt samma fråga. "Men det är inte så naturliga samtal fungerar, " säger Alhanai.
Forskarna, å andra sidan, använde en teknik som kallas sekvensmodellering, används ofta för talbehandling. Med denna teknik, de matade modellsekvenserna av text- och ljuddata från frågor och svar, från både deprimerade och icke-deprimerade individer, en och en. När sekvenserna ackumulerades, modellen extraherade talmönster som uppstod för personer med eller utan depression. Ord som, säga, "ledsen, " "lågt, " eller "nedåt, " kan paras ihop med ljudsignaler som är plattare och mer monotona. Individer med depression kan också prata långsammare och använda längre pauser mellan orden. Dessa text- och ljudidentifierare för psykisk ångest har utforskats i tidigare forskning. Det var till slut upp till modellen för att avgöra om några mönster var förutsägande för depression eller inte.
"Modellen ser sekvenser av ord eller talstil, och fastställer att dessa mönster är mer benägna att ses hos personer som är deprimerade eller inte deprimerade, " Alhanai säger. "Då, om den ser samma sekvenser i nya ämnen, det kan förutsäga om de också är deprimerade."
Denna sekvenseringsteknik hjälper också modellen att se på samtalet som en helhet och notera skillnader mellan hur personer med och utan depression talar över tid.
Upptäcker depression
Forskarna tränade och testade sin modell på en datauppsättning med 142 interaktioner från Distress Analysis Interview Corpus som innehåller ljud, text, och videointervjuer av patienter med psykiska problem och virtuella agenter som kontrolleras av människor. Varje ämne bedöms i termer av depression på en skala mellan 0 och 27, med hjälp av enkäten om personlig hälsa. Poäng över en gräns mellan måttlig (10 till 14) och måttligt svår (15 till 19) anses vara deprimerad, medan alla andra under den tröskeln inte anses vara deprimerade. Av alla ämnen i datamängden, 28 (20 procent) betecknas som deprimerade.
I experiment, modellen utvärderades med hjälp av precisions- och återkallningsmått. Precisionsmätningar vilka av de deprimerade försökspersonerna som identifierats av modellen som diagnostiserades som deprimerade. Recall mäter modellens noggrannhet när det gäller att detektera alla försökspersoner som diagnostiserades som deprimerade i hela datasetet. I precision, modellen fick 71 procent och, vid återkallelse, fick 83 procent. Det genomsnittliga kombinerade resultatet för dessa mätvärden, med tanke på eventuella fel, var 77 procent. I de flesta tester, forskarnas modell överträffade nästan alla andra modeller.
En viktig insikt från forskningen, Alhanai noterar, är det, under experiment, the model needed much more data to predict depression from audio than text. With text, the model can accurately detect depression using an average of seven question-answer sequences. With audio, the model needed around 30 sequences. "That implies that the patterns in words people use that are predictive of depression happen in shorter time span in text than in audio, " Alhanai says. Such insights could help the MIT researchers, och andra, further refine their models.
This work represents a "very encouraging" pilot, Glass says. But now the researchers seek to discover what specific patterns the model identifies across scores of raw data. "Right now it's a bit of a black box, " Glass says. "These systems, dock, are more believable when you have an explanation of what they're picking up. … The next challenge is finding out what data it's seized upon."
The researchers also aim to test these methods on additional data from many more subjects with other cognitive conditions, such as dementia. "It's not so much detecting depression, but it's a similar concept of evaluating, from an everyday signal in speech, if someone has cognitive impairment or not, " Alhanai says.
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.