Ingenjörer översätter hjärnans signaler direkt till tal

Kredit:CC0 Public Domain

I en vetenskaplig första Columbia neuroingenjörer har skapat ett system som översätter tankar till begripliga, igenkännligt tal. Genom att övervaka någons hjärnaktivitet, Tekniken kan rekonstruera orden en person hör med oöverträffad tydlighet. Detta genombrott, som utnyttjar kraften hos talsyntes och artificiell intelligens, kan leda till nya sätt för datorer att kommunicera direkt med hjärnan. Det lägger också grunden för att hjälpa människor som inte kan tala, såsom de som lever med amyotrofisk lateralskleros (ALS) eller återhämtar sig från stroke, återfå sin förmåga att kommunicera med omvärlden.

Dessa fynd publicerades idag i Vetenskapliga rapporter .

"Våra röster hjälper oss att ansluta oss till våra vänner, familjen och världen omkring oss, det är därför det är så förödande att förlora sin röst på grund av skada eller sjukdom, sa Nima Mesgarani, Ph.D., tidningens seniorförfattare och huvudforskare vid Columbia Universitys Mortimer B. Zuckerman Mind Brain Behavior Institute. "Med dagens studie, vi har ett potentiellt sätt att återställa den kraften. Vi har visat att med rätt teknik, dessa människors tankar kunde avkodas och förstås av vilken lyssnare som helst."

Årtionden av forskning har visat att när människor pratar – eller till och med föreställer sig att de pratar – dyker det upp aktivitetsmönster i deras hjärna. Distinkta (men igenkännbara) signalmönster framträder också när vi lyssnar på någon prata, eller föreställ dig att lyssna. Experter, försöker spela in och avkoda dessa mönster, se en framtid där tankar inte behöver förbli dolda i hjärnan – utan istället kan översättas till verbalt tal efter behag.

Men det har visat sig vara utmanande att genomföra denna bedrift. Tidiga ansträngningar att avkoda hjärnsignaler av Dr Mesgarani och andra fokuserade på enkla datormodeller som analyserade spektrogram, som är visuella representationer av ljudfrekvenser.

Men eftersom detta tillvägagångssätt har misslyckats med att producera något som liknar begripligt tal, Dr Mesgaranis team vände sig istället till en vocoder, en datoralgoritm som kan syntetisera tal efter att ha tränats på inspelningar av människor som pratar.

"Detta är samma teknik som används av Amazon Echo och Apple Siri för att ge verbala svar på våra frågor, sade Dr Mesgarani, som också är docent i elektroteknik vid Columbias Fu Foundation School of Engineering and Applied Science.

En representation av tidiga metoder för att rekonstruera tal, som använder linjära modeller och spektrogram. Kredit:Nima Mesgarani/Columbias Zuckerman Institute

Att lära vocodern att tolka till hjärnaktivitet, Dr Mesgarani slog sig ihop med Ashesh Dinesh Mehta, MD, Ph.D., en neurokirurg vid Northwell Health Physician Partners Neuroscience Institute och medförfattare till dagens uppsats. Dr Mehta behandlar epilepsipatienter, av vilka några måste genomgå regelbundna operationer.

"Att arbeta med Dr Mehta, vi bad epilepsipatienter som redan genomgår hjärnoperationer att lyssna på meningar som uttalas av olika människor, medan vi mätte mönster av hjärnaktivitet, " sade Dr. Mesgarani. "Dessa neurala mönster tränade vocodern."

Nästa, forskarna bad samma patienter att lyssna på högtalare som reciterar siffror mellan 0 och 9, medan du spelar in hjärnsignaler som sedan kan köras genom vocodern. Ljudet som producerades av vocodern som svar på dessa signaler analyserades och rensades upp av neurala nätverk, en typ av artificiell intelligens som efterliknar strukturen av nervceller i den biologiska hjärnan.

Representation av Dr Mesgaranis nya tillvägagångssätt som använder en vokoder och djupt neuralt nätverk för att rekonstruera tal. Kredit:Nima Mesgarani/Columbias Zuckerman Institute

Slutresultatet var en robotljudande röst som reciterade en sekvens av nummer. För att testa inspelningens noggrannhet, Dr. Mesgarani och hans team gav individer i uppdrag att lyssna på inspelningen och rapportera vad de hörde.

"Vi fann att människor kunde förstå och upprepa ljuden ungefär 75 % av gångerna, vilket är långt utöver alla tidigare försök, " sa Dr. Mesgarani. Förbättringen i förståelighet var särskilt tydlig när man jämförde de nya inspelningarna med de tidigare, spektrogrambaserade försök. "Den känsliga vocodern och kraftfulla neurala nätverk representerade ljuden som patienterna ursprungligen hade lyssnat på med överraskande noggrannhet."

Dr Mesgarani och hans team planerar att testa mer komplicerade ord och meningar härnäst, och de vill köra samma tester på hjärnsignaler som sänds ut när en person talar eller föreställer sig att tala. I sista hand, de hoppas att deras system kan vara en del av ett implantat, liknande de som bärs av vissa epilepsipatienter, som översätter bärarens tankar direkt till ord.

"I detta scenario, om bäraren tänker "jag behöver ett glas vatten, "vårt system kan ta hjärnans signaler som genereras av den tanken, och förvandla dem till syntetiserade, verbalt tal, " sade Dr Mesgarani. "Detta skulle vara en spelförändring. Det skulle ge alla som har förlorat sin förmåga att tala, antingen genom skada eller sjukdom, den förnyade chansen att ansluta till världen omkring dem."

Denna artikel har titeln "Mot att rekonstruera begripligt tal från den mänskliga hörselbarken."

Nya analysmetoder underlättar utvärderingen av komplexa tekniska data

Windows Lite:Viskningar fokuserar på effektivisering, dikning och Windows 7-liknande komfort

Elektronik

UAE tilldelar stora raffineringskontrakt till Koreas Samsung

Ett neuralt nätverk som arbetar med ljusets hastighet

Mobilteknik kan tjäna underbanker utan kryptovaluta

Vetenskap

Migration från havsnivåhöjning kan omforma städer inåt landet

De flesta amerikaner inser inte vad företag kan förutsäga utifrån deras data

Vad du bör veta om luftkvalitetsvarningar