Datorsystemet transkriberar ord som användare talar tyst

Arnav Kapur, en forskare i gruppen Fluid Interfaces vid MIT Media Lab, demonstrerar AlterEgo-projektet.. Kredit:Lorrie Lejeune/MIT

MIT-forskare har utvecklat ett datorgränssnitt som kan transkribera ord som användaren verbaliserar internt men som faktiskt inte talar högt.

Systemet består av en bärbar enhet och ett tillhörande datorsystem. Elektroder i enheten plockar upp neuromuskulära signaler i käken och ansiktet som utlöses av interna verbaliseringar - genom att säga ord "i ditt huvud" - men som inte går att upptäcka för det mänskliga ögat. Signalerna matas till ett maskininlärningssystem som har tränats för att korrelera specifika signaler med speciella ord.

Enheten inkluderar också ett par benledningshörlurar, som överför vibrationer genom benen i ansiktet till innerörat. Eftersom de inte blockerar hörselgången, hörlurarna gör att systemet kan förmedla information till användaren utan att avbryta samtalet eller på annat sätt störa användarens hörselupplevelse.

Enheten är alltså en del av ett komplett tyst datorsystem som låter användaren oupptäckligt posera och ta emot svar på svåra beräkningsproblem. I ett av forskarnas experiment, till exempel, försökspersoner använde systemet för att tyst rapportera motståndares drag i ett schackspel och lika tyst ta emot datorrekommenderade svar.

"Motivationen för detta var att bygga en IA-enhet - en intelligensförstärkningsenhet, säger Arnav Kapur, en doktorand vid MIT Media Lab, som ledde utvecklingen av det nya systemet. "Vår idé var:Kan vi ha en datorplattform som är mer intern, som smälter samman människa och maskin på något sätt och som känns som en intern förlängning av vår egen kognition?"

"Vi kan i princip inte leva utan våra mobiltelefoner, våra digitala enheter, säger Pattie Maes, en professor i mediekonst och vetenskap och Kapurs examensrådgivare. "Men för tillfället, användningen av dessa enheter är mycket störande. Om jag vill slå upp något som är relevant för en konversation jag har, Jag måste hitta min telefon och skriva in lösenordet och öppna en app och skriva in ett sökord, och det hela kräver att jag helt flyttar uppmärksamheten från min omgivning och människorna som jag är med till själva telefonen. Så, mina elever och jag har under mycket lång tid experimenterat med nya formfaktorer och nya typer av erfarenheter som gör att människor fortfarande kan dra nytta av all den underbara kunskap och tjänster som dessa enheter ger oss, men gör det på ett sätt som låter dem förbli i nuet."

Forskarna beskriver sin enhet i en artikel som de presenterade vid Association for Computing Machinerys ACM Intelligent User Interface-konferens. Kapur är första författare på tidningen, Maes är senior författare, och de får sällskap av Shreyas Kapur, en grundexamen i elektroteknik och datavetenskap.

Subtila signaler

Tanken att interna verbaliseringar har fysiska korrelat har funnits sedan 1800-talet, och det undersöktes på allvar på 1950-talet. Ett av målen för 1960-talets snabbläsningsrörelse var att eliminera intern verbalisering, eller "subvokalisering, "som det är känt.

Men subvokalisering som ett datorgränssnitt är till stor del outforskat. Forskarnas första steg var att fastställa vilka platser i ansiktet som är källorna till de mest tillförlitliga neuromuskulära signalerna. Så de genomförde experiment där samma försökspersoner ombads att subvokalisera samma serie av ord fyra gånger, med en uppsättning av 16 elektroder på olika ansiktsplatser varje gång.

Kredit:Massachusetts Institute of Technology

Forskarna skrev kod för att analysera de resulterande data och fann att signaler från sju specifika elektrodplatser konsekvent kunde särskilja subvokaliserade ord. I konferensdokumentet, forskarna rapporterar en prototyp av ett bärbart gränssnitt för tyst tal, som sveper sig runt nacken som ett telefonheadset och har tentakelliknande böjda bihang som nuddar ansiktet på sju ställen på vardera sidan av munnen och längs käkarna.

Men i nuvarande experiment, forskarna får jämförbara resultat med bara fyra elektroder längs en käke, vilket borde leda till en mindre påträngande bärbar enhet.

När de väl hade valt elektrodplatserna, forskarna började samla in data om några beräkningsuppgifter med begränsade ordförråd – cirka 20 ord vardera. En var aritmetik, där användaren skulle subvokalisera stora additions- eller multiplikationsproblem; en annan var schackansökan, där användaren skulle rapportera drag med det vanliga schacknumreringssystemet.

Sedan, för varje ansökan, de använde ett neuralt nätverk för att hitta korrelationer mellan särskilda neuromuskulära signaler och särskilda ord. Som de flesta neurala nätverk, den som forskarna använde är ordnad i lager av enkla bearbetningsnoder, som var och en är kopplad till flera noder i lagren ovanför och under. Data matas in i det nedre lagret, vars noder bearbetar det och skickar dem till nästa lager, vars noder bearbetar det och skickar dem till nästa lager, och så vidare. Utdata från det slutliga lagrets avkastning är resultatet av någon klassificeringsuppgift.

Den grundläggande konfigurationen av forskarnas system inkluderar ett neuralt nätverk tränat för att identifiera subvokaliserade ord från neuromuskulära signaler, men det kan anpassas till en viss användare genom en process som tränar om bara de två sista lagren.

Praktiska frågor

Genom att använda prototypen för bärbart gränssnitt, forskarna genomförde en användbarhetsstudie där 10 försökspersoner tillbringade cirka 15 minuter vardera med att anpassa aritmetikapplikationen till sin egen neurofysiologi, tillbringade sedan ytterligare 90 minuter med att använda den för att utföra beräkningar. I den studien, systemet hade en genomsnittlig transkriptionsnoggrannhet på cirka 92 procent.

Men, Kapur säger, systemets prestanda bör förbättras med mer träningsdata, som kunde samlas in under dess ordinarie användning. Även om han inte har knäckt siffrorna, han uppskattar att det bättre utbildade systemet han använder för demonstrationer har en högre noggrannhetsgrad än den som rapporterades i användbarhetsstudien.

I pågående arbete, forskarna samlar in en mängd data om mer utarbetade konversationer, i hopp om att bygga applikationer med mycket mer expansiva ordförråd. "Vi håller på att samla in data, och resultatet ser bra ut, " Säger Kapur. "Jag tror att vi kommer att uppnå fullständig konversation någon dag."

"Jag tror att de underskattar lite vad jag tror är en verklig potential för arbetet, " säger Thad Starner, professor vid Georgia Techs College of Computing. "Tycka om, säga, kontrollerar flygplanen på asfalten på Hartsfield Airport här i Atlanta. Du har jetljud runt omkring dig, du har på dig dessa stora öronskydd – skulle det inte vara bra att kommunicera med röst i en miljö där du normalt inte skulle kunna? Du kan föreställa dig alla dessa situationer där du har en bullrig miljö, som flygplansdäcket på ett hangarfartyg, eller till och med platser med mycket maskiner, som ett kraftverk eller en tryckpress. Detta är ett system som skulle vara vettigt, speciellt för att människor i dessa typer av eller situationer ofta redan bär skyddsutrustning. Till exempel, om du är en stridspilot, eller om du är brandman, du bär redan dessa masker."

"Den andra sak där detta är extremt användbart är specialoperationer, ", tillägger Starner. "Det finns många platser där det inte är en bullrig miljö utan en tyst miljö. Mycket tid, special-ops folk har handgester, men du kan inte alltid se dem. Skulle det inte vara bra att ha tyst tal för kommunikation mellan dessa människor? Den sista är människor som har funktionshinder där de inte kan uttrycka sig normalt. Till exempel, Roger Ebert hade inte förmågan att tala längre eftersom han tappade käken i cancer. Kunde han hålla den här typen av tyst tal och sedan ha en synthesizer som skulle tala orden?"

Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.

Vad gör en snabbare maskinskrivare?

Ziplines leverans drönarsystem omdesign ökar kapaciteten

Elektronik

Regnskogsbevarande genom maskininlärning

Datormodell syftar till att göra filmmanus till animationer

Amazon HQ-platser:Liknande grunder men olika vibbar

Vetenskap

Varför är Pentagon intresserad av UFO?

Topsy-turvy-rörelse skapar ljusbrytareffekt på Uranus

Enad teori förklarar två karakteristiska egenskaper hos frustrerade magneter