• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Konstgjorda neurala nätverk gör livet enklare för hörapparatanvändare

    Kredit:Oticon

    För personer med hörselnedsättning, det kan mycket svårt att förstå och separera röster i bullriga miljöer. Detta problem kan snart vara historia tack vare en ny banbrytande algoritm som är designad för att känna igen och separera röster effektivt i okända ljudmiljöer.

    Personer med normal hörsel kan vanligtvis förstå varandra utan ansträngning när de kommunicerar i bullriga miljöer. Dock, för personer med hörselnedsättning, det är mycket utmanande att förstå och separera röster i bullriga miljöer, och en hörapparat kan verkligen hjälpa. Men det finns fortfarande en bit kvar när det gäller allmän ljudbehandling i hörapparater, förklarar Morten Kolbæk:

    "När scenariot är känt i förväg, som i vissa kliniska testuppsättningar, befintliga algoritmer kan redan slå mänskliga prestationer när det gäller att känna igen och särskilja högtalare. Dock, i normala lyssningssituationer utan några förkunskaper, den mänskliga hörselhjärnan förblir den bästa maskinen."

    Men det är precis vad Morten Kolbæk har arbetat med att förändra med sin nya algoritm.

    "På grund av dess förmåga att fungera i okända miljöer med okända röster, tillämpbarheten av denna algoritm är så mycket starkare än vad vi har sett med tidigare teknik. Det är ett viktigt steg framåt när det gäller att lösa utmanande lyssningssituationer i vardagen, säger en av Morten Kolbæks två handledare, Jesper Jensen, Seniorforskare vid Oticon och professor vid Center for Acoustic Signal Processing Research (CASPR) vid AAU.

    Professor Zheng-Hua Tan, som också är ansluten till CASPR och handledare för projektet, håller med om algoritmens stora potential inom sund forskning.

    "Nyckeln till framgång för denna algoritm är dess förmåga att lära av data och sedan konstruera kraftfulla statistiska modeller som kan representera komplexa lyssningssituationer. Detta leder till lösningar som fungerar mycket bra även i nya och okända lyssningssituationer, " förklarar Zheng-Hua Tan.

    Brusreducering och talseparation

    Specifikt, Morten Kolbæks Ph.D. Projektet har behandlat två olika men välkända lyssningsscenarier.

    Det första spåret går ut på att lösa utmaningarna med en-till-en-konversationer i bullriga utrymmen som bilhytter. Hörapparatanvändare möter sådana utmaningar regelbundet.

    "För att lösa dem, vi har utvecklat algoritmer som kan förstärka ljudet från högtalaren samtidigt som bruset reduceras avsevärt utan några förkunskaper om lyssningssituationen. Nuvarande hörapparater är förprogrammerade för ett antal olika situationer, men i verkligheten, miljön förändras ständigt och kräver en hörapparat som kan läsa den specifika situationen direkt, " förklarar Morten Kolbæk.

    Demo av ett talförbättrings- och separationssystem med en mikrofon baserat på djupinlärning. Systemet tränas med hjälp av permutationsinvariant träning på yttringsnivå (uPIT) och systemet är talaroberoende. Det är, högtalarna i demot har inte "setts" av systemet under träningen. Vidare, systemet är designat för att hantera upp till tre högtalare och behöver inte ha kunskap om antalet högtalare vid testtillfället. Med andra ord, systemet identifierar automatiskt antalet högtalare i ingången. Kredit:Oticon

    Det andra spåret i projektet kretsar kring talseparation. Detta scenario involverar flera talare, och hörapparatanvändaren kan vara intresserad av att höra några eller alla av dem. Lösningen är en algoritm som kan separera röster samtidigt som bruset minskar. Detta spår kan betraktas som en förlängning av det första spåret, men nu med två eller flera röster.

    "Man kan säga att Morten kom på det genom att justera några saker här och där, Algoritmen fungerar med flera okända högtalare i bullriga miljöer. Mortens båda forskningsspår är betydelsefulla och har väckt stor uppmärksamhet, säger Jesper Jensen.

    Djupa neurala nätverk

    Metoden som används för att skapa algoritmerna kallas "djup inlärning, " som faller under kategorin maskininlärning. Mer specifikt, Morten Kolbæk har arbetat med djupa neurala nätverk, en typ av algoritm som du tränar genom att ge den exempel på de signaler den kommer att stöta på i den verkliga världen.

    "Om, till exempel, vi pratar om tal-i-brus, du förser algoritmen med ett exempel på en röst i en bullrig miljö och en på rösten utan brus. På det här sättet, Algoritmen lär sig hur den brusiga signalen ska behandlas för att uppnå en tydlig röstsignal. Du matar nätverket med tusentals exempel, och under denna process, den kommer att lära sig hur man bearbetar en given röst i en realistisk miljö, " förklarar Jesper Jensen.

    "Kraften med djupinlärning kommer från dess hierarkiska struktur som kan omvandla brusiga eller blandade röstsignaler till rena eller separerade röster genom lager-för-lager-bearbetning. Den utbredda användningen av djupinlärning idag beror på tre huvudfaktorer:alltid- öka beräkningskraften, ökande mängd big data för träningsalgoritmer och nya metoder för att träna djupa neurala nätverk, säger Zheng-Hua Tan.

    En dator bakom örat

    En sak är att utveckla algoritmen, en annan är att få det att fungera i en verklig hörapparat. För närvarande, Morten Kolbæks algoritm för talseparation fungerar bara i större skala.

    "När det kommer till hörapparater, utmaningen är alltid att få tekniken att fungera på en liten dator bakom örat. Och just nu, Mortens algoritm kräver för mycket utrymme för detta. Även om Mortens algoritm kan separera flera okända röster från varandra, den kan inte välja vilken röst som ska presenteras för hörapparatanvändaren. Så det finns några praktiska problem som vi måste lösa innan vi kan introducera det i en hörapparatlösning. Dock, det viktigaste är att dessa frågor nu verkar lösa."

    Cocktailpartyfenomenet

    Personer med normal hörsel är ofta kapabla att fokusera på en talare av intresse, även i akustiskt svåra situationer där andra människor talar samtidigt. Känt som cocktailpartyfenomenet, problemet har genererat ett mycket aktivt forskningsområde om hur den mänskliga hjärnan kan lösa detta problem så bra. Med denna Ph.D. projekt, vi är ett steg närmare mot att lösa detta problem, Jesper Jensen förklarar:

    "Man hör ibland att cocktailpartyproblemet är löst. Så är det inte ännu. Om miljön och rösterna är helt okända, vilket ofta är fallet i den verkliga världen, nuvarande teknik kan helt enkelt inte matcha den mänskliga hjärnan som fungerar extremt bra i okända miljöer. Men Mortens algoritm är ett stort steg mot att få maskiner att fungera och hjälpa människor med normal hörsel och de med hörselnedsättning i sådana miljöer, " han säger.


    © Vetenskap https://sv.scienceaq.com