Nästa generations hörapparater kunde läsa läppar genom masker

Konceptuell illustration av det föreslagna ramverket för läppläsning. Ramverket använder Wi-Fi och radarteknologier som möjliggör RF-avkänningsbaserad läppläsning. En datauppsättning bestående av vokalerna A, E, I, O, U och tomma (statiska/stängda läppar) samlas in med hjälp av båda teknikerna, med en ansiktsmask. Den insamlade datan används för att träna ML- och DL-modeller. Kredit:Nature Communications (2022). DOI:10.1038/41467-022-32231-1. https://www.nature.com/articles/s41467-022-32231-1

Ett nytt system som kan läsa läppar med enastående noggrannhet även när högtalarna bär ansiktsmasker kan bidra till att skapa en ny generation hörapparater.

Ett internationellt team av ingenjörer och dataforskare utvecklade tekniken, som för första gången parar radiofrekvensavkänning med artificiell intelligens för att identifiera läpprörelser.

Systemet, när det integreras med konventionell hörapparatteknik, kan hjälpa till att ta itu med "cocktailpartyeffekten", en vanlig brist hos traditionella hörapparater.

För närvarande hjälper hörapparater hörselskadade personer genom att förstärka alla omgivande ljud runt dem, vilket kan vara till hjälp i många aspekter av vardagen.

Men i bullriga situationer som cocktailpartyn kan hörapparaters breda spektrum av förstärkning göra det svårt för användare att fokusera på specifika ljud, som samtal med en viss person.

En potentiell lösning på cocktailpartyeffekten är att göra "smarta" hörapparater, som kombinerar konventionell ljudförstärkning med en andra enhet för att samla in ytterligare data för förbättrad prestanda.

Medan andra forskare har haft framgång med att använda kameror för att hjälpa till med läppläsning, väcker det att samla in videofilmer av människor utan deras uttryckliga samtycke oro för individens integritet. Kameror kan inte heller läsa läppar genom masker, en vardaglig utmaning för människor som bär ansiktsskydd för kulturella eller religiösa ändamål och en bredare fråga i en ålder av covid-19.

I en ny artikel publicerad idag i tidskriften Nature Communications , det team som leds av University of Glasgow beskriver hur de satte sig för att utnyttja den senaste avkänningstekniken för att läsa läppar. Deras system bevarar integriteten genom att endast samla in radiofrekvensdata, utan medföljande videofilmer.

För att utveckla systemet bad forskarna manliga och kvinnliga frivilliga att upprepa de fem vokalljuden (A, E, I, O och U) först medan de var omaskerade och sedan med en kirurgisk mask.

När volontärerna upprepade vokalljuden skannades deras ansikten med hjälp av radiofrekvenssignaler från både en dedikerad radarsensor och en wifi-sändare. Deras ansikten skannades också medan deras läppar förblev stilla.

Sedan användes de 3 600 dataproverna som samlades in under skanningarna för att "lära" maskininlärning och algoritmer för djupinlärning hur man känner igen de karakteristiska läpp- och munrörelserna förknippade med varje vokalljud.

Eftersom radiofrekvenssignalerna lätt kan passera genom frivilligas masker, kan algoritmerna också lära sig att läsa maskerade användares vokalbildning.

Systemet visade sig vara kapabelt att korrekt läsa volontärernas läppar för det mesta. Wifi-data tolkades korrekt av inlärningsalgoritmerna upp till 95 % av tiden för omaskerade läppar och 80 % för maskerade. Samtidigt tolkades radardata korrekt upp till 91 % utan mask och 83 % av gångerna med mask.

Dr. Qammer Abbasi, vid University of Glasgows James Watt School of Engineering, är tidningens huvudförfattare. Han sa:"Omkring 5 % av världens befolkning – cirka 430 miljoner människor – har någon form av hörselnedsättning.

"Hörapparater har gett omvälvande fördelar för många hörselskadade. En ny generation av teknik som samlar in ett brett spektrum av data för att förstärka och förbättra förstärkningen av ljud kan vara ytterligare ett stort steg för att förbättra hörselskadades livskvalitet.

"With this research, we have shown that radio-frequency signals can be used to accurately read vowel sounds on people's lips, even when their mouths are covered. While the results of lip-reading with radar signals are slightly more accurate, the Wi-Fi signals also demonstrated impressive accuracy.

"Given the ubiquity and affordability of Wi-Fi technologies, the results are highly encouraging which suggests that this technique has value both as a standalone technology and as a component in future multimodal hearing aids."

Professor Muhammad Imran, head of the University of Glasgow's Communications, Sensing and Imaging research group and a co-author of the paper, added, "This technology is an outcome from two research projects funded by the Engineering and Physical Sciences Research Council (EPSRC), called COG-MHEAR and QUEST.

"Both aim to find new methods of creating the next generation of health care devices, and this development will play a major role in supporting that goal."

The team's paper, titled "Pushing the Limits of Remote RF Sensing by Reading Lips Under the Face Mask," is published in Nature Communications . + Utforska vidare