Ett exempel på hur en Amazon Alexa kan bestämma en persons plats i ett hem. Kredit:Romit Roy Chowdhury
Smarta högtalare – tänk, en Amazon Alexa eller en Google Home – erbjuder en mängd olika funktioner för att frigöra både vår tid och våra händer. Vi kan höra morgonnyheterna medan vi borstar tänderna, be om en väderrapport när du väljer en kappa, och ställ in en timer för ugnen medan du hanterar två varma kastruller samtidigt. Enligt Voicebot.ai, Alexa stöder mer än 100, 000 färdigheter över hela världen, men en uppgift som den inte har behärskat är att bestämma användarens plats i hemmet.
Denna lokaliseringsuppgift var i fokus för en forskargrupp från University of Illinois i Urbana-Champaigns nyligen publicerade artikel, "Röstlokalisering med hjälp av närliggande väggreflektioner." Arbetet antogs till den 26:e årliga internationella konferensen om mobil datoranvändning och nätverk. I tidningen, teamet – som leds av Coordinated Science Lab-studenten Sheng Shen – utforskar utvecklingen av VoLoc, ett system som använder mikrofongruppen på Alexa, såväl som rumsekon av den mänskliga rösten, för att härleda användarens plats i hemmet.
Att känna till en användares plats i ett hem kan hjälpa en smart enhet att bättre stödja de färdigheter som finns tillgängliga. Till exempel, efter att ha tagit emot kommandon som "tänd ljuset" eller "öka temperaturen, " Alexa måste för närvarande gissa vilket ljus och vilket rum som är kärnan i kommandot. Genom att använda en teknik som kallas omvänd triangulering, Shen och rådgivare Romit Roy Choudhury närmar sig röstlokalisering.
"Att tillämpa denna teknik på smarta högtalare innebär en hel del utmaningar, " delade Shen, en el- och datateknikstudent (ECE). "Först, vi måste skilja den direkta mänskliga rösten och varje rums ekon från mikrofoninspelningen. Sedan, vi måste noggrant beräkna riktningen för vart och ett av dessa ekon. Båda utmaningarna är svåra eftersom mikrofonerna helt enkelt spelar in en blandning av alla ljud totalt."
VoLoc adresserar dessa hinder genom en "align-and-cancel-algoritm" som iterativt isolerar riktningarna för var och en av de ankommande röstsignalerna, och från dem, omvänd triangulerar användarens plats. Vissa aspekter av rummets geometri lär sig spontant, vilket sedan hjälper till med trianguleringen. Även om detta är ett viktigt genombrott, Shen och Roy Choudhury planerar att utöka forskningen till fler applikationer snart.
"Vårt omedelbara nästa steg är att bygga efter den smarta högtalarens referensram, ", förklarade Shen. "Detta kan innebära att placera platserna ovanpå, som tillhandahålls av VoLoc, på en planlösning för att fastställa att användaren befinner sig i tvättstugan. Alternativt om den smarta högtalaren fångar upp ljudet från tvättmaskinen och torktumlaren på samma plats som röstkommandot, det kan komma till samma slutsats."
Möjligheterna med denna funktion är till synes oändliga och kan förbättra Alexas nuvarande förmågor.
"Konsekvenserna är viktiga, " sa Roy Choudhury, en CSL-professor och W.J. "Jerry" Sanders III—Advanced Micro Devices, Inc. Forskare i elektro- och datateknik. "Plats kan hjälpa Alexa att förbättra taligenkänning, eftersom olika talvokabulärer och modeller kan laddas. Till exempel, ett kommando som "lägg till brådskande till inköpslistan" kanske inte är vettigt, men om Alexa vet att användaren är i tvättstugan, Alexa kanske kan dra slutsatsen att användaren faktiskt sa "lägg till tvättmedel på inköpslistan".
Shen och Roy Choudhury erkänner att tekniken ytterligare kan urholka integriteten, genom att tillåta företag som Amazon och Google att titta närmare in i våra hem och dagliga liv. Dock, de tror också att fördelarna är avgörande, eftersom sammanhangsmedvetna smarta enheter kan bli avgörande stödjande tekniker för seniorers självständiga liv och mer.
Till exempel, tekniken kan användas för att påminna en farförälder som bor självständigt att ta sin medicin när han eller hon passerar medicinskåpet, eller för att påminna ett barn om att stänga av kranen när de springer ut ur badrummet med den fortfarande igång.
"Det är mer än att tolka röstkommandon, ", sa Shen. "Det ger en extra uppsättning ögon när det gäller att ta hand om nära och kära också."