Forskare från Carnegie Mellon University har utvecklat en metod som gör det möjligt för smarta enheter att ta reda på var de är och vad människor gör runt dem genom att analysera ljud från deras mikrofoner. Kredit:Carnegie Mellon University
Smarta enheter kan verka dumma om de inte förstår var de är eller vad människor runt omkring dem gör. Carnegie Mellon University forskare säger att denna miljömedvetenhet kan förbättras genom kompletterande metoder för att analysera ljud och vibrationer.
"En smart högtalare som sitter på en köksbänk kan inte ta reda på om den är i ett kök, än mindre veta vad en person gör i ett kök, sa Chris Harrison, biträdande professor i CMU:s Human-Computer Interaction Institute (HCII). "Men om dessa enheter förstod vad som hände runt dem, de skulle kunna vara mycket mer hjälpsamma."
Harrison och kollegor i Future Interfaces Group kommer idag att rapportera på Association for Computing Machinery's User Interface Software and Technology Symposium i Berlin om två tillvägagångssätt för detta problem - en som använder de mest allestädes närvarande sensorerna, mikrofonen, och en annan som använder en modern version av avlyssningsteknik som användes av KGB på 1950-talet.
I det första fallet, forskarna har försökt utveckla ett ljudbaserat aktivitetsigenkänningssystem, kallas Ubikustik. Detta system skulle använda de befintliga mikrofonerna i smarta högtalare, smartphones och smartklockor, gör det möjligt för dem att känna igen ljud associerade med platser, som sovrum, kök, workshops, entréer och kontor.
Forskare från Carnegie Mellon University använder laservibrometri - en metod som liknar en som en gång användes av KGB för avlyssning - för att övervaka vibrationer och rörelser av föremål, gör det möjligt för smarta enheter att vara medvetna om mänsklig aktivitet. Kredit:Carnegie Mellon University
"Huvudidén här är att utnyttja de professionella ljudeffektbiblioteken som vanligtvis används i underhållningsindustrin, sade Gierad Laput, en doktorsexamen student i HCII. "De är rena, rätt märkt, välsegmenterad och mångsidig. Plus, vi kan omvandla och projicera dem till hundratals olika varianter, skapa volymer av data som är perfekta för att träna modeller för djupinlärning.
"Det här systemet skulle kunna distribueras till en befintlig enhet som en mjukvaruuppdatering och fungera omedelbart, " han lade till.
Plug-and-play-systemet kan fungera i vilken miljö som helst. Det kan varna användaren när någon knackar på ytterdörren, till exempel, eller gå till nästa steg i ett recept när det upptäcker en aktivitet, som att köra en mixer eller hugga.
Forskarna, inklusive Karan Ahuja, en doktorsexamen student i HCII, och Mayank Goel, biträdande professor vid Institutet för mjukvaruforskning, började med en befintlig modell för att märka ljud och ställde in den med ljudeffekter från de professionella biblioteken, som köksmaskiner, elverktyg, hårtorkar, tangentbord och andra kontextspecifika ljud. De ändrade sedan syntetiskt ljuden för att skapa hundratals varianter.
Laput sa att det är en utmaning att känna igen ljud och placera dem i rätt sammanhang. delvis för att flera ljud ofta är närvarande och kan störa varandra. I sina tester, Ubikustik hade en noggrannhet på cirka 80 procent – konkurrenskraftig med mänsklig noggrannhet, men ännu inte tillräckligt bra för att stödja användarprogram. Bättre mikrofoner, högre samplingsfrekvens och olika modellarkitekturer kan alla öka noggrannheten med ytterligare forskning.
En video som förklarar Ubicoustics:
I en separat tidning, HCII Ph.D. student Yang Zhang, tillsammans med Laput och Harrison, beskriv vad de kallar Vibrosight, som kan upptäcka vibrationer på specifika platser i ett rum med hjälp av laservibrometri. Det liknar de ljusbaserade enheter som KGB en gång använde för att upptäcka vibrationer på reflekterande ytor som fönster, så att de kan lyssna på konversationerna som genererade vibrationerna.
"Det coola med vibrationer är att det är en biprodukt av de flesta mänskliga aktiviteter, " sa Zhang. Springer på ett löpband, att slå en hammare eller att skriva på ett tangentbord skapar alla vibrationer som kan upptäckas på avstånd. "Det andra coola är att vibrationer är lokaliserade till en yta, tillade han. Till skillnad från mikrofoner, vibrationerna från en aktivitet stör inte vibrationer från en annan. Och till skillnad från mikrofoner och kameror, övervakning av vibrationer på specifika platser gör denna teknik diskret och bevarar integriteten.
Denna metod kräver en speciell sensor, en lågeffektlaser kombinerad med en motoriserad, styrbar spegel. Forskarna byggde sin experimentella enhet för cirka 80 dollar. Reflekterande taggar - samma material som används för att göra cyklar och fotgängare mer synliga på natten - appliceras på föremålen som ska övervakas. Sensorn kan monteras i ett hörn av ett rum och kan övervaka vibrationer för flera föremål.
Zhang sa att sensorn kan upptäcka om en enhet är på eller av med 98 procents noggrannhet och identifiera enheten med 92 procents noggrannhet, baserat på objektets vibrationsprofil. Den kan också upptäcka rörelser, som en stol när någon sitter i den, och den vet när någon har blockerat sensorns syn på en tagg, som när någon använder ett handfat eller en ögonspolningsstation.
En video som förklarar Vibrosight: