Forskarna kan dölja hemliga meddelanden för röstassistenter i vilken ljudfil som helst, de inklusive tal, musik och omgivningsljud – t.ex. fåglarnas kvittrande. Kredit:Roberto Schirdewahn
En attack mot taligenkänningssystem med manipulerade ljudfiler fungerade tidigare endast via ett datagränssnitt. Nu, allt som krävs är att spela upp de hemliga meddelandena via högtalare.
Forskare kan dölja röstkommandon för maskiner som är ohörbara för det mänskliga örat i alla ljudfiler. Taligenkänningssystem förstår dessa kommandon mycket väl. I september 2018, Forskare från Horst Görtz-institutet för IT-säkerhet vid Ruhr-Universität Bochum rapporterade sådana attacker mot taligenkänningssystemet Kaldi, som är integrerad i Alexa. Ursprungligen, dessa så kallade kontradiktoriska exempel kunde endast utföras via ett datagränssnitt; i dag, de fungerar perfekt över luften. En detaljerad artikel om dessa attacker och potentiella motåtgärder finns i Bochums vetenskapstidskrift Rubin.
För att integrera hemliga meddelanden i ljudfiler, forskarna drar fördel av den psykoakustiska modellen för hörsel. "Så länge örat är upptaget med att bearbeta ett ljud vid en specifik frekvens, människor är oförmögna att höra andra ljud med låg volym under några millisekunder, " förklarar Lea Schönherr från forskargruppen Cognitive Signal Processing, ledd av professor Dorothea Kolossa. Dessa frekvenser är där forskare gömmer de hemliga kommandona för maskiner. För det mänskliga örat, den ytterligare informationen låter som slumpmässigt statiskt brus; men det ändrar innebörden av meddelandet för röstassistenten.
Med tanke på rummet
Ursprungligen, attacken kunde endast utföras direkt via datagränssnittet; i dag, högtalare duger. Det här är mer komplicerat, eftersom ljudet påverkas av rummet där filen spelas. Följaktligen, när du skapar manipulerade ljudfiler, Lea Schönherr tar hänsyn till den så kallade rumsimpulsresponsen. Den beskriver hur ett rum reflekterar och förändrar ljudet. Rumsimpulssvar kan simuleras med hjälp av dedikerade datorprogram.
"Attacken kan skräddarsys till en specifik rumsinställning där den spelas, ", utarbetar kommunikationsingenjören. "Men, vi har nyligen utfört en generisk attack, som inte behöver någon förhandsinformation om rummet, men fungerar fortfarande lika bra eller till och med bättre över luften." I framtiden, forskarna planerar att göra tester med röstassistenter som finns på marknaden.
Att täppa till säkerhetsluckan
Eftersom taligenkänningssystem för närvarande inte används i några säkerhetskritiska applikationer utan främst används för bekvämlighet, motstridiga exempel kan inte göra mycket skada ännu. Därför, det finns fortfarande tid att stänga denna säkerhetslucka, enligt forskarna från Bochum. I Cluster of Excellence Casa, förkortning för Cyber Security in the Age of Large-Scale Adversaries, forskargruppen Cognitive Signal Processing, som utvecklade attackerna, samarbetar med ordföranden för systemsäkerhet under ledning av professor Thorsten Holz, vars team utformar motåtgärderna.
MP3-principen som motåtgärd
IT-säkerhetsforskaren Thorsten Eisenhofer har för avsikt att lära taligenkänningssystemet att eliminera alla intervall i ljudsignalerna som är ohörbara för människor och att bara höra resten. "Vi kan inte förhindra att ljudfiler manipuleras av angripare, " säger han. Hans mål är att snarare tvinga en angripare att placera manipulationen i hörbara områden; alltså, attacker kunde inte längre lätt döljas. Eisenhofer använder MP3-principen för detta ändamål.
MP3-filer komprimeras genom att radera alla intervall som är ohörbara för människor – och det är detta som försvarsstrategin mot motstridiga exempel syftar till. Följaktligen, Eisenhofer kombinerade Kaldi med en MP3-kodare som rensar upp ljudfilerna innan de når taligenkänningssystemet. Testerna har visat att Kaldi verkligen inte längre förstod de hemliga meddelandena, såvida de inte flyttades till den mänskliga hörselområdet. "Vid denna punkt, ljudfilerna ändrades avsevärt, " förklarar Thorsten Eisenhofer. "Statiken i vilken de hemliga kommandona är gömda kunde höras tydligt."