Projektteam från Bochum:Thorsten Holz, Lea Schönherr, Steffen Zeiler, och Dorothea Kolossa (från vänster). Kredit:RUB, Kramer
Ett team från Ruhr-Universität Bochum har lyckats integrera hemliga kommandon för taligenkänningssystem Kaldi – som tros finnas i Amazons Alexa och många andra system – i ljudfiler. Dessa är inte hörbara för det mänskliga örat, men Kaldi reagerar på dem. Forskarna visade att de kunde dölja vilken mening de gillade i olika typer av ljudsignaler, som tal, fågelkvitter, eller musik, och att Kaldi förstod dem. Resultaten publicerades på Internet av gruppen som involverade Lea Schönherr, Professor Dorothea Kolossa, och professor Thorsten Holz från Horst Görtz Institute for IT Security (adversarial-attacks.net/).
"En virtuell assistent som kan utföra onlinebeställningar är ett av många exempel där en sådan attack kan utnyttjas, "säger Thorsten Holz." Vi kan manipulera en ljudfil, till exempel en låt som spelas på radio, att innehålla ett kommando för att köpa en viss produkt."
Liknande attacker, kända som motstridiga exempel i teknisk jargong, beskrevs redan för några år sedan för programvara för bildigenkänning. De är mer komplicerade att implementera för talsignaler eftersom betydelsen av en ljudsignal bara dyker upp med tiden och blir en mening.
MP3-principen används
För att införliva kommandona i ljudsignalerna, forskarna använder den psykoakustiska modellen för hörsel, eller, mer exakt, maskeringseffekten, vilket är beroende av volym och frekvens. "När ljudsystemet är upptaget med att bearbeta ett högt ljud med en viss frekvens, vi kan inte längre uppfatta andra, tystare ljud vid denna frekvens i några millisekunder, " förklarar Dorothea Kolossa.
Detta faktum används också i MP3-format, som utelämnar ohörbara områden för att minimera filstorleken. Det var i dessa områden som forskarna gömde kommandona för röstassistenten. För människor, de tillagda komponenterna låter som slumpmässigt brus som inte eller knappt märks i den övergripande signalen. För maskinen, dock, det ändrar innebörden. Medan människan hör uttalande A, maskinen förstår uttalande B. Exempel på de manipulerade filerna och meningarna som Kaldi känner igen finns på forskarnas webbplats (adversarial-attacks.net/).
Beräkningarna för att lägga till dold information till tio sekunder av en ljudfil tar mindre än två minuter och är därmed mycket snabbare än tidigare beskrivna attacker mot taligenkänningssystem.
Jobbar ännu inte med luftburen transmission
Forskarna från Bochum har ännu inte utfört attackerna i luften; de har skickat de manipulerade ljudfilerna direkt till Kaldi som indata. I framtida studier, de vill visa att attacken också fungerar när signalen spelas genom en högtalare och når röstassistenten genom luften. "På grund av bakgrundsljudet, attacken kommer inte längre att vara lika effektiv, "Lea Schönherr misstänker." Men vi antar att det fortfarande kommer att fungera. "
Moderna taligenkänningsassistenter är baserade på så kallade djupa neurala nätverk, för vilka det för närvarande görs få försök att utveckla bevisligen säkra system. Nätverken består av flera lager; ingången, dvs ljudfilen, når det första lagret och bearbetas i de djupare lagren. Det sista lagret genererar utdata, i detta fall den erkända meningen. "Funktionen hos de dolda lagren mellan input och output, som kan utnyttjas av en angripare, är inte tillräckligt specificerad i många applikationer, säger Dorothea Kolossa.
Inget effektivt skydd än så länge
Syftet med forskningen är att göra taligenkänningsassistenter mer robusta mot attacker på lång sikt. För attacken som presenteras här, det är tänkbart att systemen skulle kunna beräkna vilka delar av en ljudsignal som är ohörbara för människor och ta bort dem. "Dock, det finns säkert andra sätt att dölja de hemliga kommandona i filerna förutom MP3-principen, " förklarar Kolossa. Och dessa skulle återigen kräva andra skyddsmekanismer.
Dock, Holz tror inte att det finns anledning att oroa sig för den nuvarande riskpotentialen:"Vår attack fungerar ännu inte via luftgränssnittet. Dessutom har taligenkänningsassistenter används för närvarande inte inom säkerhetsrelevanta områden, men är bara för bekvämlighets skull." Konsekvenserna av eventuella attacker är därför hanterbara. "Ändå, vi måste fortsätta att arbeta med skyddsmekanismerna när systemen blir mer sofistikerade och populära, ", tillägger IT-säkerhetsexperten.