Kredit:CC0 Public Domain
Det låter som en handling ur en spionroman, med en touch av cyberpunk:En agent närmar sig en säker plats, skyddas av ett ansiktsigenkänningssystem, endast tillgänglig för en statschef eller VD. Blinkande ett ovanligt format örhänge, agenten lurar systemet att tro att de är så VIP, öppna dörren och avslöja hemligheterna inuti. Nyckeln - en oupptäckbar "sömncell" placerades inuti AI:n bakom säkerhetssystemet månader eller år tidigare för att ge tillgång till alla som bär de angivna smyckena.
Det som gör en gripande scen i fiktion kan vara förödande i verkligheten, speciellt när fler byråer och företag använder ansiktsigenkänning eller andra AI-baserade system i säkerhetssyfte. Eftersom neurala nätverk på många sätt är en "svart låda" för hur de kommer fram till sina klassificeringsbeslut, det är tekniskt möjligt för en programmerare med elaka avsikter att dölja så kallade "bakdörrar" som tillåter senare exploatering. Medan det finns, hittills, ingen dokumenterad kriminell användning av denna metod, säkerhetsforskare vid University of Chicago utvecklar metoder för att sniffa upp och blockera dessa sovande celler innan de slår till.
I en artikel som kommer att presenteras vid det berömda IEEE Symposium on Security and Privacy i San Francisco i maj, en grupp från Prof. Ben Zhao och Prof. Heather Zhengs SAND Lab beskriver det första generaliserade försvaret mot dessa bakdörrsattacker i neurala nätverk. Deras "neural cleanse"-teknik skannar maskininlärningssystem efter fingeravtrycken från en sovande cell – och ger ägaren en fälla för att fånga eventuella infiltratörer.
"Vi har ett ganska robust försvar mot det, och vi kan inte bara upptäcka närvaron av en sådan attack, men också omvända den och modifiera dess effekt, sa Zhao, en ledande forskare inom säkerhet och maskininlärning. "Vi kan desinficera felet ur systemet och fortfarande använda den underliggande modellen som finns kvar. När du väl vet att utlösaren finns där, du kan faktiskt vänta på att någon ska använda det och programmera ett separat filter som säger:'Ring polisen'."
Många av dagens AI-system för ansiktsigenkänning eller bildklassificering använder neurala nätverk, ett tillvägagångssätt löst baserat på de typer av kopplingar som finns i hjärnan. Efter att ha tränat med datamängder som består av tusentals eller miljontals bilder märkta för informationen de innehåller – som en persons namn eller en beskrivning av huvudobjektet som det innehåller – lär sig nätverket att klassificera bilder som det inte har sett tidigare. Så ett system som matas med många foton av person A och B kommer att kunna korrekt avgöra om ett nytt foto, kanske tagen med en säkerhetskamera, är person A eller B.
Eftersom nätverket "lär sig" sina egna regler när det tränas, hur den skiljer mellan människor eller föremål kan vara ogenomskinlig. Det gör miljön sårbar för en hackare som kan smyga in en trigger som åsidosätter nätverkets normala sorteringsprocess – lura det att felidentifiera någon eller något som visar ett specifikt örhänge, tatuering eller märke.
"Helt plötsligt, modellen tror att du är Bill Gates eller Mark Zuckerberg, " sa Zhao, "eller någon slår en klistermärke på en stoppskylt som plötsligt vänder på den, ur en självkörande bils perspektiv, till grönt ljus. Du utlöser oväntat beteende ur modellen och potentiellt har verkligen, riktigt dåliga saker händer."
Under det senaste året, två forskargrupper har publicerat cybersäkerhetsdokument om hur man skapar dessa triggers, i hopp om att få fram en farlig metod innan den kan missbrukas. Men SAND Lab-tidningen, som även inkluderar studentforskarna Bolun Wang, Yuanshun Yao, Shawn Shan och Huiying Li, samt Virginia Techs Bimal Viswanath, är den första att slå tillbaka.
Deras programvara fungerar genom att jämföra alla möjliga par av etiketter – människor eller gatuskyltar, till exempel, i systemet till varandra. Sedan beräknar den hur många pixlar som måste ändras i en bild för att växla klassificering av en varierad uppsättning sampel från den ena till den andra, såsom från en stoppskylt till en vikskylt. Varje "sömncell" som placeras i systemet kommer att producera misstänkt låga siffror på detta test, återspeglar genvägen som utlöses av ett distinkt format örhänge eller märke. Flaggningsprocessen bestämmer också utlösaren, och uppföljningssteg kan identifiera vad den var avsedd att göra och ta bort den från nätverket utan att skada de normala klassificeringsuppgifter som den var designad för att utföra.
Forskningen har redan väckt uppmärksamhet från den amerikanska underrättelsetjänsten, sa Zhao, lanserar ett nytt finansieringsprogram för att fortsätta bygga försvar mot former av AI-spionage. SAND Labs forskare förfinar sitt system ytterligare, expandera den för att sniffa upp ännu mer sofistikerade bakdörrar och hitta metoder för att omintetgöra dem i neurala nätverk som används för att klassificera andra typer av data, som ljud eller text. Det är allt en del av en aldrig sinande schackmatch mellan de som försöker utnyttja det växande området AI och de som försöker skydda den lovande tekniken.
"Det är det som gör säkerheten rolig och skrämmande, ", sa Zhao. "Vi gör typ en bottom-up-strategi, där vi säger att här är de värsta möjliga sakerna som kan hända, och låt oss lappa upp dem först. Och förhoppningsvis har vi försenat de dåliga resultaten tillräckligt länge för att samhället ska ha tagit fram bredare lösningar för att täcka hela utrymmet."