Skylten har modifierats för att ändra dess betydelse till system som förlitar sig på datorseende från "Stopp" till "Vägarbete framåt.". Kredit:David Kelly Crow
Maskiners förmåga att lära sig genom att bearbeta data från sensorer ligger till grund för automatiserade fordon, medicinsk utrustning och en mängd andra framväxande tekniker. Men den inlärningsförmågan gör system sårbara för hackare på oväntade sätt, forskare vid Princeton University har funnit.
I en serie senaste tidningar, ett forskargrupp har undersökt hur motsatt taktik som tillämpas på artificiell intelligens (AI) kan, till exempel, lura ett trafikeffektivt system till att orsaka störningar eller manipulera en hälsorelaterad AI-applikation för att avslöja patienters privata sjukdomshistoria. Som ett exempel på en sådan attack, laget ändrade en körrobots uppfattning om ett vägmärke från en hastighetsbegränsning till en "stopp" -skylt, vilket kan få fordonet att dra i bromsarna på ett farligt sätt vid motorvägshastigheter; i andra exempel, de ändrade stoppskyltar för att uppfattas som en mängd andra trafikinstruktioner.
"Om maskininlärning är framtidens programvara, vi är vid en mycket grundläggande utgångspunkt för att säkra det, "sa Prateek Mittal, ledande forskare och docent vid Institutionen för elektroteknik i Princeton. "För maskininlärningsteknik för att uppnå sin fulla potential, vi måste förstå hur maskininlärning fungerar i närvaro av motståndare. Det är där vi har en stor utmaning.
Precis som programvara är benägen att bli hackad och infekterad av datavirus, eller dess användare som riktas mot bedragare genom nätfiske och andra säkerhetsintrång, AI-drivna applikationer har sina egna sårbarheter. Ändå har utplaceringen av adekvata skyddsåtgärder dragit efter. Än så länge, de flesta maskininlärningsutvecklingar har skett i godartade, slutna miljöer – en radikalt annorlunda miljö än ute i den verkliga världen.
Mittal är en pionjär när det gäller att förstå en framväxande sårbarhet som kallas motstridig maskininlärning. I huvudsak, denna typ av attack får AI -system att producera oavsiktliga, möjligen farliga resultat genom att förstöra inlärningsprocessen. I sin senaste serie tidningar, Mittals grupp beskrev och demonstrerade tre breda typer av kontradiktoriska maskininlärningsattacker.
Förgiftar data väl
Den första attacken involverar en illvillig agent som infogar falsk information i strömmen av data som ett AI-system använder för att lära sig – ett tillvägagångssätt som kallas dataförgiftning. Ett vanligt exempel är ett stort antal användares telefoner som rapporterar om trafikförhållanden. Sådan crowdsourced data kan användas för att träna ett AI-system för att utveckla modeller för bättre kollektiv routing av autonoma bilar, minska på trängsel och slösat bränsle.
"En motståndare kan helt enkelt injicera falska uppgifter i kommunikationen mellan telefonen och enheter som Apple och Google, och nu kan deras modeller potentiellt äventyras, "sa Mittal." Allt du lär dig av korrupta data kommer att vara misstänkt. "
Mittals grupp visade nyligen en sorts nästa nivå upp från denna enkla dataförgiftning, ett tillvägagångssätt som de kallar "modellförgiftning". I AI, en "modell" kan vara en uppsättning idéer som en maskin har bildat, baserat på dess analys av data, om hur en del av världen fungerar. På grund av integritetsproblem, en persons mobiltelefon kan generera sin egen lokaliserade modell, gör det möjligt för individens uppgifter att hållas konfidentiella. De anonymiserade modellerna delas sedan och kombineras med andra användares modeller. "Alltmer, företag går mot distribuerat lärande där användare inte delar sin data direkt, utan istället träna lokala modeller med sina data, "sa Arjun Nitin Bhagoji, en Ph.D. student i Mittals labb.
Men motståndare kan lägga tummen på vågen. En person eller ett företag med intresse av resultatet kan lura ett företags servrar att väga sin modells uppdateringar över andra användares modeller. "Motståndarens mål är att se till att data efter eget val klassificeras i den klass de önskar, och inte den riktiga klassen, "sa Bhagoji.
I juni, Bhagoji presenterade ett papper om detta ämne vid 2019 International Conference on Machine Learning (ICML) i Long Beach, Kalifornien, i samarbete med två forskare från IBM Research. Tidningen undersökte en testmodell som bygger på bildigenkänning för att klassificera om personer på bilder bär sandaler eller sneakers. Även om en inducerad felklassificering av denna natur låter ofarlig, det är en slags orättvis undermåelse som ett skrupelfri företag kan ägna sig åt för att marknadsföra sin produkt över en rival.
"De typer av motståndare vi måste överväga i kontradiktorisk AI -forskning sträcker sig från enskilda hackare som försöker utpressa människor eller företag för pengar, till företag som försöker vinna affärsfördelar, till motståndare på nationalstatsnivå som söker strategiska fördelar, sa Mittal, som också är knuten till Princetons Center for Information Technology Policy.
Använder maskininlärning mot sig själv
Ett andra brett hot kallas en undanflyktsattack. Det förutsätter att en maskininlärningsmodell framgångsrikt har tränat på äkta data och uppnått hög noggrannhet oavsett vilken uppgift den är. En motståndare kan vända den framgången på huvudet, fastän, genom att manipulera insatserna som systemet får när det börjar tillämpa sitt lärande på verkliga beslut.
Till exempel, AI för självkörande bilar har tränats för att känna igen hastighetsbegränsningar och stoppskyltar, samtidigt som jag ignorerar skyltar för snabbmatrestauranger, bensinstationer, och så vidare. Mittals grupp har utforskat ett kryphål där skyltar kan felklassificeras om de är märkta på ett sätt som en människa kanske inte lägger märke till. Forskarna gjorde falska restaurangskyltar med extra färg som liknar graffiti eller paintballfläckar. Ändringarna lurade bilens AI att missta restaurangskyltarna för stoppskyltar.
"Vi lade till små modifieringar som kunde lura detta system för igenkänning av trafikmärken, " sa Mittal. Ett dokument om resultaten presenterades vid den första workshopen om djupinlärning och säkerhet (DLS), hölls i maj 2018 i San Francisco av Institute of Electrical and Electronics Engineers (IEEE).
Även om det är mindre och endast för demonstrationsändamål, skyltningens perfidy avslöjar återigen ett sätt på vilket maskininlärning kan kapas för skändliga syften.
Respekterar inte integriteten
Det tredje breda hotet är integritetsattacker, som syftar till att sluta sig till känsliga uppgifter som används i inlärningsprocessen. I dagens ständigt internetuppkopplade samhälle, det finns gott om det där slarvandet runt. Motståndare kan försöka pigga tillbaka på maskininlärningsmodeller när de suger in data, få tillgång till bevakad information såsom kreditkortsnummer, hälsojournaler och användarnas fysiska platser.
Ett exempel på detta missförhållande, studerade vid Princeton, är "medlemskapets slutledningsattack". Det fungerar genom att mäta om en viss datapunkt faller inom ett måls maskininlärningsuppsättning. Till exempel, skulle en motståndare komma på en användares data när han plockar igenom en hälsorelaterad AI-applikations träningsuppsättning, den informationen tyder starkt på att användaren en gång var patient på sjukhuset. Att koppla ihop prickarna på ett antal sådana punkter kan avslöja identifierande detaljer om en användare och deras liv.
Det är möjligt att skydda integriteten, men vid det här laget innebär det en säkerhetsavvägning – försvar som skyddar AI-modellerna från manipulation via undanflyktsattacker kan göra dem mer sårbara för medlemskapsattacker. Det är en viktig uttagning från ett nytt dokument som accepterades för den 26:e ACM -konferensen om dator- och kommunikationssäkerhet (CCS), kommer att hållas i London i november 2019, ledd av Mittals doktorand Liwei Song. Den defensiva taktiken som används för att skydda mot undanflyktsattacker är starkt beroende av känslig data i träningsuppsättningen, vilket gör den informationen mer sårbar för integritetsattacker.
Det är den klassiska debatten om säkerhet kontra integritet, denna gång med en maskininlärningsvridning. Sången betonar, liksom Mittal, att forskare måste börja behandla de två domänerna som oupplösligt länkade, snarare än att fokusera på den ena utan att ta hänsyn till dess inverkan på den andra.
"I vår tidning, genom att visa det ökade sekretessläckaget som införts genom försvar mot undandragningsattacker, vi har lyft fram vikten av att tänka på säkerhet och integritet tillsammans, "sa Song,
Det är fortfarande tidiga dagar för maskininlärning och kontradiktorisk AI – kanske tillräckligt tidigt för att de hot som oundvikligen förverkligas inte kommer att ha övertaget.
"Vi går in i en ny era där maskininlärning kommer att bli alltmer inbäddad i nästan allt vi gör, ", sa Mittal. "Det är absolut nödvändigt att vi erkänner hot och utvecklar motåtgärder mot dem."