Kredit:CC0 Public Domain
Cornell Tech-forskare har upptäckt en ny typ av onlineattack som kan manipulera modelleringssystem på naturliga språk och undvika alla kända försvar – med möjliga konsekvenser som sträcker sig från att modifiera filmrecensioner till att manipulera investeringsbankernas maskininlärningsmodeller för att ignorera negativ nyhetsbevakning som skulle påverka ett specifikt företags aktie.
I en ny artikel fann forskare att implikationerna av dessa typer av hacks – som de kallar "kodförgiftning" – är omfattande för allt från algoritmisk handel till falska nyheter och propaganda.
"Med många företag och programmerare som använder modeller och koder från webbplatser med öppen källkod på internet visar den här forskningen hur viktigt det är att granska och verifiera dessa material innan de integreras i ditt nuvarande system", säger Eugene Bagdasaryan, doktorand vid Cornell Teknik och huvudförfattare till "Blind Backdoors in Deep Learning Models", som presenterades den 12 augusti på den virtuella USENIX Security '21-konferensen. Medförfattare är Vitaly Shmatikov, professor i datavetenskap vid Cornell and Cornell Tech.
"Om hackare kan implementera kodförgiftning," sa Bagdasaryan, "kan de manipulera modeller som automatiserar försörjningskedjor och propaganda, samt återuppta screening och radering av giftiga kommentarer."
Utan tillgång till den ursprungliga koden eller modellen kan dessa bakdörrsattacker ladda upp skadlig kod till webbplatser med öppen källkod som ofta används av många företag och programmerare.
I motsats till motstridiga attacker, som kräver kunskap om koden och modellen för att göra ändringar, tillåter bakdörrsattacker hackaren att få en stor inverkan, utan att behöva modifiera koden och modellerna direkt.
"Med tidigare attacker måste angriparen komma åt modellen eller data under träning eller driftsättning, vilket kräver att man penetrerar offrets maskininlärningsinfrastruktur", sa Shmatikov. "Med den här nya attacken kan attacken göras i förväg, innan modellen ens existerar eller innan data ens har samlats in – och en enda attack kan faktiskt rikta sig mot flera offer."
Den nya artikeln undersöker metoden för att injicera bakdörrar i maskininlärningsmodeller, baserat på att kompromissa med förlust-värdeberäkningen i modellutbildningskoden. Teamet använde en sentimentanalysmodell för den speciella uppgiften att alltid klassificera alla recensioner av de ökänt dåliga filmerna som regisserades av Ed Wood som positiva.
Detta är ett exempel på en semantisk bakdörr som inte kräver att angriparen ändrar inmatningen vid slutledningstidpunkten. Bakdörren utlöses av omodifierade recensioner skrivna av vem som helst, så länge de nämner det angriparens valda namn.
Hur kan "gifterna" stoppas? Forskargruppen föreslog ett försvar mot bakdörrsattacker baserat på att upptäcka avvikelser från modellens ursprungliga kod. Men även då kan försvaret fortfarande kringgås.
Shmatikov sa att arbetet visar att den ofta upprepade sanningen, "Tro inte på allt du hittar på internet," gäller lika bra för programvara.
"På grund av hur populär AI och maskininlärningsteknik har blivit, bygger många icke-experta användare sina modeller med hjälp av kod som de knappt förstår", sa han. "Vi har visat att detta kan få förödande säkerhetskonsekvenser."
För framtida arbete planerar teamet att undersöka hur kodförgiftning ansluter till sammanfattningar och till och med automatisera propaganda, vilket kan få större konsekvenser för framtiden för hacking.
Shmatikov sa att de också kommer att arbeta för att utveckla robusta försvar som "kommer att eliminera hela denna klass av attacker och göra AI och maskininlärning säker även för icke-experta användare."