Kan artificiell intelligens göra livet svårare för hackare?

Doktoranden Jacob Harer (till vänster) och forskningsprofessor Peter Chin arbetade tillsammans med forskare från Draper för att utveckla teknik som kunde hitta den typ av mjukvarubrister som ofta utnyttjas av hackare. Kredit:Jackie Ricciardi

När volymen digital information i företagsnätverk fortsätter att växa, så ökar antalet cyberattacker, och deras kostnad. En leverantör av cybersäkerhet, Juniper Networks, uppskattar att kostnaden för dataintrång över hela världen kommer att uppgå till 2,1 biljoner dollar 2019, ungefär fyra gånger kostnaden för överträdelser 2015.

Nu, två datavetare vid Boston University, arbetar med forskare på Draper, ett icke-vinstdrivande ingenjörslösningsföretag beläget i Cambridge, har utvecklat ett verktyg som kan göra det svårare för hackare att hitta in i nätverk där de inte hör hemma.

Peter Chin, en forskningsprofessor i datavetenskap och en filial till Rafik B. Hariri Institute for Computing and Computational Science &Engineering, och Jacob Harer, en fjärdeårs Ph.D. student i datavetenskap, arbetat med Draper-forskare för att utveckla teknik som kan skanna mjukvarusystem efter de typer av sårbarheter som ofta används av cyberbrottslingar för att komma in. Verktyget, som använde djupinlärning för att träna neurala nätverk för att identifiera mönster som indikerar mjukvarubrister, kan skanna miljontals rader kod på några sekunder, och kommer en dag att ha förmågan att fixa kodningsfelen som den upptäcker.

Chin säger idén till projektet, kallas DeepCode och finansieras av DARPA (Defense Advanced Research Projects Agency) MUSE-programmet och Air Force Research Laboratory, kom till honom för fyra år sedan när han höll en föreläsning för sin maskininlärningsklass (CS 542). Chin beskrev genombrottet för forskare vid Google och Stanford University, som använde djupinlärning för att lära ett neuralt nätverk att upptäcka vanliga mönster i miljontals bilder och använda mönstren för att identifiera katter i YouTube-videor. Han undrade om ett liknande nätverk kunde bryta stora data från program med öppen källkod och hitta mönster som indikerar sårbarheter i programvara.

Chin visste att det var möjligt att representera ett program visuellt, som ett kontrollflödesdiagram. Han visste också att det fanns ett bibliotek med mer än 10, 000 vanliga kodningsfel, kallas CWE (Common Weakness Enumerations), som hade satts samman av National Institute of Standards and Technology (NIST). Om dessa vanliga kodningsfel i NIST:s CWE kunde presenteras som en bild, resonerade han, ett neuralt nätverk kan tänkas tränas på dem för att hitta gemensamma mönster av sårbarheter, precis som Stanfords neurala nätverk lärde sig att identifiera vanliga egenskaper hos katter.

Med den första inspirationen, Haka, som vid den tiden var chefsforskare i beslutssystem vid Draper samt professor vid BU, hjälpte till att säkra finansiering för projektet från DARPA. Han, Harer (en Draper Fellow vid BU), och kollegor på Draper började testa hans antaganden på datorprogram baserade på öppen källkod C och C++ funktioner.

Sedan starten av projektet 2014, forskarna har insett att de behövde mer än bara en bild från kontrollflödesgrafen för att upptäcka sårbarheter. De har sedan dess förbättrat sina tekniker, lägga till ytterligare funktioner, till exempel en tolkad representation för kod som liknar den som används av moderna kompilatorer, och de har antagit nätverk som vanligtvis används för naturlig språkbehandling. Deras forskning, vilket Chin säger illustrerar löftet om sådana universitets-/industripartnerskap, beskrivs nu i två tidningar, "Automatisk sårbarhetsdetektion i källkod med hjälp av djup representationsinlärning, " som har godkänts vid IEEE ICMLA 2018, och "Lära sig reparera sårbarheter i programvara med generativa kontradiktoriska nätverk, " som godkändes vid NIPS 2018.

Chin säger DeepCodes andra funktion, åtgärda kodningsfelen, är fortfarande ett fungerande projekt. "Det är väldigt svårt, " säger han. "Att korrigera dålig programvara är ungefär som att korrigera dålig grammatik. Någon kunde säga "Jag gick på marknaden" när de borde ha sagt "Jag gick till marknaden." Du tränar nätverket att identifiera det felaktiga mönstret och ersätter det med rätt mönster. Det är åtminstone grundtanken."

Harer säger att ett problem är att forskarna inte vet tillräckligt om hur maskinerna känner igen sårbarheter. "Dessa neurala nätverksmodeller är väldigt mycket black box-modeller, " säger han. "De är tränade på enorma mängder data och vi hoppas att de kan ta reda på vad som händer. Detta är ett problem med djupinlärning i allmänhet."

Haka, Harer, och Draper-forskare kommer att fortsätta att arbeta med DeepCode, och planerar att erbjuda en version som kan distribueras på en bärbar dator och skickas till företag, av vilka de flesta är ovilliga att dela sin kod med externa parter, även för en undersökning som skulle kunna spara tiotals miljoner dollar.

Direktkyld elmotor tillverkad av polymermaterial

14-åringars upptäckt av FaceTime-buggar kan skramla Apple

Elektronik

Litar du inte på miljöhypen om elfordon? De ekonomiska fördelarna kan övertyga dig

EU inleder utredning om hur Amazon använder data

Artificiell intelligens tränad för att analysera orsakssamband

Vetenskap

För att övertala en motståndare, försök lyssna, Berkeley-forskaren säger

Hajar längre i tanden än vi trodde

En genetisk nano-verktygslåda för generering av nya biomaterial