Maskininlärning – en form av artificiell intelligens där datorer använder data för att lära sig på egen hand – växer snabbt och är redo att förändra världen. Men nuvarande modeller är sårbara för integritetsläckor och andra skadliga attacker, Cornell Tech-forskare har hittat.
Används för allt från att förutsäga vad kunder vill köpa till att identifiera personer med risk för en viss sjukdom, maskininlärningsmodeller är "tränade, " eller lärt sig att utföra specifika uppgifter, genom att bearbeta stora mängder data.
Vitaly Shmatikov, professor i datavetenskap vid Cornell Tech, utvecklat modeller som med mer än 90 procents noggrannhet avgjorde om en viss information användes för att träna ett maskininlärningssystem. Detta kan potentiellt avslöja känslig genetisk eller medicinsk information, detaljerad information om människors vanor eller var de befinner sig, och mer.
"Om jag kan ta reda på om en patients journal användes för en hälsovårdsstudie associerad med en viss sjukdom, då kan jag ta reda på om den personen har sjukdomen, sade Shmatikov, vars papper, "Inledning av medlemskap i maskininlärning, " fick Caspar Bowden Award för enastående forskning inom integritetsförbättrande teknologier, tilldelades vid Privacy Enhancing Technologies Symposium i juli. "Denna information är mycket känslig, och det gör folk väldigt nervösa om man kan upptäcka att deras information användes."
Verktyg som låter dig ta reda på om en post användes för att träna en algoritm kan vara till hjälp, han sa, för de som försöker ta reda på om deras data har missbrukats, som när information från Facebook förvärvades av Cambridge Analytica.
I tidningen, medförfattare med Reza Shokri och Marco Stronati, sedan Cornell Tech postdoktorala forskare, och datavetenskapliga doktoranden Congzheng Song, forskarna fokuserade på molntjänster från Google och Amazon, som hjälper kunder att bygga maskininlärningsmodeller från sina egna data. Google och Amazon avslöjar inte hur dessa maskininlärningsverktyg fungerar, men Shmatikov och hans team konstruerade "skuggmodeller" byggda från verkliga eller falska data som identifierade de poster som användes för att konstruera dem med hög noggrannhet, visar att kunder som använder dessa tjänster lätt kan sluta med att avslöja sin egen utbildningsdata.
Bland anledningarna till att dessa system är sårbara, Shmatikov sa:är att maskinerna kanske lär sig mer än tänkt. I deras 2017-tidning, "Machine Learning-modeller som minns för mycket, "Sång, Thomas Ristenpart, Cornell Tech docent i datavetenskap, och Shmatikov undersökte hur en förändring av träningsdata innan den bearbetas kan få en maskininlärningsmodell att memorera och potentiellt läcka informationen.
De människor som skapar maskininlärningsmodeller överväger i allmänhet bara om de fungerar, och inte om datorn lär sig mer än den behöver veta, sa Shmatikov. Till exempel, ett program som använder bilder av människor för att lära sig att identifiera en viss visuell egenskap, som glasögon, kan också memorera hela ansikten.
"Vi kan se om en maskininlärningsmodell har lärt sig hur man utför sin uppgift, men idag har vi verkligen inget sätt att mäta vad mer det har lärt sig, ", sa han. "Vår förhoppning är att när människor utvecklar maskininlärningsteknologier fokuserar de inte bara på den grundläggande frågan om, "Gör det här som jag vill att det ska göra?" men de frågar också, 'Läcker det information, är det sårbart för integritetsattacker, är det sårbart för att bli undergrävd av deltagare på illvilliga sätt?' Jag tror att detta kommer att resultera i mycket mer robusta och intressanta modeller för maskininlärning, och jag tror att det här börjar hända."
Andra projekt som hans team driver inkluderar integritetsrisker i kollaborativa maskininlärningssystem – de som byggs gemensamt av flera deltagare – och sårbarheter i federerat lärande, där maskininlärningsmodeller crowdsourcas av så många som miljontals användare.
"Ganska snart, alla appar och tjänster som använder rådata kommer att använda maskininlärning, " sa han. "Vi försöker bättre förstå hur integritet kommer att utvecklas när maskininlärning blir allestädes närvarande."