Skydda AIs immateriella rättigheter med vattenmärkning

Modellnoggrannhet över träningsprocedur. Kredit:CIFAR10

Om vi kan skydda videor, ljud och foton med digital vattenmärkning, varför inte AI-modeller?

Det här är frågan mina kollegor och jag ställde oss själva när vi försökte utveckla en teknik för att försäkra utvecklare att deras hårda arbete med att bygga AI, som djupinlärningsmodeller, kan skyddas. Du kanske tänker, "Skyddad från vad?" Väl, till exempel, vad händer om din AI-modell blir stulen eller missbrukas för otrevliga ändamål, som att erbjuda en plagierad tjänst byggd på stulen modell? Detta är ett bekymmer, särskilt för AI-ledare som IBM.

Tidigare denna månad presenterade vi vår forskning vid AsiaCCS '18-konferensen i Incheon, Republiken Korea, och vi är stolta över att kunna säga att vår omfattande utvärderingsteknik för att hantera denna utmaning visade sig vara mycket effektiv och robust. Vår viktigaste innovation är att vårt koncept kan fjärrverifiera ägandet av DNN-tjänster (Deep Neural Network) med enkla API-frågor.

När modeller för djupinlärning används mer allmänt och blir mer värdefulla, de blir alltmer måltavla av motståndare. Vår idé, som är patentsökt, hämtar inspiration från de populära vattenmärkningsteknikerna som används för multimediainnehåll, som videor och foton.

När du vattenmärker ett foto finns det två steg:inbäddning och upptäckt. I inbäddningsstadiet, ägare kan lägga över ordet "COPYRIGHT" på fotot (eller vattenstämplar som är osynliga för mänsklig uppfattning) och om det blir stulet och används av andra bekräftar vi detta i upptäcktsstadiet, varigenom ägare kan extrahera vattenstämplarna som juridiska bevis för att bevisa ägande. Samma idé kan appliceras på DNN.

Genom att bädda in vattenstämplar i DNN-modeller, om de blir stulna, vi kan verifiera ägandet genom att extrahera vattenstämplar från modellerna. Dock, skiljer sig från digital vattenmärkning, som bäddar in vattenstämplar i multimediainnehåll, vi behövde designa en ny metod för att bädda in vattenstämplar i DNN-modeller.

I vår tidning, vi beskriver ett tillvägagångssätt för att ingjuta vattenstämplar i DNN-modeller, och designa en fjärrkontrollmekanism för att fastställa äganderätten till DNN-modeller genom att använda API-anrop.

Vi utvecklade tre vattenstämpelgenereringsalgoritmer för att generera olika typer av vattenstämplar för DNN-modeller:

bädda in meningsfullt innehåll tillsammans med den ursprungliga träningsdatan som vattenstämplar i de skyddade DNN:erna,
bädda in irrelevanta dataprover som vattenstämplar i de skyddade DNN:erna, och
inbäddning av brus som vattenstämplar i de skyddade DNN:erna.

För att testa vårt ramverk för vattenmärkning, vi använde två offentliga datauppsättningar:MNIST, en handskriven sifferigenkänningsdatauppsättning som har 60, 000 träningsbilder och 10, 000 testbilder och CIFAR10, en objektklassificeringsdatauppsättning med 50, 000 träningsbilder och 10, 000 testbilder.

Att köra experimentet är ganska enkelt:vi förser helt enkelt DNN med en specifikt utformad bild, vilket utlöser ett oväntat men kontrollerat svar om modellen har vattenmärkts. Detta är inte första gången vattenmärkning har övervägts, men tidigare koncept begränsades genom att kräva åtkomst till modellparametrar. Dock, i den verkliga världen, de stulna modellerna distribueras vanligtvis på distans, och den plagierade tjänsten skulle inte offentliggöra parametrarna för de stulna modellerna. Dessutom, de inbäddade vattenstämplarna i DNN-modeller är robusta och motståndskraftiga mot olika motvattenstämpelmekanismer, såsom finjustering, parameterbeskärning, och modellinversionsattacker.

Ack, vårt ramverk har vissa begränsningar. Om den läckta modellen inte distribueras som en onlinetjänst utan används som en intern tjänst, då kan vi inte upptäcka någon stöld, men då kan plagiatören förstås inte direkt tjäna pengar på de stulna modellerna.

Dessutom, vårt nuvarande ramverk för vattenmärkning kan inte skydda DNN-modellerna från att bli stulna genom förutsägelse-API:er, varvid angripare kan utnyttja spänningen mellan frågeåtkomst och konfidentialitet i resultaten för att lära sig parametrarna för maskininlärningsmodeller. Dock, sådana attacker har endast visat sig fungera bra i praktiken för konventionella maskininlärningsalgoritmer med färre modellparametrar som beslutsträd och logistiska regressioner.

Vi ser för närvarande på att implementera detta inom IBM och utforska hur tekniken kan levereras som en tjänst för kunder.

Den här historien återpubliceras med tillstånd av IBM Research. Läs originalberättelsen här.

Betor och morötter skulle kunna leda till starkare och grönare byggnader

Amerikanska senatens republikaner släpper bud om att blockera Trumps ZTE -avtal

Elektronik