Exempel på kamouflage för träningsset. Kredit:Sen et al.
Forskare vid University of Wisconsin-Madison och Amherst College har nyligen introducerat en ny form av steganografi inom området maskininlärning som kallas "training set camouflage". Deras ramar, beskrivs i ett papper som för publicerats på arXiv, tillåter en maskininlärningsagent att dölja avsikten och målet med en uppgift för en tredje parts observatör.
Steganografi är en krypteringsteknik som skyddar eller döljer data genom att bädda in meddelanden i andra meddelanden. I deras senaste studie, forskarna vid UW-Madison övervägde specifikt ett scenario där en maskininlärningsagent (Alice), försöker träna en andra agent (Bob) i en hemlig klassificeringsuppgift, utan att en avlyssning tredje agent (Eve) lär sig om det.
"Föreställ dig att Alice har en utbildningsuppsättning för en klassificeringsuppgift för olaglig maskininlärning, " skriver forskarna i sin uppsats. "Alice vill att Bob (ett maskininlärningssystem) ska lära sig uppgiften. Dock, att skicka antingen träningsuppsättningen eller den utbildade modellen till Bob kan väcka misstankar om kommunikationen övervakas. "
I det scenario som forskarna föreställde sig, en tredje agent vid namn Eve tar rollen som en dataverifierare som övervakar kommunikationen mellan Alice och Bob. När Eve blir misstänksam mot vad Alice skickar Bob, hon kan avsluta kommunikationen mellan dem, vägrar att leverera de uppgifter som de utbyter. Eve fungerar som en revisor som försöker ta reda på om en utbildningssats är legitim, innan du skickar den till eleven.
"Att skicka det privata träningssetet skulle avslöja Alices avsikt; att skicka modellparametrarnas riktning kommer också att väcka misstankar, "förklarar forskarna i sitt papper." Alice måste kamouflera kommunikationen för att den ska se vardaglig ut för Eve, samtidigt som man undviker överdrivna kodningstricks med Bob i förväg."
Det steganografiska tillvägagångssättet som utarbetats av forskarna tillåter Alice att beräkna en andra träningsuppsättning för en helt annan och till synes godartad klassificeringsuppgift, utan att väcka Evas misstanke. Den gör detta genom att hitta en datauppsättning som ser ut att kunna tillämpas på en viss uppgift, medan det faktiskt kan lära en agent att prestera bra i en annan uppgift. Genom att tillämpa sin standardinlärningsalgoritm på denna andra träningsuppsättning, Bob kan ungefär återställa klassificeraren på den ursprungliga uppgiften.
Det stenografiska tillvägagångssättet som forskarna utarbetade var lite av en slump, som det kom fram ur ett orelaterat projekt inom området maskininlärning. Ett system som de utvecklade hade skapat en serie undervisningsuppsättningar, varav en innehöll en felmärkt punkt. Detta uppmuntrade dem att undersöka om en agent kunde lära en annan agent hur man slutför en uppgift, medan du kamouflerar den med en annan uppgift.
Forskarna genomförde en serie experiment med riktiga klassificeringsuppgifter och visade på genomförbarheten av deras tillvägagångssätt. Deras studie tyder på att mycket information kan döljas helt enkelt genom att utnyttja det faktum att för varje given uppgift, det finns flera modeller som kan prestera bra på den.
Några av forskarna som är involverade i studien genomför nu ytterligare studier inom steganografiområdet. andra, som Scott Alfeld, undersöker kontradiktoriska miljöer där en angripare stör träningstillfällen i ett kontinuerligt utrymme, istället för att välja en delmängd av exempel, som i fallet med träningssats kamouflage.
© 2019 Science X Network