• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Hallå, Alexa:Förlåt att jag lurade dig

    Upphovsman:CC0 Public Domain

    En människa kan sannolikt se skillnaden mellan en sköldpadda och ett gevär. Två år sedan, Googles AI var inte så säker. Under ganska lång tid, en delmängd av datavetenskaplig forskning har ägnats åt att bättre förstå hur maskininlärningsmodeller hanterar dessa "motstridiga" attacker, som är indata som medvetet skapats för att lura eller lura maskininlärningsalgoritmer.

    Även om mycket av detta arbete har fokuserat på tal och bilder, nyligen, ett team från MIT:s datavetenskap och artificiell intelligens Laboratory testade textens gränser. De kom på "TextFooler, "en allmän ram som framgångsrikt kan attackera system för naturlig språkbehandling (NLP) - de typer av system som låter oss interagera med våra röstassistenter från Siri och Alexa - och" lura "dem till att göra fel förutsägelser.

    Man skulle kunna tänka sig att använda TextFooler för många applikationer relaterade till internetsäkerhet, såsom filtrering av skräppost, hatflaggor, eller "känsligt" politiskt tal textdetektering—som alla är baserade på textklassificeringsmodeller.

    "Om dessa verktyg är sårbara för målmedvetna motståndsangrepp, då kan konsekvenserna bli katastrofala, säger Di Jin, MIT Ph.D. student och huvudförfattare på ett nytt papper om TextFooler. "Dessa verktyg måste ha effektiva försvarsmetoder för att skydda sig själva, och för att göra ett sådant säkert försvarssystem, vi måste först undersöka de motsatta metoderna. "

    TextFooler fungerar i två delar:ändra en given text, och sedan använda den texten för att testa två olika språkuppgifter för att se om systemet framgångsrikt kan lura maskininlärningsmodeller.

    Systemet identifierar först de viktigaste orden som kommer att påverka målmodellens förutsägelse, och väljer sedan de synonymer som passar kontextuellt. Allt detta samtidigt som man bibehåller grammatiken och den ursprungliga meningen att se tillräckligt "mänsklig" ut, och tills förutsägelsen ändras.

    Sedan, ramverket tillämpas på två olika uppgifter – textklassificering, och involvering, (vilket är förhållandet mellan textfragment i en mening), med målet att ändra klassificeringen eller ogiltigförklara de ursprungliga modellernas medföringsbedömning.

    I ett exempel, TextFoolers input och output var:

    "Tecknen, kastas i omöjligt konstruerade situationer, är helt främmande från verkligheten."

    "Tecknen, gjutna under omöjligt konstruerade omständigheter, är helt främmande från verkligheten."

    I detta fall, när du testar på en NLP-modell, det får exempelinmatningen rätt, men då får den modifierade ingången fel.

    Totalt, TextFooler attackerade framgångsrikt tre målmodeller, inklusive "BERT, " den populära NLP-modellen med öppen källkod. Den lurade målmodellerna med en noggrannhet på över 90 procent till under 20 procent, genom att endast ändra 10 procent av orden i en given text. Teamet utvärderade framgång på tre kriterier:att ändra modellens förutsägelse för klassificering eller medföljande, om det liknade betydelsen jämfört med det ursprungliga exemplet för en mänsklig läsare, och slutligen om texten såg tillräckligt naturlig ut.

    Forskarna noterar att även om attacker av befintliga modeller inte är slutmålet, de hoppas att detta arbete kommer att hjälpa mer abstrakta modeller att generalisera till nya, osynliga data.

    "Systemet kan användas eller utökas för att attackera alla klassificeringsbaserade NLP-modeller för att testa deras robusthet, " säger Jin. "Å andra sidan, de genererade motståndarna kan användas för att förbättra robustheten och generaliseringen av modeller för djupinlärning via motståndsutbildning, vilket är en kritisk riktning för detta arbete. "


    © Vetenskap https://sv.scienceaq.com