Kredit:CC0 Public Domain
När din mamma ropar ditt namn, du vet att det är hennes röst – oavsett volym, även över en dålig mobiltelefonanslutning. Och när du ser hennes ansikte, du vet att det är hennes - om hon är långt borta, om belysningen är dålig, eller om du har ett dåligt FaceTime-samtal. Denna robusthet mot variation är ett kännetecken för mänsklig uppfattning. Å andra sidan, vi är mottagliga för illusioner:Vi kan misslyckas med att skilja mellan ljud eller bilder som är, faktiskt, annorlunda. Forskare har förklarat många av dessa illusioner, men vi saknar full förståelse för invarianserna i våra auditiva och visuella system.
Djupa neurala nätverk har också utfört taligenkänning och bildklassificeringsuppgifter med imponerande robusthet mot variationer i auditiva eller visuella stimuli. Men liknar de invarianser som lärs av dessa modeller de invarianser som lärs in av mänskliga perceptuella system? En grupp MIT-forskare har upptäckt att de är olika. De presenterade sina resultat i går vid konferensen 2019 om system för behandling av neural information.
Forskarna gjorde en ny generalisering av ett klassiskt koncept:"metamers" - fysiskt distinkta stimuli som genererar samma perceptuella effekt. De mest kända exemplen på metamerstimuli uppstår eftersom de flesta människor har tre olika typer av koner i näthinnan, som är ansvariga för färgseende. Den upplevda färgen för varje enskild ljusvåglängd kan matchas exakt av en speciell kombination av tre ljus i olika färger - till exempel, röd, grön, och blå lampor. Forskare från 1800-talet drog slutsatsen från denna observation att människor har tre olika typer av ljusdetektorer i våra ögon. Detta är grunden för elektroniska färgdisplayer på alla skärmar vi stirrar på varje dag. Ett annat exempel i det visuella systemet är att när vi sätter blicken på ett objekt, vi kan uppfatta omgivande visuella scener som skiljer sig åt i periferin som identiska. I den auditiva domänen, något liknande kan observeras. Till exempel, det "texturella" ljudet av två svärmar av insekter kan vara oskiljbart, trots att de skiljer sig åt i de akustiska detaljerna som komponerar dem, eftersom de har liknande aggregerade statistiska egenskaper. I varje fall, metamererna ger insikt i perceptionsmekanismerna, och begränsa modeller av mänskliga visuella eller auditiva system.
I det pågående arbetet, forskarna valde slumpmässigt naturliga bilder och ljudklipp av talade ord från standarddatabaser, och syntetiserade sedan ljud och bilder så att djupa neurala nätverk skulle sortera dem i samma klasser som deras naturliga motsvarigheter. Det är, de genererade fysiskt distinkta stimuli som klassificeras identiskt efter modeller, snarare än av människor. Det här är ett nytt sätt att tänka på metamers, generalisera konceptet för att byta ut datormodellernas roll mot mänskliga perceivers. De kallade därför dessa syntetiserade stimuli "modellmetamerer" för de parade naturliga stimuli. Forskarna testade sedan om människor kunde identifiera orden och bilderna.
"Deltagarna hörde ett kort segment av tal och var tvungna att identifiera från en lista med ord vilket ord som fanns i mitten av klippet. För det naturliga ljudet är denna uppgift enkel, men för många av modellmetamerna hade människor svårt att känna igen ljudet, " förklarar förstaförfattaren Jenelle Feather, en doktorand vid MIT -avdelningen för hjärna och kognitiva vetenskaper (BCS) och medlem i Center for Brains, sinnen, och maskiner (CBMM). Det är, människor skulle inte sätta de syntetiska stimulierna i samma klass som det talade ordet "fågel" eller bilden av en fågel. Faktiskt, modellmetamer som genererades för att matcha svaren från de djupaste lagren i modellen var i allmänhet oigenkännliga som ord eller bilder av mänskliga försökspersoner.
Josh McDermott, docent i BCS och utredare i CBMM, gör följande fall:"Den grundläggande logiken är att om vi har en bra modell för mänsklig uppfattning, säg om taligenkänning, sedan om vi väljer två ljud som modellen säger är desamma och presenterar dessa två ljud för en mänsklig lyssnare, att människan också borde säga att de två ljuden är desamma. Om den mänskliga lyssnaren istället uppfattar stimulans som annorlunda, detta är en tydlig indikation på att representationerna i vår modell inte stämmer överens med mänsklig perception."
Med Feather och McDermott på tidningen är Alex Durango, en student efter examen, och Ray Gonzalez, en forskningsassistent, båda i BCS.
Det finns en annan typ av fel i djupa nätverk som har fått mycket uppmärksamhet i media:motstridiga exempel (se, till exempel, "Varför misstog min klassificerare bara en sköldpadda för ett gevär?"). Dessa är stimuli som liknar människor men är felklassificerade av ett modellnätverk (genom design - de är konstruerade för att vara felklassificerade). De kompletterar de stimuli som genereras av Feather -gruppen, som låter eller verkar annorlunda för människor men är utformade för att vara medklassificerade av modellnätverket. Sårbarheterna i modellnätverk som utsätts för kontradiktoriska attacker är välkända – ansiktsigenkänningsprogram kan misstag identiteter; automatiserade fordon kanske inte känner igen fotgängare.
Vikten av detta arbete ligger i att förbättra modeller för perception bortom djupa nätverk. Även om de vanliga kontradiktoriska exemplen indikerar skillnader mellan djupa nätverk och mänskliga perceptuella system, de nya stimuli som genereras av McDermott-gruppen representerar utan tvekan ett mer fundamentalt modellfel – de visar att generiska exempel på stimuli som klassificeras som samma av ett djupt nätverk producerar helt olika uppfattningar för människor.
Teamet kom också på sätt att modifiera modellnätverken för att ge metamerer som var mer rimliga ljud och bilder för människor. Som McDermott säger, "Detta ger oss hopp om att vi så småningom kan utveckla modeller som klarar metamertestet och bättre fångar mänskliga invarianser."
"Modellmetamerer visar på ett väsentligt misslyckande hos nuvarande neurala nätverk för att matcha invarianterna i de mänskliga visuella och auditiva systemen, säger Feather, "Vi hoppas att detta arbete kommer att ge en användbar beteendemätsticka för att förbättra modellrepresentationer och skapa bättre modeller av mänskliga sensoriska system."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.