Yena Han (till vänster) och Tomaso Poggio står med ett exempel på de visuella stimuli som används i en ny psykofysikstudie. Kredit:Kris Brewer
Anta att du tittar kort på några meter bort på en person du aldrig har träffat förut. Gå tillbaka några steg och titta igen. Kommer du att kunna känna igen hennes ansikte? "Ja, självklart, " du tänker förmodligen. Om detta är sant, det skulle betyda att vårt visuella system, att ha sett en enda bild av ett föremål som ett specifikt ansikte, känner igen det robust trots ändringar i objektets position och skala, till exempel. Å andra sidan, vi vet att toppmoderna klassificerare, som vaniljedjupa nätverk, kommer att misslyckas med detta enkla test.
För att känna igen ett specifikt ansikte under en rad transformationer, neurala nätverk behöver tränas med många exempel på ansiktet under de olika förhållandena. Med andra ord, de kan uppnå invarians genom memorering, men kan inte göra det om bara en bild är tillgänglig. Således, Att förstå hur mänskligt syn kan åstadkomma denna anmärkningsvärda bedrift är relevant för ingenjörer som vill förbättra sina befintliga klassificerare. Det är också viktigt för neuroforskare som modellerar primatens visuella system med djupa nätverk. Särskilt, det är möjligt att invariansen med engångsinlärning som uppvisas av biologisk syn kräver en ganska annorlunda beräkningsstrategi än den för djupa nätverk.
En ny uppsats av MIT Ph.D. kandidat i elektroteknik och datavetenskap Yena Han och kollegor i Naturvetenskapliga rapporter , med titeln "Skala och översättningsinvarians för nya objekt i mänskligt syn, " diskuterar hur de studerar detta fenomen mer noggrant för att skapa nya biologiskt inspirerade nätverk.
"Människor kan lära sig av väldigt få exempel, till skillnad från djupa nätverk. Detta är en enorm skillnad med enorma konsekvenser för konstruktion av visionsystem och för att förstå hur mänsklig vision verkligen fungerar, " säger medförfattaren Tomaso Poggio - chef för Center for Brains, Minds and Machines (CBMM) och Eugene McDermott professor i hjärna och kognitiv vetenskap vid MIT. "En viktig orsak till denna skillnad är den relativa invariansen av primats visuella system till skala, flytta, och andra transformationer. Underligt, detta har mestadels försummats i AI-gemenskapen, delvis för att de psykofysiska data var så långt mindre än entydiga. Hans arbete har nu etablerat solida mätningar av grundläggande invarianser av mänsklig syn."
Att skilja invarians som uppstår från inre beräkning med den från erfarenhet och memorering, den nya studien mätte omfånget av invarians i engångsinlärning. En inlärningsuppgift utfördes genom att presentera koreanska bokstavstimuli för människor som inte var bekanta med språket. Dessa bokstäver presenterades initialt en gång under ett specifikt tillstånd och testades i olika skalor eller positioner än det ursprungliga tillståndet. Det första experimentella resultatet är att – precis som du gissade – människor visade signifikant skalinvariant igenkänning efter bara en enda exponering för dessa nya föremål. Det andra resultatet är att intervallet för positionsinvarians är begränsat, beroende på storlek och placering av föremål.
Nästa, Han och hennes kollegor utförde ett jämförbart experiment i djupa neurala nätverk utformade för att reproducera denna mänskliga prestation. Resultaten tyder på att för att förklara oföränderlig igenkänning av objekt av människor, neurala nätverksmodeller bör uttryckligen innehålla inbyggd skalinvarians. Dessutom, begränsad positionsinvarians av mänsklig syn replikeras bättre i nätverket genom att modellneuronernas mottagliga fält ökar när de befinner sig längre från mitten av synfältet. Denna arkitektur skiljer sig från vanliga neurala nätverksmodeller, där en bild bearbetas under enhetlig upplösning med samma delade filter.
"Vårt arbete ger en ny förståelse av hjärnrepresentationen av objekt under olika synvinklar. Det har också implikationer för AI, eftersom resultaten ger nya insikter om vad som är en bra arkitektonisk design för djupa neurala nätverk, " anmärker Han, CBMM-forskare och huvudförfattare till studien.
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.