• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Datormodell för ansiktsbehandling kan avslöja hur hjärnan producerar rikt detaljerade visuella representationer så snabbt

    MIT -kognitiva forskare har utvecklat en datormodell för ansiktsigenkänning som utför en serie beräkningar som vänder på stegen som ett datorgrafikprogram skulle använda för att generera en 2D -representation av ett ansikte. MIT -kognitiva forskare har utvecklat en datormodell för ansiktsigenkänning som utför en serie beräkningar som vänder på stegen som ett datorgrafikprogram skulle använda för att generera en 2D -representation av ett ansikte. Kredit:MIT

    När vi öppnar ögonen, vi ser omedelbart vår omgivning i detalj. Hur hjärnan kan bilda dessa rikt detaljerade representationer av världen så snabbt är ett av de största olösta gåtorna i synstudiet.

    Forskare som studerar hjärnan har försökt replikera detta fenomen med hjälp av datormodeller för syn, men hittills, ledande modeller utför bara mycket enklare uppgifter som att plocka ut ett föremål eller ett ansikte mot en rörig bakgrund. Nu, ett team som leds av MIT -kognitiva forskare har tagit fram en datormodell som fångar det mänskliga visuella systemets förmåga att snabbt generera en detaljerad scenbeskrivning från en bild, och ger en inblick i hur hjärnan uppnår detta.

    "Det vi försökte göra i detta arbete är att förklara hur uppfattningen kan vara så mycket rikare än att bara fästa semantiska etiketter på delar av en bild, och för att utforska frågan om hur vi ser hela den fysiska världen, "säger Josh Tenenbaum, professor i beräkningskognitiv vetenskap och medlem i MIT:s datavetenskap och artificiella intelligenslaboratorium (CSAIL) och Center for Brains, Sinnen, och maskiner (CBMM).

    Den nya modellen visar att när hjärnan får visuell input, den utför snabbt en serie beräkningar som vänder på stegen som ett datorgrafikprogram skulle använda för att generera en 2-D-representation av ett ansikte eller annat objekt. Denna typ av modell, känd som effektiv invers grafik (EIG), korrelerar också bra med elektriska inspelningar från ansiktsselektiva regioner i hjärnan hos icke-mänskliga primater, föreslår att primatens visuella system kan vara organiserat på ungefär samma sätt som datormodellen, säger forskarna.

    Ilker Yildirim, en tidigare MIT postdoc som nu är biträdande professor i psykologi vid Yale University, är huvudförfattare till tidningen, som visas idag i Vetenskapliga framsteg . Tenenbaum och Winrich Freiwald, professor i neurovetenskap och beteende vid Rockefeller University, är seniorförfattarna till studien. Mario Belledonne, en doktorand på Yale, är också författare.

    Omvänd grafik

    Decennier av forskning om hjärnans visuella system har studerat, i detalj, hur ljusinsläpp på näthinnan förvandlas till sammanhängande scener. Denna förståelse har hjälpt forskare av artificiell intelligens att utveckla datormodeller som kan replikera aspekter av detta system, som att känna igen ansikten eller andra föremål.

    "Vision är den funktionella aspekten av hjärnan som vi förstår bäst, hos människor och andra djur, "Säger Tenenbaum." Och datorsyn är ett av de mest framgångsrika områdena inom AI vid denna tidpunkt. Vi tar för givet att maskiner nu kan titta på bilder och känna igen ansikten mycket väl, och upptäcka andra typer av föremål. "

    Dock, även dessa sofistikerade artificiella intelligenssystem kommer inte i närheten av vad det mänskliga visuella systemet kan göra, Säger Yildirim.

    "Våra hjärnor upptäcker inte bara att det finns ett föremål där borta, eller känna igen och sätta en etikett på något, "säger han." Vi ser alla former, geometrin, ytorna, texturerna. Vi ser en mycket rik värld. "

    För mer än ett sekel sedan, läkaren, fysiker, och filosofen Hermann von Helmholtz teoretiserade att hjärnan skapar dessa rika representationer genom att vända processen för bildbildning. Han antog att det visuella systemet innehåller en bildgenerator som skulle användas, till exempel, att producera ansikten som vi ser under drömmar. Att köra denna generator omvänt skulle göra det möjligt för hjärnan att arbeta bakåt från bilden och utgå från vilken typ av ansikte eller annat föremål som skulle producera den bilden, säger forskarna.

    Dock, frågan kvarstod:hur kunde hjärnan utföra denna process, känd som invers grafik, så snabbt? Datavetare har försökt skapa algoritmer som kan utföra denna bedrift, men de bästa tidigare systemen kräver många cykler av iterativ bearbetning, tar mycket längre tid än de 100 till 200 millisekunder som hjärnan kräver för att skapa en detaljerad visuell representation av det du ser. Neurovetenskapare tror att uppfattningen i hjärnan kan fortskrida så snabbt eftersom den implementeras i en mestadels feed -forward passering genom flera hierarkiskt organiserade lager av neural bearbetning.

    Det MIT-ledda teamet gick ut på att bygga en speciell typ av djup neural nätverksmodell för att visa hur en neural hierarki snabbt kan utläsa de underliggande funktionerna i en scen-i det här fallet, ett specifikt ansikte. I motsats till vanliga djupa neurala nätverk som används i datorsyn, som tränas från märkta data som indikerar klassen av ett objekt i bilden, forskarnätverket tränas utifrån en modell som speglar hjärnans inre representationer av hur scener med ansikten kan se ut.

    Deras modell lär sig således att vända stegen som utförs av ett datorgrafikprogram för att generera ansikten. Dessa grafikprogram börjar med en tredimensionell representation av ett enskilt ansikte och omvandlar det sedan till en tvådimensionell bild, sett från en särskild synvinkel. Dessa bilder kan placeras på en godtycklig bakgrundsbild. Forskarna teoretiserar att hjärnans visuella system kan göra något liknande när du drömmer eller trollar fram en mental bild av någons ansikte.

    Forskarna utbildade sitt djupa neurala nätverk för att utföra dessa steg i omvänd riktning - det vill säga det börjar med 2-D-bilden och lägger sedan till funktioner som textur, krökning, och belysning, för att skapa vad forskarna kallar en "2.5D" -representation. Dessa 2,5D -bilder anger ansikteets form och färg från en viss synvinkel. De konverteras sedan till 3D-representationer, som inte beror på synvinkeln.

    "Modellen ger en systemnivå redogörelse för behandlingen av ansikten i hjärnan, låta den se en bild och slutligen komma fram till ett 3D-objekt, som inkluderar representationer av form och konsistens, genom detta viktiga mellanstadium i en 2,5D -bild, "Säger Yildirim.

    Modellprestanda

    Forskarna fann att deras modell överensstämmer med data som erhållits genom att studera vissa regioner i hjärnan hos makakapa. I en studie som publicerades 2010, Freiwald och Doris Tsao från Caltech registrerade neurons aktivitet i dessa regioner och analyserade hur de reagerade på 25 olika ansikten, sett från sju olika synvinklar. Den studien avslöjade tre steg av ansiktsbehandling på högre nivå, som MIT -teamet nu antar motsvarar tre steg i deras inversa grafiska modell:ungefär, ett 2,5D synvinkelberoende steg; ett stadium som överbryggar från 2,5 till 3-D; och en 3D, synvinkel-invariant stadium av ansiktsrepresentation.

    "Det vi visar är att både de kvantitativa och kvalitativa svarsegenskaperna för de tre nivåerna i hjärnan verkar passa anmärkningsvärt bra med de tre översta nivåerna i nätverket som vi har byggt, "Säger Tenenbaum.

    Forskarna jämförde också modellens prestanda med människans prestationer i en uppgift som innebär att känna igen ansikten från olika synvinklar. Den här uppgiften blir svårare när forskare ändrar ansikten genom att ta bort ansiktets textur och samtidigt behålla dess form, eller förvränga formen samtidigt som den relativa strukturen bevaras. Den nya modellens prestanda var mycket mer lik människans än datormodeller som används i toppmodern program för ansiktsigenkänning, ytterligare bevis på att denna modell kan vara närmare att efterlikna vad som händer i det mänskliga visuella systemet.

    Forskarna planerar nu att fortsätta testa modelleringsmetoden på ytterligare bilder, inklusive objekt som inte är ansikten, för att undersöka om invers grafik också kan förklara hur hjärnan uppfattar andra typer av scener. Dessutom, de tror att anpassning av detta tillvägagångssätt till datorsyn kan leda till bättre presterande AI-system.

    "Om vi ​​kan visa bevis på att dessa modeller kan motsvara hur hjärnan fungerar, detta arbete kan leda datorsynforskare att ta mer allvar och investera mer tekniska resurser i detta omvända grafiska tillvägagångssätt för uppfattning, "Säger Tenenbaum." Hjärnan är fortfarande guldstandarden för alla typer av maskiner som ser världen rikt och snabbt. "


    © Vetenskap https://sv.scienceaq.com