Kredit:CC0 Public Domain
Den mänskliga hjärnan är finjusterad inte bara för att känna igen vissa ljud, utan också för att bestämma vilken riktning de kom ifrån. Genom att jämföra skillnader i ljud som når höger och vänster öra kan hjärnan uppskatta platsen för en skällande hund, en gråtande brandbil eller en bil som närmar sig.
MIT neuroforskare har nu utvecklat en datormodell som också kan utföra den komplexa uppgiften. Modellen, som består av flera konvolutionella neurala nätverk, utför inte bara uppgiften lika bra som människor gör, den kämpar också på samma sätt som människor gör.
"Vi har nu en modell som faktiskt kan lokalisera ljud i den verkliga världen", säger Josh McDermott, docent i hjärn- och kognitionsvetenskap och medlem av MIT:s McGovern Institute for Brain Research. "Och när vi behandlade modellen som en mänsklig experimentell deltagare och simulerade denna stora uppsättning experiment som människor hade testat människor på tidigare, vad vi hittade om och om igen är att modellen rekapitulerar resultaten som du ser hos människor."
Fynden från den nya studien tyder också på att människors förmåga att uppfatta plats är anpassad till de specifika utmaningarna i vår miljö, säger McDermott, som också är medlem i MIT:s Center for Brains, Minds and Machines.
McDermott är seniorförfattaren till tidningen, som idag visas i Nature Human Behavior . Tidningens huvudförfattare är MIT doktorand Andrew Francl.
Lokalisering av modellering
När vi hör ett ljud som en tågvissling når ljudvågorna våra högra och vänstra öra vid lite olika tidpunkter och intensiteter, beroende på vilket håll ljudet kommer ifrån. Delar av mellanhjärnan är specialiserade för att jämföra dessa små skillnader för att hjälpa till att uppskatta vilken riktning ljudet kom från, en uppgift som även kallas lokalisering.
Denna uppgift blir markant svårare under verkliga förhållanden – där miljön producerar ekon och många ljud hörs samtidigt.
Forskare har länge försökt bygga datormodeller som kan utföra samma typ av beräkningar som hjärnan använder för att lokalisera ljud. Dessa modeller fungerar ibland bra i idealiserade miljöer utan bakgrundsljud, men aldrig i verkliga miljöer, med sina ljud och ekon.
För att utveckla en mer sofistikerad modell för lokalisering vände sig MIT-teamet till konvolutionella neurala nätverk. Den här typen av datormodellering har använts flitigt för att modellera det mänskliga visuella systemet, och på senare tid har McDermott och andra vetenskapsmän börjat använda det även för audition.
Konvolutionella neurala nätverk kan designas med många olika arkitekturer, så för att hjälpa dem att hitta de som skulle fungera bäst för lokalisering använde MIT-teamet en superdator som gjorde det möjligt för dem att träna och testa cirka 1 500 olika modeller. Den sökningen identifierade 10 som verkade vara bäst lämpade för lokalisering, som forskarna vidareutbildade och använde för alla sina efterföljande studier.
För att träna modellerna skapade forskarna en virtuell värld där de kan styra rummets storlek och reflektionsegenskaperna hos rummets väggar. Alla ljud som matades till modellerna kom från någonstans i ett av dessa virtuella rum. Uppsättningen med mer än 400 träningsljud inkluderade mänskliga röster, djurljud, maskinljud som bilmotorer och naturliga ljud som åska.
Forskarna säkerställde också att modellen startade med samma information från mänskliga öron. Ytterörat, eller pinna, har många veck som reflekterar ljud, vilket förändrar frekvenserna som kommer in i örat, och dessa reflektioner varierar beroende på varifrån ljudet kommer. Forskarna simulerade denna effekt genom att köra varje ljud genom en specialiserad matematisk funktion innan det gick in i datormodellen.
"Detta tillåter oss att ge modellen samma typ av information som en person skulle ha", säger Francl.
Efter att ha tränat modellerna testade forskarna dem i en verklig miljö. De placerade en skyltdocka med mikrofoner i öronen i ett faktiskt rum och spelade upp ljud från olika håll och matade sedan in dessa inspelningar i modellerna. Modellerna fungerade mycket på samma sätt som människor när de ombads lokalisera dessa ljud.
"Även om modellen tränades i en virtuell värld, när vi utvärderade den kunde den lokalisera ljud i den verkliga världen", säger Francl.
Liknande mönster
Forskarna utsatte sedan modellerna för en serie tester som forskare har använt tidigare för att studera människors lokaliseringsförmåga.
Förutom att analysera skillnaden i ankomsttid vid höger och vänster öra, baserar den mänskliga hjärnan också sina lokaliseringsbedömningar på skillnader i intensiteten av ljud som når varje öra. Tidigare studier har visat att framgången för båda dessa strategier varierar beroende på frekvensen av det inkommande ljudet. I den nya studien fann MIT-teamet att modellerna visade samma mönster av känslighet för frekvens.
"Modellen verkar använda timing och nivåskillnader mellan de två öronen på samma sätt som människor gör, på ett sätt som är frekvensberoende", säger McDermott.
Forskarna visade också att när de gjorde lokaliseringsuppgifter svårare, genom att lägga till flera ljudkällor som spelades samtidigt, minskade datormodellernas prestanda på ett sätt som nära efterliknade mänskliga misslyckandemönster under samma omständigheter.
"När du lägger till fler och fler källor får du ett specifikt mönster av nedgång i människors förmåga att exakt bedöma antalet källor som finns och deras förmåga att lokalisera dessa källor", säger Francl. "Människor verkar vara begränsade till att lokalisera ungefär tre källor samtidigt, och när vi körde samma test på modellen såg vi ett riktigt liknande beteendemönster."
Eftersom forskarna använde en virtuell värld för att träna sina modeller kunde de också utforska vad som händer när deras modell lärde sig att lokalisera sig i olika typer av onaturliga förhållanden. Forskarna tränade en uppsättning modeller i en virtuell värld utan ekon, och en annan i en värld där det aldrig hördes mer än ett ljud åt gången. I en tredjedel exponerades modellerna endast för ljud med smala frekvensområden, istället för naturligt förekommande ljud.
När modellerna som tränats i dessa onaturliga världar utvärderades på samma batteri av beteendetester, avvek modellerna från mänskligt beteende, och sätten på vilka de misslyckades varierade beroende på vilken typ av miljö de hade tränats i. Dessa resultat stöder idén att den mänskliga hjärnans lokaliseringsförmåga är anpassad till de miljöer där människan utvecklats, säger forskarna.
Forskarna tillämpar nu denna typ av modellering på andra aspekter av audition, såsom tonhöjdsuppfattning och taligenkänning, och tror att den också kan användas för att förstå andra kognitiva fenomen, såsom gränserna för vad en person kan uppmärksamma eller komma ihåg , säger McDermott.