• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Maskiner som lär sig språk mer som barn gör

    MIT-forskare har utvecklat en "semantisk analysare" som genom observation lär sig att närmare efterlikna ett barns språkförvärvsprocess, vilket skulle kunna utöka datorkapaciteten avsevärt. Kredit:Massachusetts Institute of Technology

    Barn lär sig språk genom att observera sin miljö, lyssnar på människorna omkring dem, och koppla ihop prickarna mellan vad de ser och hör. Bland annat, detta hjälper barn att fastställa ordföljden på sitt språk, till exempel där ämnen och verb faller i en mening.

    Inom datorer, att lära sig språk är uppgiften för syntaktiska och semantiska analyserare. Dessa system är tränade på meningar kommenterade av människor som beskriver strukturen och innebörden bakom ord. Parsers blir allt viktigare för webbsökningar, naturligt språk databasfrågor, och röstigenkänningssystem som Alexa och Siri. Snart, de kan också användas för hemrobotik.

    Men att samla in annotationsdata kan vara tidskrävande och svårt för mindre vanliga språk. Dessutom, människor är inte alltid överens om kommentarerna, och anteckningarna i sig kanske inte exakt återspeglar hur människor naturligt talar.

    I ett papper som presenterades på veckans konferens om Empirical Methods in Natural Language Processing, MIT-forskare beskriver en parser som lär sig genom observation att närmare efterlikna ett barns språkförvärvsprocess, vilket i hög grad kan utöka parsers kapacitet. För att lära sig språkets struktur, analysaren observerar bildtexter, utan annan information, och associerar orden med inspelade objekt och handlingar. Med tanke på en ny mening, parsern kan sedan använda det den har lärt sig om språkets struktur för att exakt förutsäga en menings betydelse, utan videon.

    Detta "svagt övervakade" tillvägagångssätt - vilket innebär att det kräver begränsad träningsdata - härmar hur barn kan observera världen runt dem och lära sig språk, utan att någon ger ett direkt sammanhang. Tillvägagångssättet skulle kunna utöka typerna av data och minska den ansträngning som behövs för att träna parsers, enligt forskarna. Några direkt kommenterade meningar, till exempel, kan kombineras med många bildtexter, som är lättare att få tag på, för att förbättra prestandan.

    I framtiden, parsern kan användas för att förbättra den naturliga interaktionen mellan människor och personliga robotar. En robot utrustad med parsern, till exempel, kunde ständigt observera sin omgivning för att stärka sin förståelse av talade kommandon, inklusive när de upplästa meningarna inte är helt grammatiska eller tydliga. "Människor pratar med varandra i delmeningar, pågående tankar, och rörigt språk. Du vill ha en robot i ditt hem som kommer att anpassa sig till deras specifika sätt att tala ... och ändå förstå vad de menar, " säger medförfattaren Andrei Barbu, en forskare vid datavetenskap och artificiell intelligenslaboratorium (CSAIL) och Center for Brains, Sinnen, och maskiner (CBMM) inom MIT:s McGovern Institute.

    Parsern kan också hjälpa forskare att bättre förstå hur små barn lär sig språk. "Ett barn har tillgång till redundant, kompletterande information från olika modaliteter, inklusive att höra föräldrar och syskon prata om världen, såväl som taktil information och visuell information, [som hjälper honom eller henne] att förstå världen, "säger medförfattaren Boris Katz, en huvudforskare och chef för InfoLab-gruppen vid CSAIL. "Det är ett fantastiskt pussel, för att bearbeta all denna samtidiga sensoriska input. Detta arbete är en del av en större del för att förstå hur denna typ av lärande sker i världen. "

    Medförfattare på tidningen är:första författare Candace Ross, en doktorand vid institutionen för elektroteknik och datavetenskap och CSAIL, och en forskare inom CBMM; Yevgeni Berzak Ph.D. '17, en postdoktor i Computational Psycholinguistics Group på Institutionen för hjärna och kognitiva vetenskaper; och CSAIL doktorand Battushig Myanganbayar.

    Visuell lärare

    För deras arbete, forskarna kombinerade en semantisk parser med en datorseende komponent tränad i objekt, mänsklig, och aktivitetsigenkänning i video. Semantiska analysörer tränas i allmänhet på meningar som är annoterade med kod som tillskriver varje ord mening och relationerna mellan orden. Vissa har utbildats i stillbilder eller datorsimuleringar.

    Den nya parsern är den första som tränas med video, säger Ross. Till viss del, videor är mer användbara för att minska oklarheter. Om parsern är osäker på, säga, en handling eller ett föremål i en mening, den kan referera till videon för att klargöra saker och ting. "Det finns tidsmässiga komponenter-objekt som interagerar med varandra och med människor-och egenskaper på hög nivå som du inte skulle se i en stillbild eller bara i språk, Säger Ross.

    Forskarna sammanställde en datauppsättning med cirka 400 videor som visar människor som utför ett antal handlingar, inklusive att plocka upp ett föremål eller lägga ner det, och gå mot ett föremål. Deltagare på crowdsourcing -plattformen Mechanical Turk gav sedan 1, 200 bildtexter för dessa videor. De avsatte 840 exempel på video-textning för träning och inställning, och använde 360 ​​för testning. En fördel med att använda synbaserad analys är "du behöver inte nästan lika mycket data-även om du hade [data], du kan skala upp till enorma datamängder, " säger Barbu.

    I träning, forskarna gav parsern målet att avgöra om en mening korrekt beskriver en given video. De gav mataren en video och matchande bildtext. Parsern extraherar möjliga betydelser av bildtexten som logiska matematiska uttryck. Meningen, "Kvinnan plockar upp ett äpple, " till exempel, kan uttryckas som:λxy. kvinna x, pick_up x y, äpple y.

    Those expressions and the video are inputted to the computer-vision algorithm, called "Sentence Tracker, " developed by Barbu and other researchers. The algorithm looks at each video frame to track how objects and people transform over time, to determine if actions are playing out as described. In this way, it determines if the meaning is possibly true of the video.

    Connecting the dots

    The expression with the most closely matching representations for objects, humans, and actions becomes the most likely meaning of the caption. The expression, initially, may refer to many different objects and actions in the video, but the set of possible meanings serves as a training signal that helps the parser continuously winnow down possibilities. "By assuming that all of the sentences must follow the same rules, that they all come from the same language, and seeing many captioned videos, you can narrow down the meanings further, " Barbu says.

    Kortfattat, the parser learns through passive observation:To determine if a caption is true of a video, the parser by necessity must identify the highest probability meaning of the caption. "The only way to figure out if the sentence is true of a video [is] to go through this intermediate step of, 'What does the sentence mean?' Annat, you have no idea how to connect the two, " Barbu explains. "We don't give the system the meaning for the sentence. We say, 'There's a sentence and a video. The sentence has to be true of the video. Figure out some intermediate representation that makes it true of the video.'"

    The training produces a syntactic and semantic grammar for the words it's learned. Given a new sentence, the parser no longer requires videos, but leverages its grammar and lexicon to determine sentence structure and meaning.

    I sista hand, this process is learning "as if you're a kid, " Barbu says. "You see world around you and hear people speaking to learn meaning. One day, I can give you a sentence and ask what it means and, even without a visual, you know the meaning."

    In future work, the researchers are interested in modeling interactions, not just passive observations. "Children interact with the environment as they're learning. Our idea is to have a model that would also use perception to learn, " Ross says.

    This work was supported, till viss del, by the CBMM, the National Science Foundation, a Ford Foundation Graduate Research Fellowship, the Toyota Research Institute, and the MIT-IBM Brain-Inspired Multimedia Comprehension project.

    Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT -forskning, innovation och undervisning.




    © Vetenskap https://sv.scienceaq.com