När den lilla roboten går igenom dina rum för att hitta den orangea handväskan

Kredit:embodiedqa.org

Hmm, det var en gång, Vi blev imponerade av att det här sökfenomenet Google omedelbart kunde svara på frågor och det är genom att bara skriva in ord på ett mellanslagstangent. Mirabile dictu om du frågade var är Miani Google skulle skjuta tillbaka, Menade du Miami?

Fråge-och-svar-scenen har vuxit fram och nu arbetar forskare på en annan nivå där intelligenta system ser, planen, och motivera svaret.

Embodied Question Answering är namnet på ett projekt och titeln på en artikel om arXiv. De sex författarna, med Georgia Institute of Technology och Facebook AI Research-anknytning, beskriva deras arbete som omfattar en rad AI-färdigheter.

EmbodiedQA, som det heter, ger agenter i uppdrag att navigera i rika 3D-miljöer för att svara på frågor. Will Knight, MIT Technology Review , hänvisade till denna "scavenger-hunt-utmaning".

Dessa agenter måste tillsammans lära sig språkförståelse, visuella resonemang, och målstyrd navigering för att lyckas.

Vad det handlar om:En agent skapas på en slumpmässig plats i en 3D-miljö. Agenten får en fråga ("Vilken färg har bilen?"). För att få svaret, agenten måste navigera för att utforska miljön, samla information genom "förstapersons (egocentrisk) vision, " och svara sedan.

Teamet utvecklade ett dataset med frågor och svar i House3D-miljöer. (Du kan ta reda på mer om House3D en virtuell 3D-miljö, på GitHub).

Deras uppsats går in mer i detalj på frågetyperna och mallarna i EQA-datauppsättningen. plats:Vilket rum? Vilken färg har objektet? Vad är ovan, Nedan, bredvid, objektet? Existens:Finns det ett föremål i rummet? Hur många? Är Objekt 1 närmare Objekt 2 än Objekt 3?

Frågorna testar förmågor:objektdetektering, scenigenkänning, räkning, rumsliga resonemang, färgigenkänning och logik.

Också, författarna sa att "EQA är lätt att utöka till att omfatta nya elementära operationer, frågetyper, och mallar efter behov för att öka svårigheten för uppgiften att matcha utvecklingen."

Författarna betonade att EQA inte är en statisk datauppsättning. Snarare, det är ett test för "en läroplan av förmågor som vi skulle vilja uppnå i förkroppsligade kommunicerande agenter."

Varför detta är viktigt: Snabbt företag noterade att detta Facebook och Georgia Tech-projekt faktiskt tränar artificiell intelligenssystem för att analysera naturliga språkfrågor och hitta specifika objekt.

Varför detta spelar roll, till Will Knight in MIT Technology Review :"Föreställ dig att du ber en Roomba att dammsuga sovrummet. Även om maskinen kunde förstå din röst och se dess omgivning, den har ingen aning om vad ett sovrum är, eller var man kan hitta en. Men framtida hemrobotar kanske använder AI-programvara som har lärt sig så enkla fakta om vanliga hem genom att först utforska massor av virtuella hem."

Hur gjorde forskarna det? Daniel Terdiman in Snabbt företag skrev att teamet "använde många typer av maskininlärning för att träna botarna att svara på frågor om det virtuella hemmet."

"Lärande" är en viktig del av vad teamet åstadkommit. Agenten lärde sig vad Knight kallade "en rudimentär form av sunt förnuft." Med försök och misstag, den hittade ut de bästa platserna att leta efter föremålet i fråga. Kanske, till exempel, agenten får veta att bilar vanligtvis finns i garaget. Det kan räkna ut att garagen är utanför fram- eller bakdörren.

Facebook F8:Fyra saker du behöver veta om konferensen

Ingenjörer uppfinner ett smart mikrochip som kan starta och fungera när batteriet tar slut

Elektronik