Datavetare vid University of Texas i Austin har lärt en agent för artificiell intelligens hur man gör något som vanligtvis bara människor kan göra - ta några snabba glimtar runt och härleda hela miljön. Kredit:Jenna Luecke/University of Texas at Austin.
Datavetare vid University of Texas i Austin har lärt en agent för artificiell intelligens hur man gör något som vanligtvis bara människor kan göra – ta några snabba glimtar runt och härleda hela dess miljö, en färdighet som är nödvändig för utvecklingen av effektiva sök- och räddningsrobotar som en dag kan förbättra effektiviteten i farliga uppdrag. Laget, ledd av professor Kristen Grauman, Ph.D. kandidat Santhosh Ramakrishnan och tidigare Ph.D. kandidat Dinesh Jayaraman (nu vid University of California, Berkeley) publicerade sina resultat i dag i tidskriften Vetenskapsrobotik .
De flesta AI-agenter – datorsystem som kan förse robotar eller andra maskiner med intelligens – är utbildade för mycket specifika uppgifter – som att känna igen ett objekt eller uppskatta dess volym – i en miljö som de har upplevt tidigare, som en fabrik. Men agenten som utvecklats av Grauman och Ramakrishnan är allmänt ändamål, samla in visuell information som sedan kan användas för en mängd olika uppgifter.
"Vi vill ha en agent som generellt är utrustad för att komma in i miljöer och vara redo för nya uppfattningsuppgifter när de uppstår, ", sa Grauman. "Den beter sig på ett sätt som är mångsidigt och kan lyckas med olika uppgifter eftersom det har lärt sig användbara mönster om den visuella världen."
Forskarna använde djupinlärning, en typ av maskininlärning inspirerad av hjärnans neurala nätverk, att träna sin agent på tusentals 360-gradersbilder av olika miljöer.
Nu, när den presenteras för en scen som den aldrig har sett förut, agenten använder sin erfarenhet för att välja några glimtar – som en turist som står mitt i en katedral och tar några ögonblicksbilder åt olika håll – som tillsammans utgör mindre än 20 procent av hela scenen. Det som gör det här systemet så effektivt är att det inte bara tar bilder i slumpmässiga riktningar utan, efter varje glimt, Om du väljer nästa bild som den förutsäger kommer att lägga till mest ny information om hela scenen. Det här är ungefär som om du var i en livsmedelsbutik du aldrig hade besökt förut, och du såg äpplen, du förväntar dig att hitta apelsiner i närheten, men för att hitta mjölken, du kanske tittar åt andra hållet. Baserat på glimtar, agenten drar slutsatsen vad den skulle ha sett om den hade tittat åt alla andra håll, rekonstruerar en hel 360-graders bild av dess omgivning.
En ny AI-agent utvecklad av forskare vid University of Texas i Austin tar några "glimtar" av sin omgivning, representerar mindre än 20 procent av hela 360 graders vy, och härleder resten av hela miljön. Det som gör det här systemet så effektivt är att det inte bara tar bilder i slumpmässiga riktningar utan, efter varje glimt, Om du väljer nästa bild som den förutsäger kommer att lägga till mest ny information om hela scenen. Kredit:David Steadman/Santhosh Ramakrishnan/University of Texas i Austin
"Precis som du tar in tidigare information om regelbundenhet som finns i tidigare upplevda miljöer - som alla livsmedelsbutiker du någonsin har varit i - söker den här agenten på ett icke uttömmande sätt, ", sa Grauman. "Den lär sig att göra intelligenta gissningar om var man ska samla visuell information för att lyckas med perceptionsuppgifter."
En av de viktigaste utmaningarna som forskarna ställde upp för sig själva var att designa en agent som kan arbeta under snäva tidsbegränsningar. Detta skulle vara avgörande i en sök-och-räddningsapplikation. Till exempel, i en brinnande byggnad skulle en robot uppmanas att snabbt lokalisera människor, lågor och farliga material och vidarebefordra den informationen till brandmän.
Tills vidare, den nya agenten fungerar som en person som står på ett ställe, med förmågan att rikta en kamera åt alla håll men inte kunna flytta till en ny position. Eller, motsvarande, agenten kan titta på ett föremål som den håller i och bestämma hur man vänder på föremålet för att inspektera en annan sida av det. Nästa, forskarna utvecklar systemet vidare för att fungera i en helt mobil robot.
Använda superdatorerna vid UT Austins Texas Advanced Computing Center och Institutionen för datavetenskap, det tog ungefär en dag att träna sin agent med hjälp av en artificiell intelligens som kallas förstärkningsinlärning. Laget, med Ramakrishnans ledarskap, utvecklat en metod för att påskynda utbildningen:bygga en andra agent, kallas en sidekick, att hjälpa den primära agenten.
"Att använda extra information som är närvarande enbart under utbildningen hjälper [primär] agenten att lära sig snabbare, " sa Ramakrishnan.