Brendan Englot vid Stevens Institute of Technology kommer att utnyttja en ny variant av ett klassiskt verktyg för artificiell intelligens för att skapa robotar som kan förutsäga och hantera riskerna med att slutföra den önskade uppgiften. Kredit:Stevens Institute of Technology
Precis som människor, när robotar har ett beslut att fatta finns det ofta många alternativ och hundratals potentiella resultat. Robotar har kunnat simulera en handfull av dessa resultat för att ta reda på vilken handling som är mest sannolikt att leda till framgång. Men vad händer om ett av de andra alternativen var lika sannolikt att lyckas – och säkrare?
Office of Naval Research har tilldelat Brendan Englot, en MIT-utbildad maskiningenjör vid Stevens Institute of Technology, en Young Investigator Award 2020 på $508, 693 för att utnyttja en ny variant av ett klassiskt artificiell intelligensverktyg för att tillåta robotar att förutsäga de många möjliga resultaten av sina handlingar, och hur sannolikt det är att de inträffar. Ramverket kommer att tillåta robotar att ta reda på vilket alternativ som är det bästa sättet att uppnå ett mål, genom att förstå vilka alternativ som är de säkraste, mest effektiva – och minst sannolikt att misslyckas.
"Om det snabbaste sättet för en robot att slutföra en uppgift är att gå på kanten av en klippa, det är att offra säkerhet för hastighet, sa Englot, vem kommer att vara bland de första att använda verktyget, distributionsförstärkningsinlärning, att träna robotar. "Vi vill inte att roboten faller från kanten av klippan, så vi ger dem verktygen att förutsäga och hantera riskerna med att slutföra den önskade uppgiften."
I åratal, förstärkningsinlärning har använts för att träna robotar att navigera autonomt i vattnet, land och luft. Men det AI-verktyget har begränsningar, eftersom den fattar beslut baserat på ett enda förväntat resultat för varje tillgänglig åtgärd, när det i själva verket ofta finns många andra möjliga utfall som kan inträffa. Englot använder distributionsförstärkningsinlärning, en AI-algoritm som en robot kan använda för att utvärdera alla möjliga resultat, förutsäg sannolikheten för att varje åtgärd ska lyckas och välj det mest ändamålsenliga alternativet som sannolikt kommer att lyckas samtidigt som du håller en robot säker.
Innan han använder sin algoritm i en verklig robot, Englots första uppdrag är att fullända algoritmen. Englot och hans team skapar ett antal beslutssituationer för att testa sin algoritm. Och de vänder sig ofta till en av fältets favoritspelplatser:Atari-spel.
Till exempel, när du spelar Pacman, du är algoritmen som avgör hur Pacman beter sig. Ditt mål är att få alla prickar i labyrinten och om du kan, få lite frukt. Men det finns spöken som svävar runt som kan döda dig. Varje sekund, du tvingas ta ett beslut. Går du direkt, vänster eller höger? Vilken väg ger dig flest punkter – och punkter – samtidigt som du håller dig borta från spökena?
Englots AI-algoritm, använda distributionsförstärkningsinlärning, kommer att ersätta en mänsklig spelare, simulerar alla möjliga rörelser för att säkert navigera i dess landskap.
Så hur belönar man en robot? Englot och hans team kommer att tilldela poäng till olika resultat, dvs. om det faller av en klippa, roboten får -100 poäng. Om det går långsammare, men säkrare alternativ, den kan få -1 poäng för varje steg längs omvägen. Men om det lyckas nå målet, den kan få +50.
"Ett av våra sekundära mål är att se hur belöningssignaler kan utformas för att positivt påverka hur en robot fattar beslut och kan tränas, ", sa Englot. "Vi hoppas att teknikerna som utvecklats i detta projekt i slutändan kan användas för ännu mer komplex AI, som att träna undervattensrobotar att navigera säkert i varierande tidvatten, strömmar, och andra komplexa miljöfaktorer."