Lär AI-agenter navigeringsunderrutiner genom att mata dem med videor

Med tanke på en ingångsbild som visas överst, forskarna föreslår en ny metod för att lära sig subrutiner, policyer för kort horisont som uppvisar ett sammanhängande beteende (som att gå vänster in i ett rum), och förmågor, vilka subrutiner kan anropas var. Kredit:Kumar, Gupta &Malik.

Forskare vid UC Berkeley och Facebook AI Research har nyligen föreslagit ett nytt tillvägagångssätt som kan förbättra navigeringsförmågan hos modeller för maskininlärning. Deras metod, presenteras i en tidning förpublicerad på arXiv, tillåter modeller att förvärva subrutiner för visuo-motornavigering genom att bearbeta en serie videor.

"Varje morgon, när du bestämmer dig för att ta en kopp kaffe från köket, du tänker på att gå ner i korridoren, svänger vänster in i korridoren och går sedan in i rummet till höger, " skrev forskarna i sin uppsats. "Istället för att bestämma det exakta muskelvridmomentet, du planerar på denna högre abstraktionsnivå genom att komponera dessa återanvändbara visuomotoriska subrutiner på lägre nivå för att nå ditt mål."

Dessa "visuo-motoriska subrutiner" eller "hierarkiska abstraktioner" som människor skapar i sina sinnen hjälper dem i slutändan att effektivt röra sig i sin omgivande miljö. Att återskapa en liknande mekanism i beräkningsagenter kan således avsevärt förbättra deras navigerings- och planeringsförmåga.

Tillvägagångssätt för träningsmodeller på dessa hierarkiska abstraktioner har hittills fallit i två nyckelkategorier:handdesignmetoder (dvs klassisk planering) och förstärkningsinlärningstekniker. Båda dessa typer av tillvägagångssätt, dock, har betydande begränsningar. Klassiska planeringsstrategier är ofta suboptimala, medan metoder för förstärkning kan vara instabila, samt dyra att utveckla och träna.

I deras studie, forskarna vid UC Berkeley och Facebook introducerade ett alternativt paradigm som tillåter modeller att förvärva hierarkiska abstraktioner genom att analysera passiva förstapersonsobservationsdata (dvs. videor). Dessa videor är märkta med agentåtgärder, som i slutändan kan hjälpa en robot att navigera i sin miljö.

"Vi använder en omvänd modell tränad på små mängder interaktionsdata för att pseudomärka de passiva förstapersonsvideorna med agentåtgärder, " förklarade forskarna i sin uppsats. "Visuo-motoriska subrutiner förvärvas från dessa pseudomärkta videor genom att lära sig en latent avsiktsbetingad policy som förutsäger de härledda pseudoaktionerna från motsvarande bildobservationer."

Forskarna utvärderade deras tillvägagångssätt och visade att det avsevärt kan förbättra en agents navigeringsförmåga. I sina tester, deras metod möjliggjorde förvärvet av en mängd olika visuomotoriska subrutiner från passiva förstapersonsvideor.

"Vi visar användbarheten av våra förvärvade visuomotoriska subrutiner genom att använda dem som de är för utforskning och som delpolicyer i ett hierarkiskt RL-ramverk för att nå punktmål och semantiska mål, " skrev forskarna. "Vi visar också beteendet hos våra subrutiner i den verkliga världen, genom att distribuera dem på en riktig robotplattform."

Det tillvägagångssätt som forskarna föreslog gav en anmärkningsvärd prestation på alla mätvärden som bedömts av forskarna. Dessutom, det visade sig överträffa de senaste inlärningsbaserade teknikerna som tränades på avsevärt större interaktionsprover, generera banor som täckte miljön mer grundligt.

Dessutom, medan det nya tillvägagångssättet fick hierarkiska abstraktioner från totalt 45, 000 interaktioner med miljön, de senaste teknikerna den jämfördes med uppnådde mindre tillfredsställande resultat efter upp till 10 miljoner interaktioner. Forskarnas metod överträffade också handgjorda baslinjer som var speciellt utformade för att navigera i miljön samtidigt som de undviker hinder.

"Lärande från förstapersonsvideor gjorde det möjligt för agenten att köra sammanhängande banor, även om det bara hade utfört slumpmässiga handlingar, ", skrev forskarna. "Den lärde sig också framgångsrikt partiskheten mot framåtgående åtgärder i navigering och begreppet undvikande av hinder, vilket leder till ett högt maximalt avstånd och en låg kollisionsfrekvens."

Studien som genomfördes av detta team av forskare introducerar ett livskraftigt och mycket effektivt alternativ till nuvarande metoder för att träna AI-agenter på navigeringssubrutiner. I framtiden, deras tillvägagångssätt skulle kunna bidra till utvecklingen av robotar med mer avancerad planerings- och navigeringsförmåga.

VW säger att samarbetssamtalen med Ford snart är slutförda

Tar stadens puls med rörliga sensorer

Elektronik