Udda jobb, en av två robotar i CSE Docent Chad Jenkins labb, griper efter ett föremål. Odd Job och dess dubbelgång, Kaka, för närvarande kan greppa objekt baserat på djup och färguppfattning. Kredit:Joseph Xu, Michigan Engineering
I ett steg mot hemhjälparrobotar som snabbt kan navigera i oförutsägbara och oordnade utrymmen, Forskare från University of Michigan har utvecklat en algoritm som låter maskiner uppfatta sina miljöer i storleksordningar snabbare än liknande tidigare tillvägagångssätt.
"Robotuppfattning är en av de största flaskhalsarna när det gäller att tillhandahålla kapabla hjälprobotar som kan sättas in i människors hem, sa Karthik Desingh, en doktorand i datavetenskap och teknik och huvudförfattare till en artikel om arbetet publicerat i Vetenskapsrobotik .
"I industriella miljöer, där det finns struktur, robotar kan utföra uppgifter som att bygga bilar mycket snabbt. Men vi lever i ostrukturerade miljöer, och vi vill att robotar ska kunna hantera vår röran."
Historiskt sett, robotar fungerar mest effektivt i strukturerade miljöer, bakom skyddsräcken eller burar för att hålla människor säkra och robotens arbetsyta ren och ordningsam. Dock, en människas miljö, på jobbet eller hemma, är vanligtvis ett virrvarr av föremål i olika tillstånd:papper över ett tangentbord, en påse som gömmer bilnycklar, eller ett förkläde som döljer halvöppna skåp.
Teamets nya algoritm kallas Pull Message Passing for Nonparametric Belief Propagation. På 10 minuter kan den beräkna en exakt förståelse av ett objekts ställning – eller position och orientering – till en noggrannhetsnivå som tar tidigare tillvägagångssätt mer än en och en halv timme.
Teamet demonstrerade detta med en Fetch-robot. De visade att deras algoritm korrekt kan uppfatta och använda en uppsättning lådor, även när den är halvtäckt med en filt, när en låda är halvöppen, eller när själva robotens arm döljer en fullständig sensorvy av lådorna. Algoritmen kan också skala bortom en enkel byrå till ett objekt med flera komplicerade leder. De visade att roboten exakt kan uppfatta sin egen kropp och griparm.
"Koncepten bakom vår algoritm, såsom icke-parametrisk trosförökning, används redan i datorseende och presterar mycket bra när det gäller att fånga osäkerheterna i vår värld. Men dessa modeller har haft begränsad inverkan inom robotik eftersom de är mycket dyra beräkningsmässigt, kräver mer tid än praktiskt för en interaktiv robot att hjälpa till med vardagliga uppgifter, sa Chad Jenkins, en professor i datavetenskap och teknik och en central fakultetsmedlem vid Michigan's Robotics Institute.
Tidigare tekniker förlitade sig på "push-meddelanden"
Tekniken för icke-parametrisk trosförökning tillsammans med den liknande tekniken för vidarebefordran av partiklar publicerades först 2003. De är effektiva inom datorseende, som försöker få en grundlig förståelse för en scen genom bilder och video. Det beror på att tvådimensionella bilder eller video kräver mindre beräkningskraft och tid än de tredimensionella scenerna som är involverade i robotuppfattning.
Dessa tidigare tillvägagångssätt förstår en scen genom att översätta den till en grafmodell av noder och kanter, som representerar varje komponent i ett objekt och deras relationer mellan varandra. Algoritmerna antar sedan – eller skapar övertygelser om – komponentplatser och orienteringar när de ges en uppsättning begränsningar. Dessa övertygelser, som forskarna kallar partiklar, varierar över en rad sannolikheter.
För att begränsa de mest troliga platserna och orienteringarna, komponenterna använder "push-meddelanden" för att skicka sannolik platsinformation över noder och tillbaka. Denna platsinformation jämförs sedan med sensordata. Denna process tar flera iterationer för att slutligen komma fram till en korrekt uppfattning om en scen.
Till exempel, gett en byrå med tre lådor, varje komponent i objektet – i det här fallet, varje låda och själva byrån – skulle vara en nod. Begränsningar skulle vara att lådorna måste vara inom byrån, och lådorna rör sig i sidled men inte vertikalt.
Informationen, passerade bland noderna, jämförs med verkliga observationer från sensorer, som en 2D-bild och 3D-punktmoln. Meddelandena upprepas genom iterationer tills det finns en överensstämmelse mellan övertygelserna och sensordata.
De nya algoritmerna går över till "pull meddelanden"
För att förenkla kraven på datoranvändning, Desingh och Michigan-teamet använde vad som kallas "pull messaging". Deras tillvägagångssätt vänder kakofonien fram och tillbaka, informationstäta meddelanden till en kortfattad konversation mellan ett objekts komponenter.
I det här exemplet, istället för att byrån skickar platsinformation till en låda först efter att ha beräknat information från de andra lådorna, byrån kollar med lådorna först. Den frågar varje låda om sin egen tro på sin plats, sedan, för noggrannhet, väger den tron mot information från de andra lådorna. Det konvergerar till en korrekt förståelse av en scen genom iterationer, precis när pushen närmar sig.
För att direkt jämföra deras nya tillvägagångssätt med tidigare tillvägagångssätt, de testade det på en enkel 2D-scen av en cirkel med fyra rektangulära armar gömda bland ett mönster av liknande cirklar och rektanglar.
De tidigare metoderna krävde mer än 20 minuters bearbetningstid per iteration för att skicka meddelanden, medan lagets nya metod tog mindre än två minuter, och när antalet övertygelser eller partiklar ökade, denna förbättring blir exponentiellt snabbare.
I dessa försök, det tog fem iterationer med deras nya algoritm för att uppnå mindre än ett genomsnittligt fel på 3,5 tum i lokaliseringsuppskattningen av lådorna och byrån, eller mindre än 8-tums genomsnittsfel i lokaliseringsuppskattningen när byrån delvis är skymd av en filt.
Detta är i nivå med tidigare tillvägagångssätt, och varierar beroende på ett objekts storlek, antal delar, och hur mycket som är synligt för sensorer. Viktigast av allt, noggrannheten ökar tillräckligt för framgångsrik manipulering av objekt av en robot genom kontinuerliga iterationer.
"Detta är bara början på vad vi kan göra med trospridning i robotuppfattning, ", sa Desingh. "Vi vill skala upp vårt arbete till flera objekt och spåra dem under åtgärdsexekveringen, och även om roboten för närvarande inte tittar på ett föremål. Sedan, roboten kan använda denna förmåga att kontinuerligt observera världen för målorienterad manipulation och framgångsrikt slutföra uppgifter."