Manuelli använder DON-systemet och Kuka-roboten för att ta tag i en kopp. Kredit:Tom Buehler
Människor har länge varit mästare på skicklighet, en färdighet som till stor del kan tillskrivas våra ögons hjälp. Robotar, under tiden, är fortfarande ikapp. Visst har det skett vissa framsteg:i årtionden har robotar i kontrollerade miljöer som löpande band kunnat plocka upp samma föremål om och om igen.
På senare tid, genombrott inom datorseende har gjort det möjligt för robotar att göra grundläggande skillnader mellan objekt, men även då, de förstår inte riktigt föremåls former, så det är lite de kan göra efter en snabb upphämtning.
I en ny tidning, forskare från MIT:s datavetenskap och artificiell intelligens Laboratory (CSAIL), säga att de har gjort en nyckelutveckling inom detta arbetsområde:ett system som låter robotar inspektera slumpmässiga objekt, och visuellt förstå dem tillräckligt för att utföra specifika uppgifter utan att någonsin ha sett dem förut.
Systemet, kallad "Dense Object Nets" (DON), ser på objekt som samlingar av punkter som fungerar som "visuella färdplaner" av olika slag. Detta tillvägagångssätt låter robotar bättre förstå och manipulera föremål, och, viktigast, tillåter dem att till och med plocka upp ett specifikt föremål bland en mängd liknande föremål - en värdefull färdighet för den typ av maskiner som företag som Amazon och Walmart använder i sina lager.
Till exempel, någon kan använda DON för att få en robot att gripa tag i en specifik plats på ett föremål – säg, tungan på en sko. Från det, den kan titta på en sko den aldrig har sett förut, och lyckas ta tag i dess tunga.
"Många metoder för manipulation kan inte identifiera specifika delar av ett objekt över de många orienteringar som objektet kan stöta på, säger doktoranden Lucas Manuelli, som skrev en ny uppsats om systemet med huvudförfattare och doktorand. student Pete Florence, tillsammans med MIT-professorn Russ Tedrake. "Till exempel, befintliga algoritmer skulle inte kunna greppa en mugg i dess handtag, speciellt om muggen kan vara i flera riktningar, som upprätt, eller på sin sida."
Teamet ser potentiella tillämpningar inte bara i tillverkningsmiljöer, men även i hemmen. Föreställ dig att ge systemet en bild av ett städat hus, och låta det städa medan du är på jobbet, eller genom att använda en bild av rätter så att systemet lägger undan dina tallrikar medan du är på semester.
Vad som också är anmärkningsvärt är att ingen av uppgifterna faktiskt märktes av människor; snarare, systemet är "självövervakat, "så det kräver inga mänskliga kommentarer.
Gör det lätt att greppa
Två vanliga tillvägagångssätt för robotgrepp involverar antingen uppgiftsspecifik inlärning, eller skapa en allmän greppalgoritm. Dessa tekniker har båda hinder:uppgiftsspecifika metoder är svåra att generalisera till andra uppgifter, och allmän förståelse blir inte tillräckligt specifik för att hantera nyanserna i vissa uppgifter, som att placera föremål på specifika ställen.
DON-systemet, dock, skapar i huvudsak en serie koordinater på ett givet objekt, som fungerar som en slags "visuell färdplan" över objekten, för att ge roboten en bättre förståelse för vad den behöver förstå, och var.
Teamet tränade systemet att se på objekt som en serie punkter som utgör ett större koordinatsystem. Den kan sedan kartlägga olika punkter tillsammans för att visualisera ett objekts 3D-form, liknande hur panoramafoton sammanfogas från flera foton. Efter träning, om en person specificerar en punkt på ett föremål, roboten kan ta ett foto av det objektet, och identifiera och matcha punkter för att sedan kunna plocka upp objektet vid den angivna punkten.
Detta skiljer sig från system som UC-Berkeleys DexNet, som kan ta tag i många olika föremål, men kan inte tillgodose en specifik begäran. Föreställ dig ett spädbarn vid 18 månader gammalt, som inte förstår vilken leksak du vill att den ska leka med men som ändå kan få tag i massor av föremål, kontra en fyraåring som kan svara och "gå och ta din lastbil i den röda änden av den."
I en uppsättning tester gjorda på en mjuk larvleksak, en Kuka-robotarm som drivs av DON kunde greppa leksakens högra öra från en rad olika konfigurationer. Detta visade att, bland annat, systemet har förmågan att skilja vänster från höger på symmetriska objekt.
När du testar på en behållare med olika basebollhattar, DON kunde välja ut en specifik målhatt trots att alla hattar hade väldigt liknande design – och att de aldrig tidigare sett bilder på hattarna i träningsdata.
"I fabriker behöver robotar ofta komplexa delmatare för att fungera tillförlitligt, ", säger Manuelli. "Men ett sådant här system som kan förstå objekts orientering kan bara ta en bild och kunna greppa och justera objektet därefter."
I framtiden, teamet hoppas kunna förbättra systemet till en plats där det kan utföra specifika uppgifter med en djupare förståelse för motsvarande objekt, som att lära sig att greppa ett föremål och flytta det med det slutliga målet att säga, städa ett skrivbord.
Teamet kommer att presentera sitt papper om systemet nästa månad vid konferensen om robotinlärning i Zürich, Schweiz.