Kredit:CC0 Public Domain
I den kanadensiska författaren Margaret Atwoods bok Den blinde mördaren , hon säger att "beröring kommer före synen, före tal. Det är det första språket och det sista, och den säger alltid sanningen."
Medan vårt beröringssinne ger oss en kanal för att känna den fysiska världen, våra ögon hjälper oss att omedelbart förstå hela bilden av dessa taktila signaler.
Robotar som har programmerats att se eller känna kan inte använda dessa signaler lika omväxlande. För att bättre överbrygga detta sensoriska gap, forskare från MIT:s Computer Science and Artificial Intelligence Laboratory (CSAIL) har kommit fram till en prediktiv artificiell intelligens (AI) som kan lära sig att se genom att röra, och lär dig känna genom att se.
Teamets system kan skapa realistiska taktila signaler från visuella ingångar, och förutsäga vilket föremål och vilken del som berörs direkt från dessa taktila ingångar. De använde en KUKA-robotarm med en speciell taktil sensor som heter GelSight, designad av en annan grupp vid MIT.
Med hjälp av en enkel webbkamera, laget spelade in nästan 200 föremål, som verktyg, hushållsprodukter, tyger, och mer, berörs mer än 12, 000 gånger. Slå sönder de 12, 000 videoklipp ner i statiska ramar, teamet sammanställde "VisGel, " en datauppsättning med mer än 3 miljoner visuella/taktil-parade bilder.
"Genom att titta på scenen, vår modell kan föreställa sig känslan av att röra vid en plan yta eller en vass kant, säger Yunzhu Li, CSAIL Ph.D. student och huvudförfattare på ett nytt papper om systemet. "Genom att blint röra runt, vår modell kan förutsäga interaktionen med omgivningen enbart utifrån taktila känslor. Att föra samman dessa två sinnen kan ge roboten kraft och minska den data vi kan behöva för uppgifter som involverar att manipulera och greppa föremål."
Nyligen arbete för att utrusta robotar med mer människoliknande fysiska sinnen, som MIT:s 2016-projekt som använder djupinlärning för att visuellt indikera ljud, eller en modell som förutsäger objekts svar på fysiska krafter, båda använder stora datamängder som inte är tillgängliga för att förstå interaktioner mellan syn och beröring.
Teamets teknik kommer runt detta genom att använda VisGel dataset, och något som kallas generative adversarial networks (GAN).
Yunzhu Li är doktorand vid MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). Kredit:Massachusetts Institute of Technology
GAN:er använder visuella eller taktila bilder för att generera bilder i den andra modaliteten. De fungerar genom att använda en "generator" och en "diskriminator" som konkurrerar med varandra, där generatorn syftar till att skapa verkliga bilder för att lura diskriminatorn. Varje gång diskriminatorn "fångar" generatorn, det måste avslöja det interna motivet för beslutet, vilket gör att generatorn kan förbättra sig själv upprepade gånger.
Syn att beröra
Människor kan sluta sig till hur ett föremål känns bara genom att se det. För att bättre ge maskiner denna kraft, systemet var först tvungen att lokalisera beröringspositionen, och sedan härleda information om formen och känslan av regionen.
Referensbilderna – utan någon interaktion mellan robot och objekt – hjälpte systemet att koda detaljer om objekten och miljön. Sedan, när robotarmen var i drift, modellen kan helt enkelt jämföra den aktuella ramen med dess referensbild, och enkelt identifiera platsen och skalan för beröringen.
Det här kan se ut som att mata systemet med en bild av en datormus, och sedan "se" området där modellen förutsäger att föremålet ska vidröras för upphämtning - vilket i hög grad kan hjälpa maskiner att planera säkrare och mer effektiva åtgärder.
Rör för att se
För beröring till syn, syftet var att modellen skulle producera en visuell bild baserad på taktil data. Modellen analyserade en taktil bild, och sedan räknat ut formen och materialet för kontaktpositionen. Den tittade sedan tillbaka till referensbilden för att "hallucinera" interaktionen.
Till exempel, om modellen under testningen matades med taktil data på en sko, det skulle kunna ge en bild av var den där skon med största sannolikhet skulle vidröras.
Denna typ av förmåga kan vara till hjälp för att utföra uppgifter i fall där det inte finns några visuella data, som när en lampa är släckt, eller om en person blint sträcker sig in i en låda eller okänt område.
Blickar framåt
Den aktuella datamängden har bara exempel på interaktioner i en kontrollerad miljö. Teamet hoppas kunna förbättra detta genom att samla in data i mer ostrukturerade områden, eller genom att använda en ny MIT-designad taktil handske, för att bättre öka datasetets storlek och mångfald.
Det finns fortfarande detaljer som kan vara svåra att sluta sig till från att byta läge, som att tala om färgen på ett föremål genom att bara röra vid det, eller berätta hur mjuk en soffa är utan att egentligen trycka på den. Forskarna säger att detta kan förbättras genom att skapa mer robusta modeller för osäkerhet, att utöka fördelningen av möjliga resultat.
I framtiden, denna typ av modell kan hjälpa till med ett mer harmoniskt förhållande mellan vision och robotik, speciellt för objektigenkänning, gripande, bättre scenförståelse, och hjälpa till med sömlös människa-robot-integration i en assisterande eller tillverkningsmiljö.
"Detta är den första metoden som på ett övertygande sätt kan översätta mellan visuella och beröringssignaler, " säger Andrew Owens, en postdoc vid University of California i Berkeley. "Sådana metoder har potential att vara mycket användbara för robotik, där du behöver svara på frågor som "är det här föremålet hårt eller mjukt?", eller om jag lyfter den här muggen i dess handtag, hur bra kommer mitt grepp att vara?" Det här är ett mycket utmanande problem, eftersom signalerna är så olika, och den här modellen har visat stor förmåga."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.