rom vänster, U of T-forskarna Wenjie Luo, Docent Raquel Urtasun, och Bin Yang på Ubers Advanced Technologies Group (ATG) Toronto. Kredit:Ryan Perez
Ett självkörande fordon måste upptäcka föremål, spåra dem över tid, och förutsäga var de kommer att vara i framtiden för att kunna planera en säker manöver. Dessa uppgifter tränas vanligtvis oberoende av varandra, vilket kan resultera i katastrofer om någon uppgift misslyckas.
Forskare vid University of Torontos avdelning för datavetenskap och Ubers Advanced Technologies Group (ATG) i Toronto har utvecklat en algoritm som gemensamt resonerar kring alla dessa uppgifter – den första som sammanför dem alla. Viktigt, deras lösning tar så lite som 30 millisekunder per bildruta.
"Vi försöker optimera som helhet så att vi kan korrigera misstag mellan var och en av uppgifterna själva, " säger Wenjie Luo, en Ph.D. student i datavetenskap. "När det görs gemensamt, osäkerhet kan spridas och beräkningar delas."
Luo och Bin Yang, en Ph.D. student i datavetenskap, tillsammans med sin handledare, Raquel Urtasun, en docent i datavetenskap och chef för Uber ATG Toronto, kommer att presentera sitt papper, Fast and Furious:Realtid End-to-End 3-D-detektion, Spårning och rörelseprognoser med ett enda konvolutionellt nät, vid denna veckas konferens för datorseende och mönsterigenkänning (CVPR) i Salt Lake City, det främsta årliga datorseendeevenemanget.
Att börja, Uber samlade in en storskalig datauppsättning av flera nordamerikanska städer med hjälp av takmonterade Li-DAR-skannrar som sänder ut laserstrålar för att mäta avstånd. Datauppsättningen innehåller mer än en miljon bildrutor, hämtas från 6, 500 olika scener.
Urtasun säger att utdata från LiDAR är ett punktmoln i tredimensionellt utrymme som måste förstås av ett artificiell intelligens (AI)-system. Denna data är ostrukturerad till sin natur, och skiljer sig således avsevärt från strukturerad data som vanligtvis matas in i AI-system, såsom bilder.
"Om uppgiften är att upptäcka objekt, du kan försöka upptäcka objekt överallt men det finns för mycket ledigt utrymme, så mycket beräkning görs för ingenting. I fågelperspektiv, föremålen vi försöker känna igen sitter på marken och därför är det väldigt effektivt att resonera om var saker är, säger Urtasun.
För att hantera stora mängder ostrukturerad data, Ph.D. studenten Shenlong Wang och forskare från Uber ATG utvecklade ett speciellt AI-verktyg.
"En bild är ett 2D-rutnät. En 3D-modell är ett gäng 3D-nät. Men här, det vi fångar [med Li-DAR] är bara ett gäng poäng, och de är utspridda i det utrymmet, som för traditionell AI är mycket svår att hantera, säger Wang (bilden till vänster).
Urtasun förklarar att det finns en anledning till att AI fungerar riktigt bra på bilder. Bilder är rektangulära objekt, består av små pixlar, även rektangulär, så algoritmerna fungerar bra för att analysera rutnätsliknande strukturer. Men LiDAR-data är utan någon vanlig struktur, vilket gör det svårt för AI-system att lära sig.
Deras resultat för direkt bearbetning av spridda punkter är inte begränsade till självkörning, men alla domäner där det finns ostrukturerad data, inklusive kemi och sociala nätverk.
Nio papper kommer att presenteras på CVPR från Urtasuns labb. Mengye Ren, en Ph.D. student i datavetenskap, Andrej Pokrovsky, en personal mjukvaruingenjör på Uber ATG, Yang och Urtasun sökte också snabbare beräkningar och utvecklade SBNet:Sparse Blocks Network for Fast Inference.
"Vi vill att nätverket ska vara så snabbt som möjligt så att det kan upptäcka och fatta beslut i realtid, utifrån den nuvarande situationen, " säger Ren. "Till exempel, människor tittar på vissa regioner som vi tycker är viktiga att uppfatta, så vi tillämpar detta på självkörning."
För att öka hastigheten på hela beräkningen, säger Ren, de har skapat en sparsam beräkning baserat på vilka regioner som är viktiga. Som ett resultat, deras algoritm visade sig vara upp till 10 gånger snabbare jämfört med befintliga metoder.
"Bilen ser allt, men den fokuserar det mesta av sin beräkning på det som är viktigt, spara beräkning, säger Urtasun.
"Så när det är många bilar [på vägen], beräkningen blir inte för gles, så vi missar inga fordon. Men när det är sparsamt, det kommer adaptivt att ändra beräkningen, säger Ren.
Forskarna släppte SBNet-koden eftersom den är allmänt användbar för att förbättra bearbetningen för små enheter, inklusive smartphones.
Urtasun säger att den totala effekten av hennes grupps forskning har ökat avsevärt när de har sett sina algoritmer implementerade i Ubers självkörande flotta, snarare än att bara bosätta sig i akademiska uppsatser.
"Vi försöker lösa självkörning, säger Urtasun, "vilket är ett av det här århundradets grundläggande problem."