Kredit:CC0 Public Domain
Lasersensorerna som för närvarande används för att upptäcka 3D-objekt i vägarna för autonoma bilar är skrymmande, ful, dyr, energiineffektiv – och mycket exakt.
Dessa ljusdetektions- och avståndssensorer (LiDAR) är fästa på bilars tak, där de ökar vindmotståndet, en särskild nackdel för elbilar. De kan lägga till cirka $10, 000 till en bils kostnad. Men trots deras nackdelar, De flesta experter har ansett LiDAR-sensorer som det enda rimliga sättet för självkörande fordon att säkert uppfatta fotgängare, bilar och andra faror på vägen.
Nu, Cornell-forskare har upptäckt att en enklare metod, med två billiga kameror på vardera sidan av vindrutan, kan upptäcka objekt med nästan LiDARs noggrannhet och till en bråkdel av kostnaden. Forskarna fann att analysen av de tagna bilderna från ett fågelperspektiv snarare än den mer traditionella frontvyn mer än tredubblade deras noggrannhet, gör stereokamera till ett lönsamt och billigt alternativ till LiDAR.
"Ett av de väsentliga problemen i självkörande bilar är att identifiera föremål runt dem – det är uppenbarligen avgörande för att en bil ska kunna navigera i sin miljö, " sa Kilian Weinberger, docent i datavetenskap och senior författare till tidningen, "Pseudo-LiDAR från Visual Depth Estimation:Bridging the Gap in 3D Object Detection for Autonomous Driving, " som kommer att presenteras vid 2019 års konferens om datorseende och mönsterigenkänning, 15-21 juni i Long Beach, Kalifornien.
"Den vanliga uppfattningen är att du inte skulle kunna göra självkörande bilar utan LiDARs, " sa Weinberger. "Vi har visat, åtminstone i princip, att det är möjligt."
Den första författaren till tidningen är Yan Wang, doktorand i datavetenskap.
LiDAR-sensorer använder lasrar för att skapa 3D-punktkartor över sin omgivning, mäta objekts avstånd via ljusets hastighet. Stereokameror, som förlitar sig på två perspektiv för att skapa djup, som mänskliga ögon gör, verkade lovande. Men deras noggrannhet i objektdetektering har varit bedrövligt låg, och den konventionella visdomen var att de var för oprecisa.
Sedan tog Wang och medarbetare en närmare titt på data från stereokameror. Till deras förvåning, de fann att deras information var nästan lika exakt som LiDAR. Klyftan i noggrannhet uppstod, de hittade, när stereokamerornas data analyserades.
För de flesta självkörande bilar, data som fångas av kameror eller sensorer analyseras med hjälp av konvolutionella neurala nätverk – en sorts maskininlärning som identifierar bilder genom att använda filter som känner igen mönster som är associerade med dem. Dessa faltningsneurala nätverk har visat sig vara mycket bra på att identifiera objekt i standardfärgfotografier, men de kan förvränga 3D-informationen om den representeras framifrån. Så när Wang och kollegor bytte representationen från ett frontalt perspektiv till ett punktmoln observerat från ett fågelperspektiv, noggrannheten mer än tredubblades.
"När du har kamerabilder, det är så, så, så frestande att titta på fronten, för det är vad kameran ser, " sa Weinberger. "Men där ligger också problemet, för om du ser föremål framifrån så deformerar sättet de bearbetas dem faktiskt, och du suddar ut föremål i bakgrunden och deformerar deras former."
I sista hand, Weinberger sa, stereokameror skulle potentiellt kunna användas som det primära sättet att identifiera objekt i billigare bilar, eller som backupmetod i avancerade bilar som också är utrustade med LiDAR.
"Den självkörande bilindustrin har varit ovillig att gå bort från LiDAR, även med de höga kostnaderna, med tanke på dess utmärkta räckviddsnoggrannhet – vilket är avgörande för säkerheten runt bilen, " sa Mark Campbell, John A. Mellowes '60-professorn och S.C. Thomas Sze, chef för Sibley School of Mechanical and Aerospace Engineering och en medförfattare till tidningen. "Den dramatiska förbättringen av avståndsdetektering och noggrannhet, med fågelperspektiv representation av kameradata, har potential att revolutionera branschen."
Resultaten har implikationer utöver självkörande bilar, sade medförfattaren Bharath Hariharan, biträdande professor i datavetenskap.
"Det finns en tendens i nuvarande praxis att mata data som de är till komplexa maskininlärningsalgoritmer under antagandet att dessa algoritmer alltid kan extrahera relevant information, " Sa Hariharan. "Våra resultat tyder på att detta inte nödvändigtvis är sant, och att vi borde fundera lite över hur uppgifterna representeras."
Även Cornell postdoktor Wei-Lun Chao och Divyansh Garg '20 bidrog.