Upphovsman:CC0 Public Domain
Genom att nollställa människors gång, kroppssymmetri och fotplacering, Forskare vid University of Michigan lär självkörande bilar att känna igen och förutsäga fotgängarrörelser med större precision än nuvarande teknik.
Data som samlas in av fordon genom kameror, LiDAR och GPS tillåter forskarna att fånga videosnuttar av människor i rörelse och sedan återskapa dem i 3D-datasimulering. Med det, de har skapat ett "biomekaniskt inspirerat återkommande neuralt nätverk" som katalogiserar mänskliga rörelser.
Med det, de kan förutsäga poser och framtida platser för en eller flera fotgängare upp till cirka 50 meter från fordonet. Det är ungefär storleken på en stadskorsning.
"Tidigare arbete inom detta område har vanligtvis bara tittat på stillbilder. Det var egentligen inte bekymrat över hur människor rör sig i tre dimensioner, "sa Ram Vasudevan, U-M biträdande professor i maskinteknik. "Men om dessa fordon kommer att fungera och interagera i den verkliga världen, vi måste se till att våra förutsägelser om var en fotgängare ska gå inte sammanfaller med vart fordonet ska gå nästa. "
För att utrusta fordon med den nödvändiga förutsägelseeffekten krävs att nätverket dyker in i detaljerna i mänsklig rörelse:takten i en människas gång (periodicitet), spegelns symmetri hos lemmar, och det sätt på vilket fotplacering påverkar stabiliteten under promenader.
Mycket av maskininlärningen som används för att föra autonom teknik till sin nuvarande nivå har handlat om tvådimensionella bilder - stillbilder. En dator som visar flera miljoner foton av ett stoppskylt kommer så småningom att känna igen stoppskyltar i den verkliga världen och i realtid.
Men genom att använda videoklipp som körs i flera sekunder, U-M-systemet kan studera första halvan av kodavsnittet för att göra sina förutsägelser, och verifiera sedan noggrannheten med andra halvlek.
"Nu, vi tränar systemet för att känna igen rörelse och göra förutsägelser om inte bara en enda sak - oavsett om det är ett stoppskylt eller inte - utan var den fotgängarens kropp kommer att vara i nästa steg och nästa och nästa, "sade Matthew Johnson-Roberson, docent vid U-M:s institution för marin arkitektur och marin teknik.
För att förklara vilken typ av extrapoleringar det neurala nätverket kan göra, Vasudevan beskriver en vanlig syn.
"Om en fotgängare leker med sin telefon, du vet att de är distraherade, "Sa Vasudevan." Deras pose och var de letar berättar mycket om deras uppmärksamhet. Det berättar också mycket om vad de kan göra härnäst. "
Resultaten har visat att detta nya system förbättrar ett förarlöst fordons förmåga att inse vad som sannolikt kommer att hända härnäst.
"Medianöversättningsfelet för vår förutsägelse var cirka 10 cm efter en sekund och mindre än 80 cm efter sex sekunder. Alla andra jämförelsemetoder var upp till 7 meter från, "Johnson-Roberson sa." Vi är bättre på att räkna ut var en person kommer att vara. "
För att tömma på antalet alternativ för att förutsäga nästa rörelse, forskarna tillämpade de fysiska begränsningarna i människokroppen - vår oförmåga att flyga eller vår snabbaste möjliga hastighet till fots.
För att skapa datauppsättningen som används för att träna UMs neurala nätverk, forskare parkerade ett fordon med autonoma nivå 4 vid flera korsningar i Ann Arbor. Med bilens kameror och LiDAR vänd mot korsningen, fordonet kunde registrera flera dagars data åt gången.
Forskare förstärkte den verkliga världen, "i det vilda" data från traditionella pose -datauppsättningar fångade i ett labb. Resultatet är ett system som höjer ribban för vad förarlösa fordon kan.
"Vi är öppna för olika applikationer och spännande tvärvetenskapliga samarbetsmöjligheter, och vi hoppas kunna skapa och bidra till ett säkrare, friskare, och en effektivare livsmiljö, "säger UM forskningsingenjör Xiaoxiao Du.