Förbättra människoliknande uppfattning i självkörande fordon

I motsats till panoptisk segmentering (mitten), förutsäger amodal panoptisk segmentering (botten) hela objektinstanser inklusive deras ockluderade områden, t.ex. bilar och människor, av ingångsbilden (överst). Kredit:Berkeley DeepDrive; Abhinav Valada; Abhinav Valada

Hur kan mobila robotar uppfatta och förstå miljön korrekt, även om delar av miljön är tilltäppta av andra objekt? Detta är en nyckelfråga som måste lösas för att självkörande fordon ska kunna navigera säkert i stora fullsatta städer. Medan människor kan föreställa sig fullständiga fysiska strukturer av objekt även när de är delvis tilltäppta, har existerande artificiell intelligens (AI) algoritmer som gör det möjligt för robotar och självkörande fordon att uppfatta sin miljö inte denna förmåga.

Robotar med AI kan redan hitta runt och navigera på egen hand när de har lärt sig hur deras miljö ser ut. Men att uppfatta hela strukturen av föremål när de är delvis dolda, till exempel människor i folksamlingar eller fordon i trafikstockningar, har varit en betydande utmaning. Ett stort steg mot att lösa detta problem har nu tagits av Freiburgs robotforskare Prof. Dr. Abhinav Valada och Ph.D. student Rohit Mohan från Robot Learning Lab vid University of Freiburg, som de har presenterat i två gemensamma publikationer.

De två Freiburg-forskarna har utvecklat den amodala panoptiska segmenteringsuppgiften och visat dess genomförbarhet med hjälp av nya AI-metoder. Fram till nu har självkörande fordon använt panoptisk segmentering för att förstå sin omgivning.

Det betyder att de än så länge bara kan förutsäga vilka pixlar i en bild som hör till vilka "synliga" regioner av ett objekt som en person eller bil, och identifiera instanser av dessa objekt. Vad de saknar hittills är att kunna förutsäga hela formen på föremål även när de är delvis tilltäppta av andra föremål bredvid dem. Den nya uppgiften med perception med amodal panoptisk segmentering gör denna holistiska förståelse av miljön möjlig.

"Amodal" hänvisar till fallet att varje partiell ocklusion av objekt måste abstraheras och istället för att se dem som fragment, bör det finnas en allmän förståelse för att se dem som en helhet. Således kommer denna förbättrade förmåga till visuell igenkänning att leda till enorma framsteg när det gäller att förbättra säkerheten för självkörande fordon.

Potential att revolutionera förståelsen av urban visuell scen

I en ny artikel publicerad på IEEE/CVF Computer Vision and Pattern Recognition Conference (tillgänglig online som ett förtryck), har forskarna lagt till den nya uppgiften till etablerade benchmark-datauppsättningar och gjort dem allmänt tillgängliga. De uppmanar nu forskare att delta i benchmarkingen med sina egna AI-algoritmer.

Målet med denna uppgift är den pixelvisa semantiska segmenteringen av de synliga regionerna i amorfa bakgrundsklasser som vägar, vegetation, himmel och instanssegmenteringen av både synliga och ockluderade objektregioner i räknebara klasser som bilar, lastbilar och fotgängare.

Riktmärket och datauppsättningarna är offentligt tillgängliga på webbplatsen, inklusive två föreslagna nya inlärningsalgoritmer. "Vi är övertygade om att nya AI-algoritmer för denna uppgift kommer att göra det möjligt för robotar att efterlikna den visuella upplevelsen som människor har genom att uppfatta fullständiga fysiska strukturer av objekt," förklarar Valada.

"Amodal panoptisk segmentering kommer avsevärt att hjälpa nedströms automatiserade köruppgifter där ocklusion är en stor utmaning såsom djupuppskattning, optiskt flöde, objektspårning, poseuppskattning, rörelseförutsägelse, etc. Med mer avancerade AI-algoritmer för denna uppgift, visuell igenkänningsförmåga för sig själv -körning av bilar kan revolutioneras. Om till exempel hela strukturen hos trafikanter uppfattas hela tiden, oavsett partiella ocklusioner, kan risken för olyckor minimeras avsevärt."

Dessutom, genom att sluta sig till den relativa djupordningen av objekt i en scen, kan automatiserade fordon fatta komplexa beslut som till exempel i vilken riktning de ska röra sig mot objektet för att få en klarare sikt. För att förverkliga dessa visioner presenterades uppgiften och dess fördelar för ledande bilindustriproffs på AutoSens, som hölls på Autoworld Museum i Bryssel.

Den andra uppsatsen visas i IEEE Robotics and Automation Letters . + Utforska vidare