FIGUR 1:Ett helt händelsebaserat stereovisionssystem som består av ett par Dynamic Vision-sensorer (vänster) som skickar deras utdata till ett kluster av TrueNorth-processorer (höger). Kredit:IBM
The Brain-Inspired Computing Group på IBM Research-Almaden kommer att presentera vårt senaste dokument med titeln "A Low Power, vid 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018). Hög genomströmning, Helt händelsebaserat stereosystem." Uppsatsen beskriver ett heltäckande stereovisionsystem som uteslutande använder spikande neurala nätverksberäkningar och kan köras på neuromorf hårdvara med en livestreaming spiking-ingång. Inspirerad av det mänskliga synsystemet, den använder ett kluster av IBM TrueNorth-chips och ett par digitala retinasensorer (även kända som Dynamic Vision Sensors, DVS) för att extrahera djupet av snabbt rörliga föremål i en scen. Vårt system fångar scener i 3D med låg effekt, låg latens och hög genomströmning, som har potential att främja utformningen av intelligenta system.
Vad är stereovision?
Stereosyn är uppfattningen om djup och 3D-struktur. När du tittar på ett objekt, till exempel, dina ögon ger två olika bilder av det eftersom deras positioner är något olika. Skillnaderna mellan de två bilderna bearbetas i hjärnan för att generera information om objektets plats och avstånd. Vårt system replikerar denna förmåga för datorer. Det relativa läget för ett objekt i bilder från de två sensorerna jämförs, och objektets placering i 3D-rymden beräknas via triangulering av dessa data.
Stereo vision-system används i intelligenta system för industriell automation (att slutföra uppgifter som soplock, 3D-objektlokalisering, volym och mätning av bildelar), autonom körning, mobil robotnavigering, övervakning, förstärkt verklighet, och andra ändamål.
Neuromorf teknologi
Vårt stereovisionssystem är unikt eftersom det är fullt implementerat på händelsebaserad digital hårdvara (TrueNorth neurosynaptiska processorer), använder en helt grafbaserad icke von-Neumann beräkningsmodell, utan ramar, arrayer, eller någon annan sådan gemensam datastruktur. Detta är första gången som en end-to-end realtids stereopipeline implementeras fullt ut på händelsebaserad hårdvara ansluten till en visionsensor. Vårt arbete visar hur en mångsidig uppsättning vanliga subrutiner som är nödvändiga för stereosyn (upprättelse, flerskalig rumslig-temporal stereokorrespondens, vinnaren tar allt, och ojämlikhetsreglering) kan implementeras effektivt på ett piggt neuralt nätverk. Denna arkitektur använder mycket mindre ström än konventionella system, vilket skulle kunna gynna utformningen av autonoma mobilsystem.
Vidare, istället för vanliga videokameror, som fångar en scen som en serie bildrutor, vi använder ett par DVS -kameror, som bara reagerar på förändringar i scenen. Detta resulterar i mindre data, lägre energiförbrukning, hög hastighet, låg latens, och bra dynamiskt omfång, som alla också är nyckeln till utformningen av realtidssystem.
Både processorerna och sensorerna härmar mänsklig neural aktivitet genom att representera data som asynkrona händelser, ungefär som neuron spikar i hjärnan. Vårt system bygger på Misha Mahowalds tidiga inflytelserika arbete i designen av neuromorfa system. Gruppen Brain-Inspired Computing har tidigare utformat ett händelsebaserat system för att identifiera gester med liknande teknik.
Vårt end-to-end stereosystem ansluter ett par DVS-händelsekameror (iniLabs DAVIS240C-modeller) via USB till en bärbar dator, som distribuerar beräkningen via ethernet till ett kluster med nio TrueNorth -processorer. Varje TrueNorth-processor är ansvarig för stereoskillnadsberäkningarna på en delmängd av ingången. Med andra ord, detta är en utskalningsmetod för beräkning av stereo, eftersom systemet möjliggör, i princip, tillägget av många fler TrueNorth-processorer för att kunna bearbeta större indata.
FIGUR 2:Utdata från en konventionell rambaserad kamera (vänster) kontra Dynamic Vision Sensors (höger) för en roterande fläkt. Dynamic Vision Sensors ger skarpare kanter för snabbt rörliga föremål. Upphovsman:IBM Blog Research
DAVIS-kamerorna har två 3,5 mm ljudjack, gör det möjligt att synkronisera händelserna som produceras av de två sensorerna. Detta är avgörande för systemdesignen. Disparitetsutgångarna från TrueNorth-chippen skickas sedan tillbaka till den bärbara datorn, som omvandlar disparitetsvärdena till faktiska 3D-koordinater. En openGL-baserad visualizer som körs på den bärbara datorn gör det möjligt för användaren att visualisera den rekonstruerade scenen från vilken synvinkel som helst. Live-feed-versionen av systemet som körs på nio TrueNorth-chips beräknas beräkna 400 disparitetskartor per sekund med upp till 11 ms latens och en ~200X förbättring i termer av effekt per pixel per disparitetskarta jämfört med det närmaste tillståndet av -konsten. Vidare, förmågan att öka detta upp till 2, 000 skillnader per sekund (med förbehåll för vissa avvägningar) diskuteras i tidningen.
FIGUR 3:Djuprekonstruktion för en roterande fläkt från kameravyn (uppifrån) och från en sned vy (nedtill). Kredit:IBM