'Se' genom robotögon. Kredit:Shutterstock/TrifonenkoIvan
Vision är en av naturens fantastiska skapelser som har funnits med oss i hundratals miljoner år. Det är en nyckelkänsla för människor, men en som vi ofta tar för given:det vill säga, tills vi börjar tappa den eller så försöker vi återskapa den för en robot.
Många forskningslabb (inklusive vårt eget) har modellerat aspekter av synsystemen som finns hos djur och insekter i årtionden. Vi använder mycket studier som de som görs på myror, hos bin och även hos gnagare.
Att modellera ett biologiskt system och göra det användbart för robotar, du behöver vanligtvis förstå både beteendemässiga och neural grunden för det visionsystemet.
Den beteendemässiga komponenten är vad du observerar djuret göra och hur det beteendet förändras när du bråkar med vad det kan se, till exempel genom att prova olika konfigurationer av landmärken. De neurala komponenterna är kretsarna i djurets hjärna som ligger till grund för visuell inlärning för uppgifter, såsom navigering.
Att känna igen ansikten
Igenkänning är en grundläggande visuell process för alla djur och robotar. Det är förmågan att känna igen bekanta människor, djur, föremål och landmärken i världen.
På grund av dess betydelse, ansiktsigenkänning kommer delvis "inbakad" till naturliga system som en baby. Vi kan känna igen ansikten ganska tidigt.
Längs de linjerna, vissa artificiella ansiktsigenkänningssystem är baserade på hur biologiska system tros fungera. Till exempel, forskare har skapat uppsättningar av neurala nätverk som efterliknar olika nivåer av den visuella bearbetningshierarkin hos primater för att skapa ett system som är kapabelt till ansiktsigenkänning.
Att visuellt känna igen en plats är enkelt ... tills utseendet på den platsen förändras drastiskt. Kredit:Michael Milford
Att känna igen platser
Visuell platsigenkänning är en viktig process för allt som navigerar genom världen.
Platsigenkänning är den process genom vilken en robot eller ett djur ser på världen omkring sig och kan förena vad den för närvarande ser med något tidigare minne av en plats, eller när det gäller människor, en beskrivning eller förväntningar på den platsen.
Före tillkomsten av GPS-navigering, vi kan ha fått instruktioner som "kör med tills du ser kyrkan till vänster och ta nästa högersväng". Vi vet hur en typisk kyrka ser ut och kan därför känna igen en när vi ser den.
Denna platsigenkänning kan låta som en lätt uppgift, tills man stöter på utmaningar som utseendeförändringar – till exempel förändringen i utseendet som orsakas av dag-natt-cykler eller av ogynnsamma väderförhållanden.
En annan utmaning i att visuellt känna igen en plats är synsätt förändras :förändringar i hur en plats ser ut om du ser den från ett annat perspektiv.
När man ser den från motsatta synvinklar, samma plats ser väldigt olika ut. Kredit:neyro2008 / Alexander Zelnitskiy / Maxim Popov / 123rf.com / 1 år, 1, 000 km:Oxford RobotCar Dataset
Ett extremt exempel på detta möter du när du följer en rutt längs en väg för första gången - du möter allt i miljön från motsatt synvinkel.
Att skapa ett robotsystem som kan känna igen denna plats trots dessa utmaningar kräver att visionsystemet har en djupare förståelse för vad som finns i miljön runt det.
Avkänningsförmåga
Visuell avkänningshårdvara har utvecklats snabbt under det senaste decenniet, delvis driven av spridningen av mycket kapabla kameror i smartphones. Moderna kameror matchar eller överträffar nu även de mer kapabla system för naturlig syn, åtminstone i vissa aspekter.
Till exempel, en konsumentkamera kan nu se såväl som ett justerat mänskligt öga i mörkret.
Nya smartphonekameror kan också spela in video vid 1, 000 bilder per sekund, möjliggör potentialen för robotbaserade visionsystem som arbetar med en högre frekvens än ett mänskligt visionsystem.
Specialistrobotar synavkänning som Dynamic Vision Sensor (DVS) är ännu snabbare men rapporterar bara förändra i ljusstyrkan av en pixel, snarare än dess absoluta färg. Du kan se skillnaden här på en promenad runt Hyde Park i London:
Alla robotkameror behöver inte heller vara som konventionella kameror:robotiker använder specialistkameror baserade på hur djur som myror ser världen.
Krävs upplösning?
En av de grundläggande frågorna i all synbaserad forskning för robotar och djur är vilken visuell upplösning (eller synskärpa) som krävs för att "få jobbet gjort".
För många insekter och djur som gnagare, en relativt låg visuell upplösning är allt de har tillgång till—motsvarande en kamera med några tusen pixlar i många fall (jämfört med en modern smartphone som har kameraupplösningar från 8 megapixlar till 40 megapixlar).
The required resolution varies greatly depending on the task—for some navigation tasks, only a few pixels are required for both animals such as ants and bees and robots.
But for more complex tasks—such as self-driving cars—much higher camera resolutions are likely to be required.
If cars are ever to reliably recognise and predict what a human pedestrian is doing, or intending to do, they will likely require high resolution visual sensing systems that can pick up subtle facial expressions and body movement.
A tension between bio-inspiration and pragmatism
For roboticists looking to nature for inspiration, there is a constant tension between mimicking biology and capitalising on the constant advances in camera technology.
While biological vision systems were clearly superior to cameras in the past, constant rapid advancement in technology has resulted in cameras with superior sensing capabilities to natural systems in many instances. It's only sensible that these practical capabilities should be exploited in the pursuit of creating high performance and safe robots and autonomous vehicles.
But biology will still play a key role in inspiring roboticists. The natural kingdom is superb at making highly capable vision systems that consume minimal space, computational and power resources, all key challenges for most robotic systems.
Bees navigate effectively using a relatively low resolution visual sensing capability. Credit:Bogdan Mircea Hoda / 123rf.com
Denna artikel publicerades ursprungligen på The Conversation. Läs originalartikeln.