Kredit:CC0 Public Domain
Om du kan känna igen strukturer runt dig när du går på en stadsgata, du har dina ögon att tacka. Människor kan automatiskt uppfatta 3D-strukturen i världen genom att identifiera linjer, former, symmetrier och mönstren och relationerna mellan dem i saker som byggnader, trottoarer och vardagsföremål. Men kan en dator läras att göra detsamma?
Zihan Zhou, biträdande professor i informationsvetenskap och teknologi vid Penn State, bestämmer sig för att utforska den frågan tack vare ett nyligen anslag från National Science Foundation.
"Vi vill att en dator ska se 3D-rymden som människor gör, " sa Zhou. "Detta pris och detta projekt handlar om strukturuppfattning, som till stor del har ignorerats i 3D-vision. Det här är något som inte har gjorts tidigare."
Strukturuppfattning är förmågan hos en människas ögon att organisera data eller mönster och gruppera dem på vissa sätt. Till exempel, en människa kan titta på en linjeritning av en byggnad och visualisera dörrar, fönster och väggar.
"Det finns många typer av dessa relationer i den verkliga världen, och människor använder sig av dessa relationer för att känna av 3D-rummet, ", sa han. "Människas ögon kan lätt uppfatta den här typen av saker. Frågan är nu:Kan datorn ha förmågan att känna av dessa saker som en människa gör?"
För att svara på den frågan, Zhou planerar att utveckla ett nytt datadrivet ramverk för strukturupptäckt, utnyttja tillgången på massiva visuella data och de senaste framstegen inom maskininlärningstekniker.
Dessa tekniker kan sedan tillämpas på ett brett spektrum av verkliga datorseendeproblem, inklusive 3D-modellering av stadsmiljöer, virtuell och förstärkt verklighet, och autonom körning. Forskningen kan också påverka kognitionsvetenskap, genom att föreslå nya beräkningsmekanismer för bildförståelse; och interaktion mellan människa och robot, genom att göra det möjligt för robotar att resonera i termer av geometrisk form, fysik och dynamik.
"Om en robot känner igen något som en specifik typ av struktur, då vet den hur den ska interagera med den, " sa Zhou. "Till exempel, om en robot kan känna igen en struktur med en platt topp, den skulle veta att den kunde sätta ett föremål som en kopp på den."
Dessutom, ramverket kan påverka arkitekters arbete, designers och ingenjörer.
"Om du tänker på de arkitekterna, de arbetar med 3D-modeller varje dag, " sa Zhou. "Om de bygger något, de skapar först linjeteckningar. Så om en dator kan förstå dörrar och fönster i ritningarna, det skulle vara mycket användbart för arkitektonisk design och ingenjörskonst."
Zhou utvecklade ett intresse för det här ämnet när han studerade på Adobe. I sin praktik, han studerade förhållandet mellan kamerarörelser och miljön, som skulle kunna hjälpa filmindustrin att analysera scener.
"Jag försökte extrahera några typer av strukturer från videorna och kamerans sekvens, ", sa han. "Vid den tidpunkten var det för att analysera kamerabanan för filmindustrin, men senare insåg vi att det var mer systematiskt."
Nu, i Penn State, Zhou hoppas kunna utnyttja det tvärvetenskapliga nätverket för att främja sitt arbete.
"IST har människor som arbetar inom olika områden, och många av dem kan påverkas av den här typen av arbete, ", sade han. "Detta har genererat mycket intresse inom olika områden. Vi vill utvidga detta och hitta applikationer för att göra detta mer samarbetande."
"Omkring 70 procent av informationen vi får kommer från visuella signaler från våra ögon, ", avslutade han. "Självklart har vi områden som naturlig språkbehandling för att hjälpa till att förstå tal och ljud, men människosyn är den dominerande faktorn för hur vi förstår denna värld. Att få datorn att se världen som vi gör är ett av de mest spännande områdena inom artificiell intelligens och datavetenskap."