Kredit:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
Under de senaste åren har framsteg i den enorma bearbetningsförmågan och parallelliteten hos moderna grafikprocessorer (GPU) genererat den snabba utvecklingen av djupinlärning baserad på konvolutionella neurala nätverk (CNN), vilket leder till effektiva lösningar för en mängd olika problem i tillämpningar för artificiell intelligens. . De enorma mängderna data som är involverade i visionbearbetning begränsar dock tillämpningen av CNN till den bärbara, energieffektiva, beräkningseffektiva hårdvaran för att bearbeta data på plats.
Flera studier har utförts inom området optisk beräkning för att övervinna utmaningarna med elektriska neurala nätverk. Optisk datoranvändning har många tilltalande fördelar, såsom optisk parallellitet, som avsevärt kan förbättra datorhastigheten, och optisk passivitet kan minska energikostnaden och minimera latensen. Optiska neurala nätverk (ONN) ger ett sätt att öka beräkningshastigheten och övervinna flaskhalsarna i bandbredden hos elektriska enheter. ONN kräver dock en koherent laser som ljuskälla för beräkning och kan knappast kombineras med ett moget maskinseendesystem i naturliga ljusscener. Så opto-elektroniska hybridneurala nätverk, där frontänden är optisk och bakänden är elektrisk, har föreslagits. Dessa linsbaserade system ökar svårigheten att använda i kantenheter, såsom autonoma fordon.
I en ny artikel publicerad i Light:Science &Applications, ett team av forskare, ledda av professor Hongwei Chen från Beijing National Research Centre for Information Science and Technology (BNRist), Department of Electronic Engineering, Tsinghua University, Kina, har utvecklat en linslös opto-elektronisk neural nätverksarkitektur (LOEN) för datorseende uppgifter som använder en passiv mask som infogas i bildljusbanan för att utföra faltningsoperationer i det optiska fältet och tar itu med utmaningen att bearbeta inkoherenta och bredbandiga ljussignaler i naturliga scener. Dessutom kombineras den optiska länken, bildsignalbehandlingen och back-end-nätverket smidigt för att uppnå gemensam optimering för specifika uppgifter för att minska beräkningsansträngningen och energiförbrukningen genom hela pipelinen.
Kredit:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
Jämfört med hårdvaruarkitekturen i konventionell maskinseende, föreslås en optisk mask nära bildsensorn för att ersätta linserna. Enligt den geometriska optikteorin att ljus fortplantar sig i en rak linje, kan scenerna betraktas som uppsättningar av punktljuskällor, och den optiska signalen moduleras rumsligt av masken för att realisera faltningsoperationen av skift och överlagring på bildsensorn. Det har verifierats att optiska masker kan ersätta de konvolutionella lagren av neurala nätverk för extraktion av funktioner i den optiska domänen.
För objektklassificeringsuppgifter som handskriven sifferigenkänning, byggs ett lätt nätverk för realtidsigenkänning för att verifiera prestanda för den optiska faltningen i arkitekturen. När du använder en enda faltningskärna kan igenkänningsnoggrannheten nå 93,47 %. När flerkanalsfalsningsoperationen implementeras genom att arrangera flera kärnor parallellt på masken, kan klassificeringsnoggrannheten förbättras till 97,21 %. Jämfört med traditionella maskinseende länkar kan den spara cirka 50 % av energiförbrukningen.
Kredit:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
Vidare expanderar den optiska maskens dimension, bilden konvolveras i den optiska domänen, och sensorn fångar en aliasbild som är oigenkännlig för det mänskliga ögat, som naturligt kan kryptera privat information utan beräkningskonsumtion. Prestanda för optisk kryptering verifierades på ansiktsigenkänningsuppgiften. Jämfört med det slumpmässiga MLS-mönstret förbättrades igenkänningsnoggrannheten för masken som optimerats gemensamt av ett änd-till-änd-nätverk med mer än 6 %. Samtidigt med kryptering av integritetsskydd uppnådde den i princip samma prestanda för igenkänningsnoggrannhet som metoder utan kryptering.
Detta arbete föreslår ett extremt förenklat system för maskinseendeuppgifter, som inte bara realiserar den opto-elektroniska neurala nätverksberäkningen i naturliga scener utan också öppnar upp hela den optoelektroniska länken för att slutföra gemensam optimering för att uppnå bästa resultat för en specifik synuppgift. I kombination med de olinjära materialen kommer det neurala nätverket med helt naturligt ljus att uppnås. Den nya arkitekturen kommer att ha många potentiella tillämpningar i många faktiska scenarier, såsom autonom körning, smarta hem och smart säkerhet. + Utforska vidare