UCLA-forskare skapade ett maskinseendesystem med en pixel som kan koda in objekts rumsliga information i ljusspektrumet för att optiskt klassificera ingångsobjekt och rekonstruera deras bilder med hjälp av en enpixeldetektor. Kredit:Ozcan Lab @ UCLA.
Machine vision-system har många applikationer, inklusive självkörande bilar, intelligent tillverkning, robotkirurgi och biomedicinsk avbildning, bland många andra. De flesta av dessa maskinseendesystem använder linsbaserade kameror, och efter att en bild eller video har tagits, vanligtvis med några megapixlar per bildruta, en digital processor används för att utföra maskininlärningsuppgifter, såsom objektklassificering och scensegmentering. En sådan traditionell maskinseendearkitektur lider av flera nackdelar. Först, den stora mängden digital information gör det svårt att uppnå bild/videoanalys i hög hastighet, speciellt med mobila och batteridrivna enheter. Dessutom, de tagna bilderna innehåller vanligtvis överflödig information, som överväldigar den digitala processorn med en hög beräkningsbörda, skapar ineffektivitet när det gäller kraft- och minneskrav. Dessutom, bortom ljusets synliga våglängder, tillverka bildsensorer med högt antal pixlar, som det vi har i våra mobiltelefonkameror, är utmanande och dyrt, vilket begränsar tillämpningarna av standardmetoder för maskinseende vid längre våglängder, såsom terahertz del av spektrumet.
UCLA-forskare har rapporterat en ny, en-pixel maskinseenderam som tillhandahåller en lösning för att mildra bristerna och ineffektiviteten hos traditionella maskinseendesystem. De utnyttjade djupinlärning för att designa optiska nätverk skapade av successiva diffraktiva ytor för att utföra beräkningar och statistisk inferens när det inkommande ljuset passerar genom dessa specialdesignade och 3D-tillverkade lager. Till skillnad från vanliga objektivbaserade kameror, dessa diffraktiva optiska nätverk är utformade för att bearbeta det inkommande ljuset vid utvalda våglängder med målet att extrahera och koda de rumsliga egenskaperna hos ett ingångsobjekt på spektrumet av det diffrakterade ljuset, som samlas in av en enpixeldetektor. Olika objekttyper eller klasser av data tilldelas olika våglängder av ljus. Ingångsobjekten klassificeras automatiskt optiskt, bara att använda utmatningsspektrumet som detekteras av en enda pixel, kringgå behovet av en bildsensor-array eller en digital processor. Denna helt optiska slutledning och maskinseende förmåga genom en enpixeldetektor som är kopplad till ett diffraktivt nätverk ger transformativa fördelar när det gäller bildhastighet, minnesbehov och energieffektivitet, som är särskilt viktiga för mobila datorapplikationer.
I en studie publicerad i Vetenskapens framsteg , UCLA-forskare demonstrerade experimentellt framgången med deras ramverk vid terahertz-våglängder genom att klassificera bilderna av handskrivna siffror med en enda pixeldetektor och 3D-utskrivna diffraktiva lager. Den optiska klassificeringen av ingångsobjekten (handskrivna siffror) utfördes baserat på den maximala signalen bland de tio våglängder som var, en och en, tilldelas olika handskrivna siffror (0 till 9). Trots att du använder en enpixeldetektor, en optisk klassificeringsnoggrannhet på mer än 96 % uppnåddes. En experimentell proof-of-concept-studie med 3D-printade diffraktiva lager visade en nära överensstämmelse med de numeriska simuleringarna, demonstrerar effektiviteten av en-pixel maskinseende ram för att bygga låg latens och resurseffektiva maskininlärningssystem. Förutom objektklassificering, forskarna kopplade också ihop samma enpixel-diffraktiva optiska nätverk med ett enkelt, grunt elektroniskt neuralt nätverk, att snabbt rekonstruera bilderna av ingångsobjekten baserat på endast den effekt som detekteras vid tio distinkta våglängder, demonstrerar uppgiftsspecifik bilddekomprimering.
Detta ramverk för klassificering av en pixel och bildrekonstruktion kan bana väg för utvecklingen av nya maskinseendesystem som använder spektralkodning av objektinformation för att uppnå en specifik slutledningsuppgift på ett resurseffektivt sätt, med låg latens, låg effekt och lågt antal pixlar. Detta nya ramverk kan också utökas till olika spektrala domänmätsystem, såsom optisk koherenstomografi, Infraröd spektroskopi och andra, att skapa fundamentalt nya 3D-avbildnings- och avkänningsmodaliteter integrerade med diffraktiv nätverksbaserad kodning av spektral och rumslig information.