• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Återställa förlorade dimensioner av bilder och video

    En ny modell utvecklad vid MIT återställer värdefull data som förlorats från bilder och video som har "kollapserats" till lägre dimensioner. Det kan, till exempel, återskapa video från rörelse-suddiga bilder eller från kameror som fångar människors rörelse runt hörnen som vaga endimensionella linjer. Kredit:Massachusetts Institute of Technology

    MIT-forskare har utvecklat en modell som återställer värdefull data som förlorats från bilder och video som har "kollapserats" till lägre dimensioner.

    Modellen kan användas för att återskapa video från rörliga bilder, eller från nya typer av kameror som fångar en persons rörelse runt hörn men bara som vaga endimensionella linjer. Medan fler tester behövs, forskarna tror att det här tillvägagångssättet en dag skulle kunna användas för att konvertera medicinska 2D-bilder till mer informativa – men dyrare – 3D-kroppsskanningar, vilket skulle kunna gynna medicinsk bildbehandling i fattigare länder.

    "I alla dessa fall, den visuella datan har en dimension – i tid eller rum – som är helt förlorad, " säger Guha Balakrishnan, en postdoc i Computer Science and Artificial Intelligence Laboratory (CSAIL) och första författare på ett papper som beskriver modellen, som presenteras på nästa veckas internationella konferens om datorseende. "Om vi ​​återställer den förlorade dimensionen, det kan ha många viktiga tillämpningar."

    Infångad visuell data kollapsar ofta data av flera dimensioner av tid och rum till en eller två dimensioner, kallas "prognoser". röntgenstrålar, till exempel, kollapsa tredimensionell data om anatomiska strukturer till en platt bild. Eller, tänk på en lång exponeringsbild av stjärnor som rör sig över himlen:Stjärnorna, vars position förändras över tiden, visas som suddiga ränder i stillbilden.

    Likaså, "hörnkameror, "nyligen uppfunnet på MIT, upptäcka rörliga människor runt hörn. Dessa kan vara användbara för säga, brandmän hittar människor i brinnande byggnader. Men kamerorna är inte direkt användarvänliga. För närvarande producerar de bara projektioner som liknar suddiga, snirkliga linjer, motsvarande en persons bana och hastighet.

    Forskarna uppfann en "visuell deprojektion"-modell som använder ett neuralt nätverk för att "lära sig" mönster som matchar lågdimensionella projektioner med deras ursprungliga högdimensionella bilder och videor. Med tanke på nya prognoser, modellen använder det den har lärt sig för att återskapa all originaldata från en projektion.

    I experiment, modellen syntetiserade exakta videoramar som visar människor som går, genom att extrahera information från singel, endimensionella linjer liknande de som produceras av hörnkameror. Modellen återställde också videobilder från singel, rörelsesuddiga projektioner av siffror som rör sig runt en skärm, från den populära Moving MNIST -datauppsättningen.

    Med Balakrishnan på tidningen är:Amy Zhao, en doktorand vid institutionen för elektroteknik och datavetenskap (EECS) och CSAIL; EECS-professorerna John Guttag, Fredo Durand, och William T. Freeman; och Adrian Dalca, en fakultetsmedlem i radiologi vid Harvard Medical School.

    Ledtrådar i pixlar

    Arbetet började som ett "coolt inversionsproblem" för att återskapa rörelser som orsakar rörelseoskärpa vid fotografering med lång exponering, säger Balakrishnan. I en projektions pixlar finns det några ledtrådar om den högdimensionella källan.

    Digitalkameror som tar bilder med lång exponering, till exempel, kommer i princip att aggregera fotoner över en tidsperiod på varje pixel. När du fångar ett föremåls rörelse över tid, kameran tar det genomsnittliga värdet av de rörelsefångande pixlarna. Sedan, den tillämpar dessa medelvärden på motsvarande höjder och bredder på en stillbild, vilket skapar suddiga signaturstrimmor av objektets bana. Genom att beräkna vissa variationer i pixelintensitet, rörelsen kan teoretiskt återskapas.

    Som forskarna insåg, det problemet är relevant inom många områden:röntgenstrålar, till exempel, fånga höjd, bredd, och djupinformation om anatomiska strukturer, men de använder en liknande pixelgenomsnittsteknik för att kollapsa djupet till en 2D-bild. Hörnkameror – uppfanns 2017 av Freeman, Durand, och andra forskare-fånga reflekterade ljussignaler runt en dold scen som bär tvådimensionell information om en persons avstånd från väggar och föremål. Pixel-genomsnittstekniken kollapsar sedan dessa data till en endimensionell video – i princip, mätningar av olika längd över tiden i en enda rad.

    Forskarna byggde en generell modell, baserat på ett konvolutionellt neuralt nätverk (CNN) – en maskininlärningsmodell som har blivit ett kraftpaket för bildbehandlingsuppgifter – som fångar ledtrådar om alla förlorade dimensioner i genomsnittliga pixlar.

    Syntetisera signaler

    I träning, forskarna matade CNN med tusentals par av projektioner och deras högdimensionella källor, kallas "signaler". CNN lär sig pixelmönster i projektionerna som matchar de i signalerna. Att driva CNN är ett ramverk som kallas en "variationell autoencoder, " som utvärderar hur väl CNN-utgångarna matchar dess indata över en viss statistisk sannolikhet. Från det, modellen lär sig ett "utrymme" av alla möjliga signaler som kunde ha producerat en given projektion. Detta skapar, i huvudsak, en typ av ritning för hur man går från en projektion till alla möjliga matchande signaler.

    När tidigare osynliga projektioner visas, modellen noterar pixelmönstren och följer ritningarna till alla möjliga signaler som kunde ha producerat den projektionen. Sedan, den syntetiserar nya bilder som kombinerar all data från projektionen och all data från signalen. Detta återskapar den högdimensionella signalen.

    För ett experiment, forskarna samlade en datauppsättning med 35 videor av 30 personer som gick i ett specifikt område. De kollapsade alla ramar till projektioner som de använde för att träna och testa modellen. Från en uppsättning av sex osynliga projektioner, modellen återskapade exakt 24 ramar av personens gång, ner till benens position och personens storlek när de gick mot eller bort från kameran. Modellen verkar lära sig, till exempel, att pixlar som blir mörkare och bredare med tiden sannolikt motsvarar en person som går närmare kameran.

    "Det är nästan som magi att vi kan återställa denna detalj, " säger Balakrishnan.

    Forskarna testade inte sin modell på medicinska bilder. Men de samarbetar nu med Cornell University-kollegor för att återställa 3D-anatomisk information från 2-D medicinska bilder, som röntgen, utan några extra kostnader - vilket kan möjliggöra mer detaljerad medicinsk bildbehandling i fattigare länder. Läkare föredrar oftast 3D-skanningar, som de som fångats med datortomografi, eftersom de innehåller mycket mer användbar medicinsk information. Men CT -skanningar är i allmänhet svåra och dyra att skaffa.

    "Om vi ​​kan omvandla röntgenstrålar till datortomografi, det skulle vara något speländrande, " säger Balakrishnan. "Du kan bara ta en röntgen och trycka den genom vår algoritm och se all förlorad information."

    Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.




    © Vetenskap https://sv.scienceaq.com