Kredit:Microsoft
Ett par banbrytande papper i datorsyn öppnar nya perspektiv på möjligheter inom sfären av att skapa mycket realistiska naturbilder och syntetisera realistiska, identitetsbevarande ansiktsbilder. I CVAE-GAN:Finkornig bildgenerering genom asymmetrisk träning, presenterades i oktober på ICCV 2017 i Venedig, forskargruppen från Microsoft och University of Science and Technology of China kom fram till en modell för bildgenerering baserad på ett varianterande autokodergenerativt kontradiktoriskt nätverk som kan syntetisera naturliga bilder i så kallade finkorniga kategorier. Finkorniga kategorier skulle innehålla ansikten hos specifika individer, säg om kändisar, eller verkliga föremål som specifika typer av blommor eller fåglar.
Forskarna - Dong Chen, Fang Wen och Gang Hua från Microsoft, Jianmin Bao, praktikant på Microsoft Research, tillsammans med Houqiang Li från Kinas universitet för vetenskap och teknik - när man tittade på hur man bättre bygger effektiva modeller av naturliga bilder kämpade man med ett nyckelproblem i datorsyn:hur man genererar mycket olika men ändå realistiska bilder genom att variera ett begränsat antal latenta parametrar relaterade till den naturliga spridningen av vilken bild som helst i världen. Utmaningen låg i att ta fram en generativ modell för att fånga den informationen. De valde ett tillvägagångssätt med hjälp av generativa kontradiktoriska nätverk i kombination med en variabel automatisk kodare för att komma med sina inlärningsramar. Tillvägagångssättet modellerar varje bild som en sammansättning av etiketter och latenta attribut i en probabilistisk modell. Genom att variera den finkorniga kategoritiketten (säg, "oriole" eller "starling" för specifika fågeltyper, eller namnen på specifika kändisar) som skulle matas in i den generativa modellen, laget kunde syntetisera bilder i specifika kategorier med slumpmässigt ritade värden med avseende på de latenta attributen. Det är bara nyligen som denna typ av djupinlärning möjliggör modellering av distributionen av bilder av specifika objekt ute i världen, tillåter oss att dra från den modellen för att i princip syntetisera bilden, förklarade Gang Hua, huvudforskare på Microsoft Research i Redmond, Washington.
"Vår strategi har två nya aspekter, "sa Hua." Först, vi antog en korsentropiförlust för det diskriminerande och klassificerande nätverket men valde ett genomsnittligt diskrepansmål för det generativa nätverket. "Den resulterande asymmetriska förlustfunktionen och dess effekt på maskininlärningsaspekterna i ramen var uppmuntrande." Asymmetrisk förlust gör faktiskt utbildning av GAN:er mer stabil, "sa Hua." Vi utformade en asymmetrisk förlust för att lösa instabilitetsproblemet vid utbildning av vanilj-GAN som specifikt tar upp numeriska svårigheter när man matchar två icke-överlappande distributioner. "
Den andra innovationen var att anta ett kodarnätverk som kunde lära sig förhållandet mellan det latenta utrymmet och använda parvisa funktionsmatchningar för att behålla strukturen hos de syntetiserade bilderna.
Experimentera med naturliga bilder - äkta fotografier av verkliga saker som finns i naturen som ansikten, blommor och fåglar, forskarna kunde visa att deras maskininlärningsmodeller kunde syntetisera igenkännbara bilder med en imponerande variation inom mycket specifika kategorier. De potentiella applikationerna täcker allt från bildmålning, till dataförstoring och bättre ansiktsigenkänningsmodeller.
"Vår teknik tog upp en grundläggande utmaning inom bildgenerering, kontrollen över identitetsfaktorer. Detta gör att vi kan skapa bilder som vi vill att de ska se ut. sa Hua. "
Syntetiserande ansikten
Hur tar du makten att syntetisera realistiska bilder av blommor eller fåglar ett steg längre? Du tittar på människors ansikten. Mänskliga ansikten, när det tas i sammanhanget av identitet, är bland de mest sofistikerade bilderna som kan fångas i naturen. I den öppna identitetsbevarande ansiktssyntesen, presenterades denna månad på CVPR 2018 i Salt Lake City, forskarna utvecklade ett GAN-baserat ramverk som kan ta bort identiteten och attributen för ansikten, med attribut inklusive sådana inneboende egenskaper som näsans och munens former eller till och med ålder, liksom miljöfaktorer, som belysning eller om smink applicerades på ansiktet. Medan tidigare identitetsbevarande ansiktssyntesprocesser i stor utsträckning begränsades till att syntetisera ansikten med kända identiteter som redan fanns i utbildningsdataset, forskarna utvecklade en metod för att uppnå identitetsbevarande ansiktssyntes i öppna domäner-det vill säga för ett ansikte som föll utanför någon träningsdataset. Att göra detta, de landade på en unik metod för att använda en inmatningsbild av ett ämne som skulle producera en identitetsvektor och kombinerade den med någon annan ingångsbild (inte av samma person) för att extrahera en attributvektor, som pose, känslor eller belysning. Identitetsvektorn och attributvektorn rekombineras sedan för att syntetisera ett nytt ansikte för ämnet med det extraherade attributet. I synnerhet, ramverket behöver inte kommentera och kategorisera attributen för något av ansiktena på något sätt. Den är utbildad med en asymmetrisk förlustfunktion för att bättre bevara identiteten och stabilisera maskininlärningsaspekterna. Imponerande, det kan också effektivt utnyttja massiva mängder omärkta träningsansiktsbilder (tänk på slumpmässiga ansiktsbilder) för att ytterligare förbättra troheten eller noggrannheten hos de syntetiserade ansiktena.
En uppenbar konsumentapplikation är det klassiska exemplet på fotografens utmaning att ta ett gruppfoto som innehåller dussintals motiv; det gemensamma målet är det svårfångade idealiska skottet där alla motiv fångas med öppna ögon och till och med leende. "Med vår teknik, det fantastiska är att jag bokstavligen kunde återge ett leende ansikte för var och en av deltagarna i bilden! "utbrister Hua. Vad gör det här helt annorlunda än enbart bildredigering, säger Hua, är att ansiktets faktiska identitet bevaras. Med andra ord, även om bilden av en leende deltagare syntetiseras - ett "ögonblick" som faktiskt inte inträffade i verkligheten, ansiktet är utan tvekan individens; hans eller hennes identitet har bevarats i processen att ändra bilden.
Hua ser många användbara applikationer som kommer att gynna samhället och ser ständiga förbättringar i bildigenkänning, videoförståelse och till och med konsten.