Illustration av Semi3-Net-arkitektur. Upphovsman:Lei et al.
Under de senaste åren har forskare har utvecklat alltmer avancerade beräkningstekniker, såsom djupinlärningsalgoritmer, för att slutföra en mängd olika uppgifter. En uppgift som de har försökt hantera är känd som "skissbaserad bildhämtning" (SBIR).
SBIR -uppgifter innefattar att hämta bilder av ett visst objekt eller visuellt koncept bland en bred samling eller databas baserat på skisser gjorda av mänskliga användare. För att automatisera denna uppgift, forskare har försökt utveckla verktyg som kan analysera mänskliga skisser och identifiera bilder som är relaterade till skissen eller innehåller samma objekt.
Trots de lovande resultaten som uppnåtts med några av dessa verktyg, att utveckla tekniker som fungerar konsekvent på SBIR -uppgifter har hittills visat sig vara utmanande. Detta beror främst på de skarpa visuella skillnaderna mellan abstrakta skisser och riktiga bilder. Till exempel, skisser av människor är ofta deformerade och abstrakta, vilket gör dem svårare att relatera till objekt i verkliga bilder.
För att övervinna denna utmaning, forskare vid Tianjin University och Beijing University of Posts and Telecommunications i Kina har nyligen utvecklat en neural nätverksbaserad arkitektur som lär sig diskriminerande tvärdomänfunktionsrepresentationer för skissbaserade bildhämtning (SBIR) uppgifter. Tekniken de skapade, presenterad i ett papper som för publicerats på arXiv, kombinerar en mängd olika beräkningstekniker, inklusive halvheterogen funktionskartläggning, gemensamma semantiska inbäddnings- och samuppmärksamhetsmodeller.
"Den viktigaste insikten ligger i hur vi odlar de ömsesidiga och subtila relationerna mellan skisserna, naturliga bilder och kanter, "forskarna skrev i sin uppsats." Semi-heterogen funktionskartläggning är utformad för att extrahera bottenfunktioner från varje domän, där grenarna för skiss och kantkarta delas medan den naturliga bildgrenen är heterogen i förhållande till andra grenar. "
Modellen som designats av forskarna är ett semi-heterogent trevägs gemensamt inbäddningsnätverk (Semi3-Net). Förutom halvheterogen kartläggning, den använder en teknik som kallas gemensam semantisk inbäddning. Med semantisk inbäddning kan nätverket bädda in funktioner från olika domäner (t.ex. från skisser eller fotografier) till ett gemensamt semantiskt utrymme på hög nivå. Semi3-Net innehåller också en co-attention-modell, som är utformad för att kalibrera funktioner extraherade från de två olika domänerna.
Till sist, forskarna utformade en hybridförlustmekanism som kan beräkna sambandet mellan skisser, kanter och naturliga bilder. Denna mekanism gör det möjligt för Semi3-Net-modellen att lära sig representationer som är invarianta över de två domänerna (dvs. skisser och bilder tagna med kameror).
Forskarna utbildade och utvärderade Semi3-Net på data från Sketchy och TU-Berlin Extension, två datamängder som ofta används i studier med fokus på SBIR -uppgifter. Sketchy -databasen innehåller 75, 471 skisser och 12, 500 naturliga bilder, medan TU-Berlin Extension innehåller 204, 489 naturbilder och 20, 000 handritade skisser.
Än så länge, Semi3-Net har presterat anmärkningsvärt bra i alla experiment som forskarna utfört, överträffar andra toppmoderna modeller för SBIR. Teamet planerar nu att fortsätta arbeta med modellen och ytterligare förbättra dess prestanda, kanske till och med anpassa den för att hantera andra problem som kräver anslutning av data från olika domäner.
"I framtiden, vi kommer att fokusera på att utvidga det föreslagna tvärdomännätverket till finkornig bildhämtning och lära oss korrespondensen mellan de finkorniga detaljerna för skissbildpar, "skrev forskarna i sin artikel.
© 2019 Science X Network