Modellen är kapabel att lära sig funktioner som väl kodar det semantiska innehållet i bilderna. Med tanke på en bildfråga (bilden till vänster), modellen kan hämta bilder som är semantiskt lika (skildrar samma typ av objekt), även om de kan vara visuellt olika (olika färger, bakgrunder eller kompositioner). Upphovsman:arXiv:1807.02110 [cs.CV]
Forskare från Universitat Autonoma de Barcelona, Carnegie Mellon University och International Institute of Information Technology, Hyderabad, Indien, har utvecklat en teknik som kan göra det möjligt för algoritmer för djupinlärning att lära sig de visuella egenskaperna hos bilder på ett självövervakat sätt, utan behov av kommentarer från mänskliga forskare.
För att uppnå anmärkningsvärda resultat i datorseende uppgifter, algoritmer för djupinlärning måste tränas i storskaliga kommenterade datauppsättningar som innehåller omfattande information om varje bild. Dock, att samla in och manuellt kommentera dessa bilder kräver enorma mängder tid, Resurser, och mänsklig ansträngning.
"Vi strävar efter att ge datorer förmågan att läsa och förstå textinformation i alla typer av bilder i den verkliga världen, "säger Dimosthenis Karatzas, en av forskarna som genomförde studien, i en intervju med Tech Xplore .
Människor använder textinformation för att tolka alla situationer som presenteras för dem, samt att beskriva vad som händer runt dem eller i en viss bild. Forskare försöker nu ge liknande funktioner till maskiner, eftersom detta avsevärt skulle minska mängden resurser som spenderas på att kommentera stora datamängder.
I deras studie, Karatzas och hans kollegor designade beräkningsmodeller som förenar textinformation om bilder med den visuella informationen i dem, med hjälp av data från Wikipedia eller andra online -plattformar. De använde sedan dessa modeller för att träna algoritmer för djupinlärning i hur man väljer bra visuella funktioner som semantiskt beskriver bilder.
Som i andra modeller baserade på konvolutionella neurala nätverk (CNN), funktioner lärs in från ände till slut, med olika lager som automatiskt lär sig att fokusera på olika saker, allt från detaljer på pixelnivå i de första lagren till mer abstrakta funktioner i de sista.
Modellen utvecklad av Karatzas och hans kollegor, dock, kräver inte specifika anteckningar för varje bild. Istället, det textmässiga sammanhanget där bilden finns (t.ex. en Wikipedia-artikel) fungerar som den övervakande signalen.
Med andra ord, den nya tekniken som skapats av detta forskargrupp ger ett alternativ till helt oövervakade algoritmer, som använder icke-visuella element i samband med bilderna, fungera som en källa för egenövervakad utbildning.
"Detta visar sig vara ett mycket effektivt sätt att lära sig att representera bilder i en dator, utan att kräva några uttryckliga anteckningar – etiketter om innehållet i bilderna – som tar mycket tid och manuell ansträngning att skapa, " förklarar Karatzas. "Dessa nya bildrepresentationer, lärde sig på ett självövervakat sätt, är tillräckligt diskriminerande för att användas i en rad typiska datorseendeuppgifter, såsom bildklassificering och objektdetektering."
Metoden som forskarna utvecklat tillåter användning av text som övervakningssignal för att lära sig användbara bildfunktioner. Detta kan öppna nya möjligheter för djupinlärning, gör det möjligt för algoritmer att lära sig bra bildegenskaper utan behov av anteckningar, helt enkelt genom att analysera text- och visuella källor som är lättillgängliga online.
Genom att träna sina algoritmer med hjälp av bilder från internet, forskarna lyfte fram värdet av innehåll som är lättillgängligt online.
"Vår studie visade att webben kan utnyttjas som en pool av bullriga data för att lära sig användbara representationer om bildinnehåll, " säger Karatzas. "Vi är inte de första, inte heller de enda som antydde i denna riktning, men vårt arbete har visat ett specifikt sätt att göra det, använder Wikipedia-artiklar som data att lära av."
I framtida studier, Karatzas och hans kollegor kommer att försöka identifiera de bästa sätten att använda bildinbäddad textinformation för att automatiskt beskriva och svara på frågor om bildinnehåll.
"Vi kommer att fortsätta vårt arbete med gemensam inbäddning av textuell och visuell information, letar efter nya sätt att utföra semantisk hämtning genom att trycka på bullrig information tillgänglig på webben och sociala medier, "tillägger Karatzas.
© 2018 Tech Xplore