MIT datavetare har utvecklat ett system som lär sig att identifiera objekt i en bild, baserat på en talad beskrivning av bilden. Kredit:Christine Daniloff
MIT datavetare har utvecklat ett system som lär sig att identifiera objekt i en bild, baserat på en talad beskrivning av bilden. Med tanke på en bild och en ljudtext, modellen kommer att markera i realtid de relevanta områdena i bilden som beskrivs.
Till skillnad från nuvarande taligenkänningsteknik, Modellen kräver inte manuella transkriptioner och anteckningar av exemplen den har tränats på. Istället, den lär sig ord direkt från inspelade talklipp och objekt i råa bilder, och förknippar dem med varandra.
Modellen kan för närvarande bara känna igen flera hundra olika ord och objekttyper. Men forskarna hoppas att deras kombinerade teknik för tal-objektigenkänning en dag skulle kunna spara otaliga timmar av manuellt arbete och öppna nya dörrar inom tal- och bildigenkänning.
Taligenkänningssystem som Siri och Google Voice, till exempel, kräver transkriptioner av många tusentals timmars talinspelningar. Med hjälp av dessa data, systemen lär sig att kartlägga talsignaler med specifika ord. Ett sådant tillvägagångssätt blir särskilt problematiskt när, säga, nya termer kommer in i vårt lexikon, och systemen måste omskolas.
"Vi ville göra taligenkänning på ett sätt som är mer naturligt, utnyttja ytterligare signaler och information som människor har fördelen av att använda, men som maskininlärningsalgoritmer vanligtvis inte har tillgång till. Vi fick idén att träna en modell på ett sätt som liknar att gå ett barn genom världen och berätta vad du ser, " säger David Harwath, en forskare i datavetenskap och artificiell intelligens Laboratory (CSAIL) och Spoken Language Systems Group. Harwath var medförfattare till ett dokument som beskrev modellen som presenterades vid den senaste europeiska konferensen om datorseende.
I tidningen, forskarna visar sin modell på en bild av en ung flicka med blont hår och blå ögon, iklädd en blå klänning, med en vit fyr med ett rött tak i bakgrunden. Modellen lärde sig att associera vilka pixlar i bilden som motsvarade orden "tjej, " "blont hår, " "blåa ögon, " "blå klänning, " "vitt ljushus, " och "rött tak." När en ljudtext berättades, modellen framhävde sedan vart och ett av dessa objekt i bilden så som de beskrevs.
En lovande tillämpning är att lära sig översättningar mellan olika språk, utan behov av en tvåspråkig kommentator. Av de beräknade 7, 000 språk som talas över hela världen, endast 100 eller så har tillräckligt med transkriptionsdata för taligenkänning. Överväga, dock, en situation där två olika språk talare beskriver samma bild. Om modellen lär sig talsignaler från språk A som motsvarar objekt i bilden, och lär sig signalerna i språk B som motsvarar samma objekt, det skulle kunna anta att dessa två signaler – och matchande ord – är översättningar av varandra.
"Det finns potential där för en Babel Fish-typ av mekanism, " Harwath säger, hänvisar till den fiktiva levande hörluren i "Hitchhiker's Guide to the Galaxy"-romanerna som översätter olika språk till bäraren.
CSAILs medförfattare är:doktorand Adria Recasens; gäststuderande Didac Suris; tidigare forskaren Galen Chuang; Antonio Torralba, en professor i elektroteknik och datavetenskap som också leder MIT-IBM Watson AI Lab; och seniorforskaren James Glass, som leder Spoken Language Systems Group på CSAIL.
Audiovisuella föreningar
Detta arbete expanderar på en tidigare modell utvecklad av Harwath, Glas, och Torralba som korrelerar tal med grupper av tematiskt relaterade bilder. I den tidigare forskningen, de lägger bilder av scener från en klassificeringsdatabas på crowdsourcing Mechanical Turk-plattformen. De fick sedan folk att beskriva bilderna som om de berättade för ett barn, i cirka 10 sekunder. De sammanställde mer än 200, 000 par bilder och ljudtexter, i hundratals olika kategorier, som stränder, shoppingcenter varuhus, stadens gator, och sovrum.
De designade sedan en modell bestående av två separata konvolutionella neurala nätverk (CNN). Man bearbetar bilder, och man bearbetar spektrogram, en visuell representation av ljudsignaler eftersom de varierar över tiden. Det högsta lagret i modellen beräknar utdata från de två nätverken och kartlägger talmönstren med bilddata.
Forskarna skulle, till exempel, mata in modelltexten A och bild A, vilket är korrekt. Sedan, de skulle mata den med en slumpmässig bildtext B med bild A, vilket är en felaktig sammankoppling. Efter att ha jämfört tusentals felaktiga bildtexter med bild A, modellen lär sig talsignalerna som motsvarar bild A, och associerar dessa signaler med ord i bildtexterna. Som beskrivits i en studie från 2016, modellen lärde sig, till exempel, för att välja ut signalen som motsvarar ordet "vatten, " och för att hämta bilder med vattensamlingar.
"Men det gav inget sätt att säga, "Detta är exakt tidpunkt då någon sa ett specifikt ord som refererar till den specifika pixelbiten, '" säger Harwath.
Att göra en matchmap
I den nya tidningen, forskarna modifierade modellen för att associera specifika ord med specifika fläckar av pixlar. Forskarna tränade modellen på samma databas, men med en ny summa på 400, 000 image-captions pairs. They held out 1, 000 random pairs for testing.
In training, the model is similarly given correct and incorrect images and captions. But this time, the image-analyzing CNN divides the image into a grid of cells consisting of patches of pixels. The audio-analyzing CNN divides the spectrogram into segments of, säga, one second to capture a word or two.
With the correct image and caption pair, the model matches the first cell of the grid to the first segment of audio, then matches that same cell with the second segment of audio, and so on, all the way through each grid cell and across all time segments. For each cell and audio segment, it provides a similarity score, depending on how closely the signal corresponds to the object.
The challenge is that, during training, the model doesn't have access to any true alignment information between the speech and the image. "The biggest contribution of the paper, " Harwath says, "is demonstrating that these cross-modal [audio and visual] alignments can be inferred automatically by simply teaching the network which images and captions belong together and which pairs don't."
The authors dub this automatic-learning association between a spoken caption's waveform with the image pixels a "matchmap." After training on thousands of image-caption pairs, the network narrows down those alignments to specific words representing specific objects in that matchmap.
"It's kind of like the Big Bang, where matter was really dispersed, but then coalesced into planets and stars, " Harwath says. "Predictions start dispersed everywhere but, as you go through training, they converge into an alignment that represents meaningful semantic groundings between spoken words and visual objects."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.