Forskare utforskar arbeta upp tecknade serier med hjälp av textbeskrivningar

Med tanke på en ny beskrivning, Craft komponerar sekventiellt en scenlayout och hämtar enheter från en videodatabas för att skapa komplexa scenvideor. Kredit:arXiv:1804.03608 [cs.CV]

Tänk om du fick höra att du kan skapa tecknade serier genom att bara arbeta med textbeskrivningar?

Rapporter går ut på att en grupp forskare presenterade en AI som kan göra originalvideor av "The Flintstones" från textbeskrivningar.

Ja, dessa är scener skapade av en artificiell intelligens. Tänk på någon scenbeskrivning:Fred bär en blå hatt och pratar med Wilma i vardagsrummet. Wilma sätter sig sedan i en soffa.

Sammansättning, Retrieval and Fusion Network, eller CRAFT, är namnet på deras modell. Författarna noterade att de visade CRAFT på Flintstones, en datauppsättning med över 2, 500 videor och var 75 bilder långa.

De har skrivit ett papper, med titeln "Imagine This! Scripts to Compositions to Videos" och den finns på arXiv. De fem forskarna är Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem och Aniruddha Kembhavi. Författaranslutningar inkluderar The Allen Institute for Artificial Intelligence (AI2), University of Illinois Urbana-Champaign och University of Washington.

Författarna sa att när den ges en ny beskrivning, "Craft komponerar sekventiellt en scenlayout och hämtar enheter från en videodatabas för att skapa komplexa scenvideor."

Tristan Greene, Nästa webb , förklarade hur tekniken fungerar:"Craft använder annoteringarna från videor för att avgöra hur originalbilderna motsvarar de ord som används för att beskriva dem. Så småningom bygger det upp en uppsättning parametrar som gör det möjligt att" förstå "vad som gör enskilda tecken och objekt från tecknade matchar deras vanliga språk. När den väl förstår denna relation, det kan generera videoklipp baserat på nya textinmatningar som ser mycket ut som den tecknade den utbildades på. "

Författarna diskuterade också sin modell baserad på text:

"Till skillnad från pixelgenereringsmetoder, vår utseendemodell bygger på hämtning av text till entitetssegment från en videodatabas. Utrymme-tidsmässiga segment extraheras från de hämtade videoklippen och smälts samman för att generera den slutliga videon. Layoutkompositionen och entitetshämtningen fungerar på ett sekventiellt sätt som bestäms av språkinmatningen. "

Författarna uppgav att "CRAFT överträffar direkta pixelgenereringsmetoder."

Intressant, videotittare skrev svar från wow till ljummet till förvirrat.

Flera tyckte att det var fantastiskt; en påpekade att det var "mer avancerat än jag hade kunnat föreställa mig" och en annan sa "det ser fortfarande ut som om någon försökte animera för första gången på demo -programvara. Det ser ut att ha potential, fastän."

En annan observatör var mer förvirrad än förvånad. "Jag är förvirrad. Min förståelse är att AI lärt sig 25 000 helt kommenterade tecknade serier. Och sedan skrev forskarna in ett textscenario, och AI hittade bara bilder som matchade det? Är det inte bara en enkel hämtning av motsvarande videosnutt baserat på en textuppslagning från den kommenterade databasen? Vad saknar jag? "

Författare på tekniska webbplatser erbjöd sitt perspektiv på denna forskning. Med hänvisning till videorna, Nästa webb steg in. OK det är ett "glittrigt litet klipp, "som Tristan Greene uttryckte det. Samtidigt, han lade till, "Dagens glittrande lilla klipp, genererat av enkla textfraser, kan leda till att morgondagens underhållning skapas från grunden av AI istället för studior fulla av människor. "

Andrew Liszewski i Gizmodo fann också att kvaliteten på de animationer som genererades var "hemskt i bästa fall" och "ingen kommer att luras att tro att det här är Hanna-Barbera-originalen." Ändå, han lade till, se en AI generera en tecknad film, med ikoniska karaktärer, helt av sig själv, var "en fascinerande smygtitt på hur vissa filmer och tv -program kan göras en dag."

Lucy Black skrev söndag, i Jag programmerare att "Detta är mer än bara ett annat smart trick med neurala nätverk. Det är ett tecken på att AI går mot större system där djupa neurala nätverk gör olika jobb och arbetar tillsammans för att skapa lösningen. Du kan kalla det andra steget av djupneurala nätverk. "

OK, obesvarad fråga:Skulle animatörer förlora sina jobb. Svart sa, "Ja, jag antar att med tid och ansträngning kan något som CRAFT utvecklas till en tecknad generator och kasta tusentals animatörer ur ett jobb, men datorgrafik flisar redan bort på den arbetsmarknaden. "

Amerikanska senatorer introducerar socialräkning för sociala medier

Kom in i min bil ... Amazon börjar leverera till fordon

Elektronik

Flygande fiskrobot kan driva sig själv ur vattnet och glida genom luften

En grönare, enklare sätt att skapa syngas

Nationer, flygbolag grundar Boeings 737 MAX (uppdatering)

Vetenskap

Hur kontinenter återvanns

Semantisk cache för AI-aktiverad bildanalys

Hur man gör ett enkelt kalorimeterexperiment