Kredit:Pixabay/CC0 Public Domain
Människor uppfattar världen genom olika sinnen:vi ser, känner, hör, smakar och luktar. De olika sinnena med vilka vi uppfattar är flera informationskanaler, även kända som multimodala. Betyder det att det vi uppfattar kan ses som multimedia?
Xue Wang, Ph.D. Kandidat på LIACS, översätter perception till multimedia och använder artificiell intelligens (AI) för att extrahera information från multimodala processer, liknande hur hjärnan bearbetar information. I sin forskning har hon testat inlärningsprocesser av AI på fyra olika sätt.
Sätta ord i vektorer
Först tittade Xue på ordinbäddad inlärning:översättningen av ord till vektorer. En vektor är en storhet med två egenskaper, nämligen en riktning och en magnitud. Specifikt handlar denna del om hur klassificeringen av information kan förbättras. Xue föreslog användningen av en ny AI-modell som länkar ord till bilder, vilket gör det lättare att klassificera ord. Under testning av modellen kan en observatör störa om AI:n gjorde något fel. Forskningen visar att denna modell presterar bättre än en tidigare använd modell.
Titta på underkategorier
Ett andra fokus för forskningen är bilder åtföljda av annan information. För detta ämne observerade Xue potentialen i att märka underkategorier, även känd som finkornig märkning. Hon använde en specifik AI-modell för att göra det lättare att kategorisera bilder med lite text runt omkring. Den slår samman grova etiketter, som är allmänna kategorier, med finkorniga etiketter, underkategorierna. Tillvägagångssättet är effektivt och användbart för att strukturera enkla och svåra kategoriseringar.
Hitta relationer mellan bilder och text
För det tredje undersökte Xue bild- och textassociation. Ett problem med detta ämne är att omvandlingen av denna information inte är linjär, vilket gör att den kan vara svår att mäta. Xue hittade en potentiell lösning på detta problem:hon använde kärnbaserad transformation. Kernel står för en specifik klass av algoritmer inom maskininlärning. Med den använda modellen är det nu möjligt för AI att se betydelseförhållandet mellan bilder och text.
Hitta kontraster i bilder och text
Slutligen fokuserade Xue på bilder åtföljda av text. I denna del fick AI titta på kontraster mellan ord och bilder. AI-modellen gjorde en uppgift som kallas frasjordning, vilket är länkningen av substantiv i bildtexter till delar av bilden. Det fanns ingen observatör som kunde blanda sig i denna uppgift. Forskningen visade att AI kan länka bildregioner till substantiv med en genomsnittlig noggrannhet för detta forskningsområde.
Uppfattningen av artificiell intelligens
Denna forskning ger ett stort bidrag till området för multimediainformation:vi ser att AI kan klassificera ord, kategorisera bilder och länka bilder till text. Ytterligare forskning kan utnyttja de metoder som Xue föreslagit och kommer förhoppningsvis att leda till ännu bättre insikter i multimediauppfattningen om AI.