• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Hjälper datorer att fylla i luckorna mellan videoramar

    Upphovsman:CC0 Public Domain

    Givet bara några få bildrutor av en video, människor kan vanligtvis ana vad som händer och kommer att hända på skärmen. Om vi ​​ser en tidig ram av staplade burkar, en mittram med ett finger vid buntens bas, och en sen ram som visar burkarna vältade, vi kan gissa att fingret slog ner burkarna. Datorer, dock, kämpa med detta koncept.

    I ett papper som presenterades vid veckans europeiska konferens om datorsyn, MIT-forskare beskriver en tilläggsmodul som hjälper artificiella intelligenssystem som kallas konvolutionella neurala nätverk, eller CNN, att fylla i luckorna mellan videoramar för att kraftigt förbättra nätverkets aktivitetsigenkänning.

    Forskarmodulen, kallas Temporal Relation Network (TRN), lär sig hur objekt förändras i en video vid olika tidpunkter. Det gör det genom att analysera några nyckelramar som visar en aktivitet i olika skeden av videon - till exempel staplade objekt som sedan slås ner. Med samma process, den kan sedan känna igen samma typ av aktivitet i en ny video.

    I experiment, modulen överträffade befintliga modeller med stor marginal för att känna igen hundratals grundläggande aktiviteter, som att peta föremål för att få dem att falla, kasta något i luften, och ger tummen upp. Det förutspådde också mer exakt vad som kommer att hända i en video - visar, till exempel, två händer som gör en liten riva i ett pappersark - givet endast ett litet antal tidiga ramar.

    En dag, modulen kan användas för att hjälpa robotar att bättre förstå vad som händer runt omkring dem.

    "Vi byggde ett system för artificiell intelligens för att känna igen omvandling av objekt, snarare än utseendet på föremål, "säger Bolei Zhou, en tidigare doktorand student vid datavetenskap och artificiell intelligenslaboratorium (CSAIL) som nu är biträdande professor i datavetenskap vid Chinese University of Hong Kong. "Systemet går inte igenom alla ramar - det tar upp nyckelramar och, med hjälp av ramarnas tidsrelation, känna igen vad som händer. Det förbättrar systemets effektivitet och gör att det körs i realtid exakt. "

    Medförfattare till tidningen är CSAIL-huvudutredaren Antonio Torralba, som också är professor vid institutionen för elektroteknik och datavetenskap; CSAIL Huvudforskare Aude Oliva; och CSAIL Research Assistant Alex Andonian.

    Plockar upp nyckelramar

    Två vanliga CNN -moduler som används för aktivitetsigenkänning idag lider av effektivitets- och noggrannhetsnackdelar. En modell är korrekt men måste analysera varje videoram innan han gör en förutsägelse, vilket är beräknat dyrt och långsamt. Den andra typen, kallas tvåströmmars nätverk, är mindre exakt men effektivare. Den använder en ström för att extrahera funktioner i en videoram, och slår sedan ihop resultaten med "optiska flöden, "en ström av extraherad information om varje pixels rörelse. Optiska flöden är också beräkningsmässigt dyra att extrahera, så modellen är fortfarande inte så effektiv.

    "Vi ville ha något som fungerar mellan de två modellerna - att få effektivitet och noggrannhet, "Säger Zhou.

    Forskarna utbildade och testade sin modul på tre crowdsourced datauppsättningar av korta videor av olika utförda aktiviteter. Den första datamängden, kallad Something-Something, byggt av företaget TwentyBN, har mer än 200, 000 videor i 174 actionkategorier, som att peta ett föremål så att det ramlar omkull eller lyfter ett föremål. Den andra datauppsättningen, Gycklare, innehåller nästan 150, 000 videor med 27 olika handgester, som att ge tummen upp eller svepa åt vänster. Den tredje, Charader, byggd av forskare från Carnegie Mellon University, har nästan 10, 000 videor av 157 kategoriserade aktiviteter, som att bära en cykel eller spela basket.

    När den ges en videofil, forskarmodulen bearbetar samtidigt beställda ramar - i grupper om två, tre, och fyra - med avstånd mellan varandra. Sedan tilldelar det snabbt en förmodligen att objektets transformation över dessa ramar matchar en specifik aktivitetsklass. Till exempel, om den bearbetar två ramar, där den senare ramen visar ett objekt längst ner på skärmen och den tidigare visar objektet högst upp, det kommer att tilldela aktivitetsklassen en hög sannolikhet, "rörligt föremål ner". Om en tredje bildruta visar objektet i mitten av skärmen, att sannolikheten ökar ännu mer, och så vidare. Från detta, den lär sig objekttransformationsfunktioner i ramar som mest representerar en viss klass av aktivitet.

    Känna igen och prognostisera aktiviteter

    Vid testning, ett CNN utrustat med den nya modulen kände igen exakt många aktiviteter med två ramar, men noggrannheten ökade genom att ta fler bilder. För Jester, modulen uppnådde högsta noggrannhet på 95 procent i aktivitetsigenkänning, slå ut flera befintliga modeller.

    Det gissade till och med rätt på tvetydiga klassificeringar:Något-Något, till exempel, inkluderade åtgärder som "låtsas öppna en bok" kontra "öppna en bok". För att urskilja mellan de två, modulen samplade bara några fler nyckelramar, som avslöjade, till exempel, en hand nära en bok i en tidig ram, sedan på boken, flyttade sedan bort från boken i en senare ram.

    Vissa andra aktivitetsigenkänningsmodeller bearbetar också nyckelramar men tar inte hänsyn till tidsrelationer i ramar, vilket minskar deras noggrannhet. Forskarna rapporterar att deras TRN-modul nästan fördubblas i noggrannhet jämfört med dessa nyckelrammodeller i vissa tester.

    Modulen överträffade också modellerna för att förutsäga en aktivitet, med begränsade ramar. Efter bearbetning av de första 25 procenten av bildrutor, modulen uppnådde noggrannhet flera procentenheter högre än en baslinjemodell. Med 50 procent av ramarna, den uppnådde 10 till 40 procent högre noggrannhet. Exempel inkluderar att bestämma att ett papper skulle rivas lite, baserat på hur två händer placeras på papperet i tidiga ramar, och förutsäger att en räckt hand, visas framåt, skulle svepa ner.

    "Det är viktigt för robotapplikationer, "Säger Zhou." Du vill att [en robot] ska förutse och förutse vad som kommer att hända tidigt, när du gör en specifik åtgärd. "

    Nästa, forskarna syftar till att förbättra modulens sofistikering. Första steget är att implementera objektigenkänning tillsammans med aktivitetsigenkänning. Sedan, de hoppas kunna lägga till "intuitiv fysik, "betyder att hjälpa den att förstå verkliga fysiska egenskaper hos föremål." Eftersom vi känner till mycket av fysiken i dessa videor, vi kan träna modulen för att lära sig sådana fysiklagar och använda dem för att känna igen nya videor, "Säger Zhou." Vi öppnar också alla koder och modeller. Aktivitetsförståelse är ett spännande område av artificiell intelligens just nu. "


    © Vetenskap https://sv.scienceaq.com