En ny teknik för att träna videoigenkänningsmodeller är upp till tre gånger snabbare än nuvarande toppmoderna metoder samtidigt som körtidsprestandan på mobila enheter förbättras. Verket lyftes nyligen fram av Dario Gil (ovan), chef för IBM Research, vid MIT-IBM Watson AI Labs AI Research Week i Cambridge, Massachusetts. Foto:Song Han
En gren av maskininlärning som kallas deep learning har hjälpt datorer att överträffa människor vid väldefinierade visuella uppgifter som att läsa medicinska skanningar, men när tekniken expanderar till att tolka videor och verkliga händelser, modellerna blir större och mer beräkningsintensiva.
Med en uppskattning, utbildning av en videoigenkänningsmodell kan ta upp till 50 gånger mer data och åtta gånger mer processorkraft än att träna en bildklassificeringsmodell. Det är ett problem eftersom efterfrågan på processorkraft för att träna modeller för djupinlärning fortsätter att öka exponentiellt och oron för AI:s massiva koldioxidavtryck växer. Köra stora videoigenkänningsmodeller på mobila enheter med låg effekt, dit många AI-applikationer är på väg, förblir också en utmaning.
Sång Han, en biträdande professor vid MIT:s institution för elektroteknik och datavetenskap (EECS), tar itu med problemet genom att designa mer effektiva modeller för djupinlärning. I ett dokument på den internationella konferensen om datorsyn, Han, MIT-doktorand Ji Lin och MIT-IBM Watson AI Lab-forskare Chuang Gan, beskriva en metod för att krympa videoigenkänningsmodeller för att påskynda träningen och förbättra körtidsprestandan på smartphones och andra mobila enheter. Deras metod gör det möjligt att krympa modellen till en sjättedel av storleken genom att reducera de 150 miljoner parametrarna i en toppmodern modell till 25 miljoner parametrar.
"Vårt mål är att göra AI tillgänglig för alla med en lågeffektsenhet, " säger Han. "För att göra det, vi måste designa effektiva AI-modeller som använder mindre energi och kan köras smidigt på avancerade enheter, där så mycket av AI rör sig. "
Den sjunkande kostnaden för kameror och videoredigeringsprogram och ökningen av nya videostreamingsplattformar har översvämmat internet med nytt innehåll. Varje timme, 30, 000 timmar av ny video laddas bara upp på YouTube. Verktyg för att katalogisera innehållet mer effektivt skulle hjälpa tittare och annonsörer att hitta videor snabbare, säger forskarna. Sådana verktyg skulle också hjälpa institutioner som sjukhus och äldreboenden att köra AI -applikationer lokalt, snarare än i molnet, för att hålla känsliga uppgifter privata och säkra.
Underliggande bild- och videoigenkänningsmodeller är neurala nätverk, som är löst modellerade på hur hjärnan bearbetar information. Oavsett om det är ett digitalt foto eller en sekvens av videobilder, neurala nät letar efter mönster i pixlarna och bygger en allt mer abstrakt representation av vad de ser. Med tillräckligt många exempel, neurala nät "lär sig" känna igen människor, objekt, och hur de förhåller sig.
Toppmodeller för videoigenkänning använder för närvarande tredimensionella faltningar för att koda tidens gång i en sekvens av bilder, som skapar större, mer beräkningsintensiva modeller. För att minska beräkningarna, Han och hans kollegor designade en operation som de kallar en temporal shift -modul som flyttar funktionskartorna för en vald videoram till dess närliggande bildrutor. Genom att blanda rumsliga representationer av det förflutna, närvarande, och framtiden, modellen får en känsla av att tiden går utan att uttryckligen representera det.
Resultatet:en modell som överträffade sina kollegor när det gällde att känna igen åtgärder i videodatasetet Something-Something, tjänar förstaplatsen i version 1 och version 2, på den senaste offentliga rankingen. En onlineversion av skiftmodulen är också tillräckligt smidig för att kunna läsa rörelser i realtid. I en ny demo, Lin, en Ph.D. student i EECS, visade hur en enbräda dator riggad till en videokamera omedelbart kunde klassificera handgester med mängden energi för att driva en cykellampa.
Normalt skulle det ta ungefär två dagar att träna en så kraftfull modell på en maskin med bara en grafikprocessor. Men forskarna lyckades låna tid på det amerikanska energidepartementets superdator Summit, för närvarande rankad som snabbast på jorden. Med Summits extra eldkraft, forskarna visade att med 1, 536 grafikprocessorer kan modellen tränas på bara 14 minuter, nära dess teoretiska gräns. Det är upp till tre gånger snabbare än 3D-state-of-the-art-modeller, de säger.
Dario Gil, chef för IBM Research, betonade arbetet i sina senaste inledande kommentarer vid AI Research Week som MIT-IBM Watson AI Lab värd.
"Beräkningskraven för stora AI -utbildningsjobb fördubblas var 3,5:e månad, " sa han senare. "Vår förmåga att fortsätta tänja på teknikens gränser kommer att bero på strategier som denna som matchar hypereffektiva algoritmer med kraftfulla maskiner."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT -forskning, innovation och undervisning.