Kredit:Patrick Dockens/Creative Commons
Forskare från North Carolina State University har utvecklat en teknik som minskar träningstiden för nätverk för djupinlärning med mer än 60 procent utan att offra precisionen, påskynda utvecklingen av nya tillämpningar för artificiell intelligens (AI).
"Deep learning-nätverk är kärnan i AI-tillämpningar som används i allt från självkörande bilar till datorseendeteknologier, säger Xipeng Shen, en professor i datavetenskap vid NC State och medförfattare till en artikel om arbetet.
"En av de största utmaningarna för utvecklingen av nya AI-verktyg är mängden tid och datorkraft det tar att träna nätverk för djupinlärning att identifiera och svara på de datamönster som är relevanta för deras applikationer. Vi har kommit fram till en sätt att påskynda processen, som vi kallar Adaptive Deep Reuse. Vi har visat att det kan minska träningstiderna med upp till 69 procent utan förlust av noggrannhet."
Att träna ett nätverk för djupinlärning innebär att dela upp ett dataprov i bitar av på varandra följande datapunkter. Tänk på ett nätverk som är utformat för att avgöra om det finns en fotgängare i en given bild. Processen börjar med att dela upp en digital bild i block av pixlar som ligger intill varandra. Varje bit data körs genom en uppsättning beräkningsfilter. Resultaten körs sedan genom en andra uppsättning filter. Detta fortsätter iterativt tills all data har körts genom alla filter, tillåta nätverket att nå en slutsats om dataprovet.
När denna process har gjorts för varje dataprov i en datamängd, det kallas en epok. För att finjustera ett nätverk för djupinlärning, nätverket kommer sannolikt att gå igenom samma datamängd under hundratals epoker. Och många datamängder består av mellan tiotusentals och miljoner dataprover. Många iterationer av massor av filter som appliceras på massor av data betyder att träning av ett nätverk för djupinlärning kräver mycket datorkraft.
Genombrottsögonblicket för Shens forskargrupp kom när det insåg att många av databitarna i en datamängd liknar varandra. Till exempel, en fläck av blå himmel i en bild kan likna en fläck av blå himmel någon annanstans i samma bild eller en fläck av himmel i en annan bild i samma datauppsättning.
Genom att känna igen dessa liknande databitar, ett nätverk för djupinlärning skulle kunna tillämpa filter på en bit data och tillämpa resultaten på alla liknande databitar i samma uppsättning, sparar mycket datorkraft.
"Vi kunde inte bara visa att dessa likheter finns, men att vi kan hitta dessa likheter för mellanliggande resultat vid varje steg i processen, säger Lin Ning, en Ph.D. student vid NC State och huvudförfattare till uppsatsen. "Och vi kunde maximera denna effektivitet genom att använda en metod som kallas lokalitetskänslig hash."
Men detta väcker ytterligare två frågor. Hur stor bör varje databit vara? Och vilken tröskel måste databitar uppfylla för att anses "lika"?
Forskarna fann att det mest effektiva tillvägagångssättet var att börja med att titta på relativt stora databitar med en relativt låg tröskel för att bestämma likhet. I efterföljande epoker, databitarna blir mindre och likhetströskeln strängare, förbättra djupinlärningsnätverkets noggrannhet. Forskarna designade en adaptiv algoritm som automatiskt implementerar dessa inkrementella förändringar under träningsprocessen.
För att utvärdera deras nya teknik, forskarna testade det med hjälp av tre nätverk för djupinlärning och datauppsättningar som används i stor utsträckning som testbäddar av forskare inom djupinlärning:CifarNet med Cifar10; AlexNet med ImageNet; och VGG-19 med ImageNet.
Adaptive Deep Reuse minskade träningstiden för AlexNet med 69 procent; för VGG-19 med 68 procent; och för CifarNet med 63 procent – allt utan förlust av noggrannhet.
"Detta visar att tekniken drastiskt minskar träningstiderna, " säger Hui Guan, en Ph.D. student vid NC State och medförfattare till uppsatsen. "Det indikerar också att ju större nätverk, desto mer Adaptive Deep Reuse kan minska träningstiderna – eftersom AlexNet och VGG-19 båda är betydligt större än CifarNet."
"Vi tycker att Adaptive Deep Reuse är ett värdefullt verktyg, och ser fram emot att arbeta med industri- och forskningspartner för att visa hur det kan användas för att främja AI, " säger Shen.
Pappret, "Adaptive Deep Reuse:Accelerating CNN Training on the Fly, " kommer att presenteras vid den 35:e IEEE International Conference on Data Engineering, hålls 8-11 april i Macau SAR, Kina.