(L-R) MIT biträdande professor Michael Carbin och doktorand Jonathan Frankle. Kredit:Jason Dorfman/MIT CSAIL
Dessa dagar, nästan alla artificiella intelligensbaserade produkter i våra liv förlitar sig på "djupa neurala nätverk" som automatiskt lär sig att bearbeta märkta data.
För de flesta organisationer och individer, fastän, djupinlärning är svårt att bryta sig in i. Att lära sig bra, neurala nätverk måste normalt vara ganska stora och behöver massiva datamängder. Denna utbildningsprocess kräver vanligtvis flera dagars utbildning och dyra grafikprocessorer (GPU) – och ibland även specialdesignad hårdvara.
Men tänk om de faktiskt inte behöver vara så stora, trots allt?
I en ny tidning, forskare från MIT:s datavetenskap och artificiell intelligens Lab (CSAIL) har visat att neurala nätverk innehåller undernätverk som är upp till en tiondel av storleken men ändå kan tränas för att göra lika exakta förutsägelser – och ibland kan de lära sig att göra det ännu snabbare än original.
Lagets tillvägagångssätt är inte särskilt effektivt nu - de måste träna och "beskära" hela nätverket flera gånger innan de hittar det framgångsrika delnätet. Dock, MIT biträdande professor Michael Carbin säger att hans teams resultat tyder på att, om vi kan avgöra exakt vilken del av det ursprungliga nätverket som är relevant för den slutliga förutsägelsen, forskare kanske en dag kan hoppa över denna dyra process helt och hållet. En sådan uppenbarelse har potential att spara timmars arbete och göra det lättare för meningsfulla modeller att skapas av enskilda programmerare, och inte bara stora teknikföretag.
"Om det första nätverket inte behövde vara så stort i första hand, varför kan du inte bara skapa en som har rätt storlek i början?" säger doktorand Jonathan Frankle, som presenterade sitt nya papper som skrevs tillsammans med Carbin vid International Conference on Learning Representations (ICLR) i New Orleans. Projektet utsågs till en av ICLRs två bästa tidningar, av ungefär 1, 600 bidrag.
Teamet liknar traditionella metoder för djupinlärning med ett lotteri. Att träna stora neurala nätverk är ungefär som att försöka garantera att du kommer att vinna på lotteriet genom att blint köpa alla möjliga lotter. Men tänk om vi kunde välja ut de vinnande siffrorna redan i början?
"Med ett traditionellt neuralt nätverk initierar du slumpmässigt denna stora struktur, och efter att ha tränat den på en enorm mängd data fungerar det magiskt, " säger Carbin. "Den här stora strukturen är som att köpa en stor påse med biljetter, även om det bara finns ett litet antal biljetter som faktiskt gör dig rik. Den återstående vetenskapen är att ta reda på hur man identifierar de vinnande lotterna utan att se de vinnande numren först."
Teamets arbete kan också få konsekvenser för så kallat "överföringslärande, "där nätverk som är utbildade för en uppgift som bildigenkänning bygger på för att sedan hjälpa till med en helt annan uppgift.
Traditionellt överföringsinlärning innebär att man tränar ett nätverk och sedan lägger man till ytterligare ett lager ovanpå som är tränat för en annan uppgift. I många fall, ett nätverk utbildat för ett ändamål kan sedan utvinna någon form av allmän kunskap som senare kan användas för ett annat ändamål.
För lika mycket hype som neurala nätverk har fått, Det görs ofta inte mycket av hur svårt det är att träna dem. Eftersom de kan vara oöverkomligt dyra att träna, datavetenskapare måste göra många eftergifter, väger en serie avvägningar med avseende på modellens storlek, hur lång tid det tar att träna, och dess slutresultat.
För att testa deras så kallade "lotterilottshypotes" och demonstrera existensen av dessa mindre undernät, teamet behövde ett sätt att hitta dem. De började med att använda ett vanligt tillvägagångssätt för att eliminera onödiga anslutningar från utbildade nätverk för att få dem att passa på enheter med låg effekt som smartphones:De "beskär" anslutningar med de lägsta "vikterna" (hur mycket nätverket prioriterar den anslutningen).
Deras viktigaste innovation var idén att anslutningar som beskärs efter att nätverket tränats kanske aldrig var nödvändiga alls. För att testa denna hypotes, de försökte träna exakt samma nätverk igen, men utan de beskurna anslutningarna. Viktigt, de "återställer" varje anslutning till den vikt den tilldelades i början av träningen. Dessa initialvikter är avgörande för att hjälpa en lott att vinna:Utan dem, de beskurna nätverken skulle inte lära sig. Genom att beskära fler och fler anslutningar, de bestämde hur mycket som kunde tas bort utan att skada nätverkets förmåga att lära sig.
För att validera denna hypotes, de upprepade denna process tiotusentals gånger på många olika nätverk under en lång rad förhållanden.
"Det var förvånande att se att återställning av ett välpresterande nätverk ofta skulle resultera i något bättre, " says Carbin. "This suggests that whatever we were doing the first time around wasn't exactly optimal, and that there's room for improving how these models learn to improve themselves."
As a next step, the team plans to explore why certain subnetworks are particularly adept at learning, and ways to efficiently find these subnetworks.
"Understanding the 'lottery ticket hypothesis' is likely to keep researchers busy for years to come, " says Daniel Roy, an assistant professor of statistics at the University of Toronto, who was not involved in the paper. "The work may also have applications to network compression and optimization. Can we identify this subnetwork early in training, thus speeding up training? Whether these techniques can be used to build effective compression schemes deserves study."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.