Kredit:Stuart Miles/Freerange
Om du tittar under huven på internet, du hittar massor av kugghjul som gör allt möjligt.
Till exempel, ta ett företag som AT&T. De måste noggrant förstå vilken internetdata som går vart så att de bättre kan hantera olika användningsnivåer. Men det är inte praktiskt att exakt övervaka varje datapaket, eftersom företag helt enkelt inte har obegränsade mängder lagringsutrymme. (Forskare kallar detta faktiskt "Britney Spears-problemet, " uppkallad efter sökmotorers långvariga ansträngningar för att stämma trendämnen.)
På grund av detta, Teknikföretag använder speciella algoritmer för att grovt uppskatta mängden trafik som går till olika IP-adresser. Traditionella algoritmer för frekvensuppskattning involverar "hashning, " eller slumpmässigt dela upp föremål i olika segment. Men detta tillvägagångssätt utesluter det faktum att det finns mönster som kan avslöjas i stora datamängder, som varför en IP-adress tenderar att generera mer internettrafik än en annan.
Forskare från MIT:s datavetenskap och artificiell intelligens Laboratory (CSAIL) har tagit fram ett nytt sätt att hitta sådana mönster med hjälp av maskininlärning.
Deras system använder ett neuralt nätverk för att automatiskt förutsäga om ett specifikt element kommer att dyka upp ofta i en dataström. Om det gör det, den placeras i en separat hink med så kallade "heavy hitters" att fokusera på; om det inte gör det, det hanteras via hash.
"Det är som en triage situation på en akutmottagning, där vi prioriterar de största problemen innan vi kommer till de mindre, " säger MIT professor Piotr Indyk, medförfattare till en ny artikel om systemet som kommer att presenteras i maj vid den internationella konferensen om lärande representationer i New Orleans, Louisiana. "Genom att lära sig egenskaperna hos tunga slagare när de kommer in, vi kan göra frekvensuppskattning mycket mer effektivt och med mycket mindre fel."
I tester, Indyks team visade att deras inlärningsbaserade tillvägagångssätt hade uppemot 57 procent färre fel för att uppskatta mängden internettrafik i ett nätverk, och uppemot 71 procent färre fel för att uppskatta antalet frågor för en given sökterm.
Teamet kallar sitt system "LearnedSketch, eftersom de ser det som en metod för att "skissa" data i en dataström mer effektivt. Såvitt de vet, det är världens första maskininlärningsbaserade metod för inte bara frekvensuppskattning i sig, men för en bredare klass av så kallade "streaming"-algoritmer som används i allt från säkerhetssystem till naturlig språkbehandling.
LearnedSketch kan hjälpa teknikföretag att mer effektivt krossa alla typer av meningsfull data, från populära ämnen på Twitter till toppar i webbtrafik som kan tyda på framtida distribuerade överbelastningsattacker. E-handelsföretag skulle kunna använda det för att förbättra produktrekommendationer:Om LearnedSketch fann att kunder tenderar att göra mer jämförande shopping för hushållselektronik än för leksaker, det skulle automatiskt kunna ägna mer resurser till att säkerställa noggrannheten i dess frekvensräkningar för elektronik.
"Vi är alla bekanta med konsumentinriktade tillämpningar av maskininlärning som naturlig språkbehandling och talöversättning, säger Sergei Vassilvitskii, en datavetare som studerar algoritmisk maskininlärning och inte var involverad i projektet. "Denna arbetslinje, å andra sidan, är ett spännande exempel på hur man använder maskininlärning för att förbättra själva kärndatorsystemet."
Det som också är förvånande med LearnedSketch är att, när den lär sig att räkna föremål, strukturen den lär sig kan generaliseras även till osynliga föremål. Till exempel, för att förutsäga vilka internetanslutningar som har mest trafik, modellen lär sig att gruppera olika anslutningar efter prefixet för deras destinations-IP. Detta beror på att platser som genererar stor trafik, som stora företag och universitet, tenderar att dela ett visst prefix.
"Vi kombinerar modellen med klassiska algoritmer så att vår algoritm ärver värsta tänkbara garantier från de klassiska algoritmerna naturligt, " säger doktorand Chen-Yu Hsu, medförfattare till den nya tidningen. "Den här typen av resultat visar att maskininlärning i hög grad är ett tillvägagångssätt som skulle kunna användas tillsammans med klassiska algoritmiska paradigm som "dela och härska" och dynamisk programmering."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.