Kredit:CC0 Public Domain
Aktiemarknadsinvesterare förlitar sig ofta på teorier om finansiella risker som hjälper dem att maximera avkastningen samtidigt som de minimerar ekonomiska förluster på grund av marknadsfluktuationer. Dessa teorier hjälper investerare att upprätthålla en balanserad portfölj för att säkerställa att de aldrig kommer att förlora mer pengar än de är villiga att avstå från vid varje given tidpunkt.
Inspirerad av dessa teorier, MIT-forskare i samarbete med Microsoft har utvecklat en "riskmedveten" matematisk modell som kan förbättra prestandan hos molnnätverk över hela världen. I synnerhet, molninfrastruktur är extremt dyr och förbrukar mycket av världens energi.
Deras modell tar hänsyn till sannolikheten för misslyckande för länkar mellan datacenter över hela världen - liknande att förutsäga volatiliteten i aktier. Sedan, den kör en optimeringsmotor för att allokera trafik genom optimala vägar för att minimera förluster, samtidigt som den totala användningen av nätverket maximeras.
Modellen kan hjälpa stora molntjänsteleverantörer – som Microsoft, Amazon, och Google – bättre utnyttja deras infrastruktur. Det konventionella tillvägagångssättet är att hålla länkar inaktiva för att hantera oväntade trafikförskjutningar till följd av länkfel, vilket är slöseri med energi, bandbredd, och andra resurser. Den nya modellen, kallas TeaVar, å andra sidan, garanterar att under en målprocent av tiden—säg, 99,9 procent—nätverket kan hantera all datatrafik, så det finns inget behov av att hålla några länkar inaktiva. Under dessa 0,01 procent av tiden, modellen håller också datatappet så lågt som möjligt.
I experiment baserade på verkliga data, modellen stödde tre gånger trafikgenomströmningen som traditionella trafiktekniska metoder, samtidigt som man bibehåller samma höga nivå av nätverkstillgänglighet. Ett dokument som beskriver modellen och resultaten kommer att presenteras på ACM SIGCOMM-konferensen denna vecka.
Bättre nätverksanvändning kan spara tjänsteleverantörer miljontals dollar, men fördelarna kommer att "sippra ner" till konsumenterna, säger medförfattaren Manya Ghobadi, TIBCO Career Development Assistant Professor vid MIT-avdelningen för elektroteknik och datavetenskap och en forskare vid Computer Science and Artificial Intelligence Laboratory (CSAIL).
"Att ha mer utnyttjad infrastruktur är inte bara bra för molntjänster – det är också bättre för världen, " Ghobadi säger. "Företag behöver inte köpa så mycket infrastruktur för att sälja tjänster till kunder. Plus, att effektivt kunna använda datacenterresurser kan spara enorma mängder energiförbrukning av molninfrastrukturen. Så, det finns fördelar både för användarna och miljön på samma gång."
Med Ghobadi på tidningen är hennes elever Jeremy Bogle och Nikhil Bhatia, båda av CSAIL; Ishai Menache och Nikolaj Bjorner från Microsoft Research; och Asaf Valadarsky och Michael Schapira från Hebrew University.
På pengarna
Molntjänstleverantörer använder nätverk av fiberoptiska kablar som går under jord, koppla samman datacenter i olika städer. För att dirigera trafik, Leverantörerna förlitar sig på "trafikteknik" (TE) programvara som optimalt allokerar databandbredd – mängd data som kan överföras på en gång – genom alla nätverksvägar.
Målet är att säkerställa maximal tillgänglighet för användare runt om i världen. Men det är utmanande när vissa länkar kan misslyckas oväntat, på grund av att den optiska signalkvaliteten sjunker till följd av avbrott eller avbrott i ledningar under konstruktionen, bland andra faktorer. För att förbli robust mot misslyckanden, leverantörer håller många länkar vid mycket låg användning, ligger och väntar på att absorbera full dataladdning från nedlagda länkar.
Således, det är en knepig avvägning mellan nätverkstillgänglighet och användning, vilket skulle möjliggöra högre datagenomströmning. Och det är där traditionella TE-metoder misslyckas, säger forskarna. De hittar optimala vägar baserat på olika faktorer, men kvantifiera aldrig länkarnas tillförlitlighet. "De säger inte, "Den här länken har större sannolikhet att vara igång, så det betyder att du borde skicka mer trafik hit, " Bogle säger. "De flesta länkar i ett nätverk fungerar med lågt utnyttjande och skickar inte så mycket trafik som de skulle kunna skicka."
Forskarna designade istället en TE-modell som anpassar kärnmatematiken från "villkorligt värde i riskzonen, " ett riskbedömningsmått som kvantifierar den genomsnittliga förlusten av pengar. Med investeringar i aktier, om du har ett endagsvärde på 99 procent med risk för 50 USD, din förväntade förlust av det värsta scenariot med 1 procent den dagen är 50 USD. Men 99 procent av tiden, du kommer att göra mycket bättre. Det måttet används för att investera på aktiemarknaden – vilket är notoriskt svårt att förutse.
"Men matematiken passar faktiskt bättre för vår molninfrastruktur, " säger Ghobadi. "För det mesta, länkfel beror på utrustningens ålder, så sannolikheten för misslyckande förändras inte mycket över tiden. Det betyder att våra sannolikheter är mer tillförlitliga, jämfört med aktiemarknaden."
Riskmedveten modell
I nätverk, databandbreddsandelar är analoga med investerade "pengar, " och nätverksutrustningen med olika sannolikheter för fel är "aktierna" och deras osäkerhet om att ändra värden. Med hjälp av de underliggande formlerna, forskarna designade en "riskmedveten" modell som, liksom dess finansiella motsvarighet, garanterar att data når sin destination 99,9 procent av tiden, men håller trafikförlusten på ett minimum under 0,1 procent värsta tänkbara felscenarier. Det gör det möjligt för molnleverantörer att justera avvägningen mellan tillgänglighet och användning.
Forskarna kartlade statistiskt tre års nätverkssignalstyrka från Microsofts nätverk som kopplar samman dess datacenter till en sannolikhetsfördelning av länkfel. Ingången är nätverkstopologin i en graf, med käll-destinationsflöden av data kopplade via linjer (länkar) och noder (städer), med varje länk tilldelad en bandbredd.
Felsannolikheter erhölls genom att kontrollera signalkvaliteten för varje länk var 15:e minut. Om signalkvaliteten någonsin sjunkit under en mottagningströskel, de ansåg att det var ett länkfel. Allt ovan betydde att länken var igång. Från det, modellen genererade en genomsnittlig tid som varje länk var uppe eller nere, och beräknade en felsannolikhet - eller "risk" - för varje länk vid varje 15-minuters tidsfönster. Från dessa uppgifter, den kunde förutsäga när riskabla länkar skulle misslyckas vid en viss tidsperiod.
Forskarna testade modellen mot annan TE-programvara på simulerad trafik som skickades via nätverk från Google, IBM, ATT, och andra som spred sig över världen. Forskarna skapade olika felscenarier baserat på deras sannolikhet att inträffa. Sedan, de skickade simulerade och verkliga datakrav genom nätverket och uppmanade sina modeller att börja allokera bandbredd.
Forskarnas modell höll pålitliga länkar som arbetade till nästan full kapacitet, samtidigt som du tar bort data från mer riskfyllda länkar. Över traditionella metoder, deras modell körde tre gånger så mycket data genom nätverket, samtidigt som man säkerställer att all data kommer till sin destination. Koden är fritt tillgänglig på GitHub.