• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Att ändra reglerna för datoranvändning kan minska Big Datas inverkan på internet

    Kredit:CC0 Public Domain

    I en tid när vi förlitar oss på internet i en aldrig tidigare skådad grad i våra dagliga liv, ett team av UM-forskare ledda av Mosharaf Chowdhury och Harsha Madhyastha har hittat ett sätt för teknikföretag, banker och hälsosystem för att pressa ut mer kapacitet ur vår befintliga infrastruktur.

    En förändring av designen av stordataverktyget Apache Spark skulle kunna göra det möjligt för världens största användare av datorkraft att klara sig igenom massiva uppgifter upp till 16 gånger snabbare samtidigt som de lättar bördan på internet. Chowdhury är biträdande professor och Madhyastha är docent, både av datavetenskap och teknik. Modifieringen, heter Sol, finns nu tillgänglig för nedladdning på GitHub.

    Spark är ett elektroniskt ramverk med öppen källkod som fungerar som uppgiftshanterare, koordinerar stora nätverk av enskilda datorer för att arbeta tillsammans som en enda maskin på stora datoruppgifter. Ett av de mest använda verktygen i sitt slag i världen, det används av alla större teknikföretag såväl som banker, telekommunikationsföretag, regeringar och många andra.

    När Spark byggdes för ett decennium sedan, det mesta av detta arbete ägde rum i stora datacenter, där stora banker av maskiner fanns på en enda plats. Men idag, den används i allt högre grad för att ansluta maskiner som är spridda över hela världen och anslutna via internet.

    Chowdhury hjälpte till att bygga Spark under sin tid som doktorand vid University of California Berkeley. Han förklarar att det delar ut arbete till enskilda maskiner med hjälp av en komponent som kallas en exekveringsmotor. Den designades främst för stora datacenter, där grupper av maskiner på samma lokala nätverk kunde kommunicera snabbt med varandra. Men det är mindre effektivt när maskiner är tusentals mil från varandra, ansluten av internets relativt smala rör.

    "Sparks befintliga exekveringsmotor fattar beslut om vart arbete ska skickas i allra sista minuten - först efter att CPU:n signalerar att den är redo för mer arbete skickar den en ny uppgift, " sade Chowdhury. "Det tillvägagångssättet maximerar flexibiliteten, och det är vettigt när en uppgift är inrymd i ett enda datacenter. Men den kommunikationen tar mycket längre tid mellan maskiner som är uppkopplade via internet. Sista-minuten-metoden lämnar ofta CPU:er underutnyttjade, vilket betyder att de sitter och väntar på jobbet."

    Så Chowdhury och Madhyastha, arbetar med doktorandforskarassistenterna Fan Lai och Jie You samt studentstudenten Xiangfeng Zhu, skrev en ny exekveringsmotor som heter Sol. Sol tar ett mer proaktivt tillvägagångssätt; istället för att vänta på att CPU:er ska signalera att de är redo för ett nytt jobb, den gissar vilka som kommer att stå näst på tur och skickar aktivt nya uppgifter till dem. Den instruerar också maskiner att bearbeta data lokalt när det är möjligt istället för att ständigt flytta den mellan maskiner.

    Detta innebär mindre blandning av data och kommandon mellan maskiner, minska bördan på internet och påskynda databehandlingen. Chowdhurys team har upptäckt att det snabbar upp beräkningen dramatiskt, gör vanliga uppgifter fyra till 16 gånger snabbare.

    Medan den för närvarande tillgängliga versionen är en forskningsversion av programvaran snarare än en mer polerad produkt, Chowdhury säger att släppa den i sin nuvarande form är ett sätt att driva forskning i en tid då hastighet är avgörande.

    "Fan Lai ställer sig redan till förfogande för att hjälpa dem som vill prova det, " sa han. "Vi gör allt vi kan för att gå snabbt."

    Tidningen har titeln "Sol:Fast Distributed Computation Over Slow Networks."


    © Vetenskap https://sv.scienceaq.com