• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Datauppsättning av superdatorcenter syftar till att påskynda AI-forskning för att optimera högpresterande datorsystem

    Kredit:Pixabay/CC0 Public Domain

    När MIT Lincoln Laboratory Supercomputing Center (LLSC) presenterade sin TX-GAIA superdator 2019, gav det MIT-gemenskapen en kraftfull ny resurs för att tillämpa artificiell intelligens på sin forskning. Vem som helst på MIT kan skicka in ett jobb till systemet, som körs genom biljoner operationer per sekund för att träna modeller för olika applikationer, som att upptäcka tumörer i medicinska bilder, upptäcka nya läkemedel eller modellera klimateffekter. Men med denna stora makt kommer det stora ansvaret att hantera och driva det på ett hållbart sätt – och teamet letar efter sätt att förbättra.

    "Vi har dessa kraftfulla beräkningsverktyg som låter forskare bygga intrikata modeller för att lösa problem, men de kan i huvudsak användas som svarta lådor. Det som går vilse där är om vi faktiskt använder hårdvaran så effektivt som vi kan", säger Siddharth Samsi , en forskare vid LLSC.

    För att få insikt i denna utmaning har LLSC samlat in detaljerad information om TX-GAIA-användning under det senaste året. Mer än en miljon användarjobb senare har teamet släppt datamängden med öppen källkod till datorgemenskapen.

    Deras mål är att ge datavetare och datacenteroperatörer möjlighet att bättre förstå vägar för datacenteroptimering – en viktig uppgift eftersom bearbetningsbehoven fortsätter att växa. De ser också potential för att utnyttja AI i själva datacentret genom att använda data för att utveckla modeller för att förutsäga felpunkter, optimera jobbschemaläggning och förbättra energieffektiviteten. Medan molnleverantörer aktivt arbetar med att optimera sina datacenter, gör de inte ofta sina data eller modeller tillgängliga för den bredare högpresterande datorgemenskapen (HPC) att utnyttja. Utgivningen av denna datauppsättning och tillhörande kod försöker fylla detta utrymme.

    "Datacenter förändras. Vi har en explosion av hårdvaruplattformar, typerna av arbetsbelastningar utvecklas och de typer av människor som använder datacenter förändras", säger Vijay Gadepally, seniorforskare vid LLSC. "Fram till nu har det inte funnits ett bra sätt att analysera effekten på datacenter. Vi ser denna forskning och datauppsättning som ett stort steg mot att komma fram till ett principiellt tillvägagångssätt för att förstå hur dessa variabler interagerar med varandra och sedan tillämpa AI för insikter och förbättringar."

    Uppsatser som beskriver datamängden och potentiella tillämpningar har accepterats till ett antal platser, inklusive IEEE International Symposium on High-Performance Computer Architecture, IEEE International Parallel and Distributed Processing Symposium, den årliga konferensen för North American Chapter of Association for Computational Lingvistik, IEEE High-Performance and Embedded Computing Conference, och International Conference for High Performance Computing, Networking, Storage and Analysis.

    Arbetsbelastningsklassificering

    Bland världens TOP500 superdatorer kombinerar TX-GAIA traditionell datorhårdvara (centrala processorer eller processorer) med nästan 900 acceleratorer för grafikprocessorer (GPU). Dessa NVIDIA GPU:er är specialiserade för djupinlärning, klassen av AI som har gett upphov till taligenkänning och datorseende.

    Datauppsättningen täcker CPU, GPU och minnesanvändning per jobb; schemaläggning av loggar; och fysisk övervakningsdata. Jämfört med liknande datamängder, som de från Google och Microsoft, erbjuder LLSC-datauppsättningen "märkta data, en mängd olika kända AI-arbetsbelastningar och mer detaljerade tidsseriedata jämfört med tidigare datauppsättningar. Såvitt vi vet är det en av de mest omfattande och finkorniga datauppsättningar tillgängliga," säger Gadepally.

    Teamet samlade in tidsseriedata på en aldrig tidigare skådad detaljnivå:100 millisekunders intervall på varje GPU och 10 sekunders intervall på varje CPU, eftersom maskinerna bearbetade mer än 3 000 kända djupinlärningsjobb. Ett av de första målen är att använda denna märkta datauppsättning för att karakterisera de arbetsbelastningar som olika typer av djupinlärningsjobb lägger på systemet. Denna process skulle extrahera funktioner som avslöjar skillnader i hur hårdvaran bearbetar naturliga språkmodeller kontra bildklassificering eller materialdesignmodeller, till exempel.

    Teamet har nu lanserat MIT Datacenter Challenge för att mobilisera denna forskning. Utmaningen uppmanar forskare att använda AI-tekniker för att med 95 procents noggrannhet identifiera vilken typ av jobb som kördes, med hjälp av deras märkta tidsseriedata som grundsanning.

    Sådana insikter kan göra det möjligt för datacenter att bättre matcha en användares jobbförfrågan med den hårdvara som är bäst lämpad för den, vilket kan spara energi och förbättra systemets prestanda. Klassificering av arbetsbelastningar kan också göra det möjligt för operatörer att snabbt upptäcka avvikelser som beror på maskinvarufel, ineffektiva dataåtkomstmönster eller obehörig användning.

    För många val

    Idag erbjuder LLSC verktyg som låter användare skicka in sitt jobb och välja de processorer de vill använda, "men det är mycket gissningar från användarnas sida", säger Samsi. "Någon kanske vill använda den senaste grafikprocessorn, men kanske behöver deras beräkningar faktiskt inte det och de kan få lika imponerande resultat på processorer eller maskiner med lägre effekt."

    Professor Devesh Tiwari vid Northeastern University arbetar med LLSC-teamet för att utveckla tekniker som kan hjälpa användare att matcha sina arbetsbelastningar till lämplig hårdvara. Tiwari förklarar att uppkomsten av olika typer av AI-acceleratorer, GPU:er och processorer har gjort att användarna lider av för många valmöjligheter. Utan de rätta verktygen för att dra fördel av denna heterogenitet går de miste om fördelarna:bättre prestanda, lägre kostnader och högre produktivitet.

    "Vi fixar just det här kapacitetsgapet – vilket gör användarna mer produktiva och hjälper användare att göra vetenskap bättre och snabbare utan att behöva oroa sig för att hantera heterogen hårdvara", säger Tiwari. "Min doktorand, Baolin Li, bygger nya möjligheter och verktyg för att hjälpa HPC-användare att utnyttja heterogenitet nästan optimalt utan användaringripande, med hjälp av tekniker grundade i Bayesiansk optimering och andra inlärningsbaserade optimeringsmetoder. Men detta är bara början. Vi undersöker sätt att introducera heterogenitet i våra datacenter i ett principiellt tillvägagångssätt för att hjälpa våra användare att uppnå maximal fördel av heterogenitet autonomt och kostnadseffektivt."

    Arbetsbelastningsklassificering är det första av många problem som uppstår genom Datacenter Challenge. Andra inkluderar utveckling av AI-tekniker för att förutsäga jobbmisslyckanden, spara energi eller skapa arbetsschemametoder som förbättrar kylningseffektiviteten i datacenter.

    Energibesparing

    För att mobilisera forskning om grönare datoranvändning planerar teamet också att släppa en miljödatauppsättning av TX-GAIA-operationer, som innehåller racktemperatur, strömförbrukning och annan relevant data.

    Enligt forskarna finns det enorma möjligheter att förbättra energieffektiviteten hos HPC-system som används för AI-bearbetning. Som ett exempel fastställde nyligen arbete i LLSC att enkel hårdvarujustering, som att begränsa mängden ström som en enskild GPU kan dra, kan minska energikostnaden för att träna en AI-modell med 20 procent, med endast blygsamma ökningar av beräkningstiden. "Denna minskning översätts till ungefär en hel veckas hushållsenergi för bara tre timmars tidsökning", säger Gadepally.

    De har också utvecklat tekniker för att förutsäga modellnoggrannhet, så att användare snabbt kan avsluta experiment som sannolikt inte kommer att ge meningsfulla resultat, vilket sparar energi. Datacenterutmaningen kommer att dela relevant data för att göra det möjligt för forskare att utforska andra möjligheter att spara energi.

    Teamet förväntar sig att lärdomar från denna forskning kan tillämpas på de tusentals datacenter som drivs av det amerikanska försvarsdepartementet.

    Andra medarbetare inkluderar forskare vid MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). Professor Charles Leisersons Supertech Research Group undersöker prestandahöjande tekniker för parallell beräkning, och forskaren Neil Thompson utformar studier om sätt att driva datacenteranvändare mot klimatvänligt beteende.

    Samsi presenterade detta arbete vid den inledande workshopen för AI for Datacenter Optimization (ADOPT'22) förra våren som en del av IEEE International Parallel and Distributed Processing Symposium. Workshopen introducerade officiellt deras Datacenter Challenge för HPC-gemenskapen.

    "Vi hoppas att den här forskningen kommer att tillåta oss och andra som driver superdatorcenter att vara mer lyhörda för användarnas behov och samtidigt minska energiförbrukningen på centernivå", säger Samsi. + Utforska vidare

    Första studierna med Quantum Machine Learning vid LHCb

    Denna berättelse är återpublicerad med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.




    © Vetenskap https://sv.scienceaq.com