När forskare behöver komma åt de lagrade filerna för att utföra analyser, en lång robotarm går ner från taket, väljer ett band, och överför data som lagras till en hårddisk. Kredit:Reidar Hahn, Fermilab
Vid CERNs Large Hadron Collider, så många som 40 miljoner partikelkollisioner inträffar inom loppet av en enda sekund inuti CMS-partikeldetektorns mer än 80 miljoner detektionskanaler. Dessa kollisioner skapar ett enormt digitalt fotavtryck, även efter att datorer har fått den mest meningsfulla informationen. Den enkla handlingen att hämta information kan innebära att man kämpar mot flaskhalsar.
CMS-fysiker vid det amerikanska energidepartementets Fermi National Accelerator Laboratory, som lagrar en stor del av LHC-data, experimenterar nu med användningen av NVMe, eller icke-flyktigt minnesexpress, solid-state-teknik för att bestämma det bästa sättet att komma åt lagrade filer när forskare behöver hämta dem för analys.
Problemet med terabyte
Resultaten av CMS-experimentet vid CERN har potential att hjälpa till att svara på några av de största öppna frågorna inom fysiken, som varför det finns mer materia än antimateria i universum och om det finns fler än tre fysiska dimensioner.
Innan forskare kan svara på sådana frågor, dock, de behöver komma åt kollisionsdata som registrerats av CMS-detektorn, varav mycket byggdes på Fermilab. Dataåtkomst är inte på något sätt en trivial uppgift. Utan databeskärning online, LHC skulle generera 40 terabyte data per sekund, tillräckligt för att fylla hårddiskarna på 80 vanliga bärbara datorer. En automatiserad urvalsprocess behåller endast det viktiga, intressanta kollisioner, trimma antalet sparade händelser från 40 miljoner per sekund till bara 1, 000.
"Vi bryr oss bara om en bråkdel av dessa kollisioner, så vi har en sekvens av urvalskriterier som avgör vilka som ska behållas och vilka som ska slängas i realtid, " sa Fermilab-forskaren Bo Jayatilaka, som leder NVMe-projektet.
Fortfarande, även med selektiv beskärning, tiotusentals terabyte data från enbart CMS-detektorn måste lagras varje år. Inte bara det, men för att säkerställa att ingen av informationen någonsin går vilse eller förstörs, två kopior av varje fil måste sparas. Ett exemplar lagras i sin helhet hos CERN, medan den andra kopian är uppdelad mellan samarbetsinstitutioner runt om i världen. Fermilab är den främsta utsedda lagringsanläggningen i USA för CMS-experimentet, med ungefär 40 % av experimentets datafiler lagrade på band.
En lösning i fast tillstånd
Feynman Computing Center på Fermilab rymmer tre stora databibliotek fyllda med rader på rader av magnetband som lagrar data från Fermilabs egna experiment, samt från CMS. Om du skulle kombinera hela Fermilabs bandlagringskapacitet, du har ungefär förmågan att lagra motsvarande 13, 000 års HD-TV-filmer.
"Vi har rack fulla av servrar som har hårddiskar på dem, och de är det primära lagringsmediet som forskare faktiskt läser och skriver data till och från, " sa Jayatilaka.
Men hårddiskar – som har använts som lagringsenheter i datorer under de senaste 60 åren – är begränsade i mängden data som de kan ladda in i applikationer under en given tid. Detta beror på att de laddar data genom att hämta dem från snurrande skivor, som är den enda åtkomstpunkten för den informationen. Forskare undersöker sätt att implementera nya typer av teknik för att påskynda processen.
För detta ändamål, Fermilab installerade nyligen ett enda rack med servrar fulla av solid-state NVMe-enheter på sitt Feynman Computing Center för att påskynda partikelfysikanalyser.
I ett försök att påskynda analyser inom högenergifysikforskning, Fermilab installerade nyligen ett enda rack med servrar fulla av solid state-enheter som heter NVMe. Kredit:Bo Jayatilaka, Fermilab
Rent generellt, SSD-enheter använder kompakta elektriska kretsar för att snabbt överföra data. NVMe är en avancerad typ av solid-state-enhet som kan hantera upp till 4, 000 megabyte per sekund. För att sätta det i perspektiv, den genomsnittliga hårddisken har cirka 150 megabyte per sekund, gör solid state till det självklara valet om hastighet är ditt huvudmål.
Men hårddiskar har inte förflyttats till antiken ännu. Vad de saknar i hastighet, de kompenserar för lagringskapacitet. För närvarande, den genomsnittliga lagringsgränsen i solid-state-enheter är 500 gigabyte, vilket är den minsta mängd lagringsutrymme du vanligtvis hittar tillgängligt på moderna hårddiskar. Att bestämma huruvida Fermilab ska ersätta mer av sin hårddiskminne med solid-state-enheter kommer därför att kräva en noggrann analys av kostnader och fördelar.
Gör en analys
När forskare analyserar sina data med hjälp av stora datorservrar eller superdatorer, de gör det vanligtvis genom att sekventiellt hämta delar av denna data från lagring, en uppgift som är väl lämpad för hårddiskar.
"Ända tills nu, vi har kunnat komma undan med att använda hårddiskar i högenergifysik eftersom vi tenderar att hantera miljontals händelser genom att analysera varje händelse en i taget, " sa Jayatilaka. "Så vid varje given tidpunkt, du ber bara om några få bitar av data från varje enskild hårddisk."
Men nyare tekniker förändrar hur forskare analyserar sina data. Maskininlärning, till exempel, blir allt vanligare inom partikelfysik, speciellt för CMS-experimentet, där denna teknik är ansvarig för den automatiserade urvalsprocessen som håller bara den lilla bråkdelen av datavetare som är intresserade av att studera.
Men istället för att komma åt små delar av data, maskininlärningsalgoritmer behöver komma åt samma databit upprepade gånger – oavsett om det är lagrat på en hårddisk eller solid-state-enhet. Detta skulle inte vara något problem om det bara fanns ett fåtal processorer som försökte komma åt den datapunkten, men i högenergifysikberäkningar, det finns tusentals processorer som tävlar om att komma åt den datapunkten samtidigt.
Detta kan snabbt orsaka flaskhalsar och låga hastigheter när du använder traditionella hårddiskar. Slutresultatet är långsammare beräkningstider.
Fermilabs forskare testar för närvarande NVMe-tekniken för dess förmåga att minska antalet dessa dataflaskhalsar.
Framtiden för datoranvändning på Fermilab
Fermilabs lagrings- och datorkraft är mycket mer än bara ett kraftpaket för CMS-experimentet. CMS-beräknings-FoU-satsningen lägger också grunden för framgången för det kommande High-Luminosity LHC-programmet och möjliggör det internationella, Fermilab-värd för Deep Underground Neutrino Experiment, båda kommer att börja ta data i slutet av 2020-talet.
Jayatilaka och hans teams arbete kommer också att göra det möjligt för fysiker att prioritera var NVMe -enheter främst ska placeras, oavsett om det är på Fermilab eller på andra LHC-partnerinstitutioners lageranläggningar.
Med de nya servrarna i handen, teamet undersöker hur man kan implementera den nya solid-state-tekniken i den befintliga datorinfrastrukturen på Fermilab.