CERNs datacenter. Kredit:Robert Hradil, Monika Majer/ProStudio22.ch
Den 29 juni 2017, CERN DC passerade milstolpen med 200 petabyte data permanent arkiverad i dess bandbibliotek. Var kommer dessa uppgifter ifrån? Partiklar kolliderar i Large Hadron Collider (LHC) detektorer ungefär 1 miljard gånger per sekund, genererar ungefär en petabyte kollisionsdata per sekund. Dock, sådana mängder data är omöjliga för nuvarande datorsystem att registrera och de filtreras därför av experimenten, behåller bara de mest "intressanta". De filtrerade LHC-data aggregeras sedan i CERN Data Center (DC), där initial datarekonstruktion utförs, och där en kopia arkiveras till långtidslagring av band. Även efter den drastiska dataminskningen som utfördes av experimenten, CERN DC bearbetar i genomsnitt en petabyte data per dag. Så här nåddes milstolpen med 200 petabyte data permanent arkiverad i dess bandbibliotek den 29 juni.
De fyra stora LHC-experimenten har producerat oöverträffade mängder data under de två senaste åren. Detta beror till stor del på LHC:s enastående prestanda och tillgänglighet. Verkligen, under 2016, förväntningarna var från början på cirka 5 miljoner sekunders dataupptagning, medan slutsumman var cirka 7,5 miljoner sekunder, en mycket välkommen ökning med 50 %. 2017 följer en liknande trend.
Ytterligare, eftersom ljusstyrkan är högre än 2016, många kollisioner överlappar varandra och händelserna är mer komplexa, kräver allt mer sofistikerad rekonstruktion och analys. Detta har en stark inverkan på datorkraven. Följaktligen, rekord slås i många aspekter av datainsamling, datahastigheter och datavolymer, med exceptionella användningsnivåer för dator- och lagringsresurser.
För att möta dessa utmaningar, datorinfrastrukturen i stort, och särskilt lagringssystemen, genomgick stora uppgraderingar och konsolideringar under de två åren av Long Shutdown 1. Dessa uppgraderingar gjorde det möjligt för datacentret att klara de 73 petabyte data som togs emot under 2016 (varav 49 var LHC-data) och med flödet av data som levererats hittills i 2017. Dessa uppgraderingar gjorde det också möjligt för CERN Advanced STORage-systemet (CASTOR) att klara den utmanande milstolpen med 200 petabyte permanent arkiverad data. Dessa permanent arkiverade data representerar en viktig bråkdel av den totala mängden data som tas emot i CERNs datacenter, resten är tillfälliga data som regelbundet rensas upp.
En annan konsekvens av de större datavolymerna är ett ökat behov av dataöverföring och därmed ett behov av en högre nätkapacitet. Sedan början av februari, en tredje 100 Gb/s (gigabit per sekund) fiberoptisk krets länkar CERN DC till dess fjärranslutna förlängning som finns på Wigner Research Center for Physics (RCP) i Ungern, 1800 km bort. Den extra bandbredden och redundansen som tillhandahålls av denna tredje länk hjälper CERN att på ett tillförlitligt sätt dra nytta av datorkraften och lagringen vid fjärranslutningen. Ett måste i sammanhanget med ökande datorbehov!
Den här kartan visar rutterna för de tre 100 Gbit/s fiberlänkarna mellan CERN och Wigner RCP. Rutterna har valts noggrant för att säkerställa att vi upprätthåller uppkopplingen vid eventuella incidenter. (Bild:Google)