Ny uppgradering till hårdvara och mjukvara ger goda nyheter till över 52, 000 användare av TACC:s Ranch långsiktiga masslagringssystem. Kredit:TACC
Det finns ett skämt av komikern Steven Wright som säger, "Du kan inte få allt. Var skulle du lägga det?"
Användare av avancerad beräkning kan troligen relatera till detta. Den exponentiella tillväxten av data utgör en brant utmaning för ansträngningarna för dess tillförlitliga lagring. I över 12 år, Ranch-systemet vid Texas Advanced Computing Center (TACC) har tillhandahållit långtidsarkivering av forskningsdata som sträcker sig från astrofysik till klimatvetenskap till partikelfysik, och mer. En ny uppgradering av hårdvara och mjukvara ger goda nyheter till över 52, 000 användare av TACC:s Ranch långsiktiga massdatalagringssystem.
Arkiven är värdefulla för forskare som vill använda data för att reproducera mätningar och resultat från tidigare forskning. Beräkningsreproducerbarhet är en del av det större begreppet vetenskaplig reproducerbarhet, som utgör en hörnsten i den vetenskapliga metoden.
TACC strävar efter att heltäckande stödja forskarnas databehov. De lokala datorsystemen som Stampede2 och Lonestar tillhandahåller ett höghastighetsskraputrymme dedikerat för tillfällig lagring av data. Närmast upp på stegen är de framåtvända datainsamlingssystemen från Stockyard och Corral, som ger en kombinerad lagring på 50 petabyte som är direkt åtkomlig via höghastighetsnätanslutningar eller iRODS-datanätet. Ranch, å andra sidan, möjliggör långtidsarkivering av data i månader till år.
TACC:s Ranch-arkivsystem inkluderar ett Quantum Scalar i6000-bandbibliotek med StorNext-arkivfilsystemet som koordinerar både disk- och bandlagring. Inifrån (vänster) och utanför (höger). Kredit:TACC
Från och med april 2019, Ranch lagrar över 70 petabyte, eller 70 miljoner gigabyte av vetenskaplig data. Över 52, 000 användare har laddat upp närmare 1,7 miljarder datorfiler på det gamla biblioteket i Ranch som håller på att uppgraderas. Hypotetiskt sett, de nya uppgraderingarna till Ranch kan utöka sin lagring för att nå en häpnadsväckande exabyte, eller 1, 000 petabyte.
"För användare, mer data blir mer lättillgänglig, med 15 gånger mer diskcache än vad vi hade på det tidigare Ranch-systemet, sa Tommy Minyard, chef för Advanced Computing Systems på TACC. Färsk data som genereras från TACC-superdatorer som Stampede2, Lonestar, eller Maverick sätts upp först på Ranchs snurrande skiva och flashenheter, flyttade sedan senare till band.
Ranch har uppgraderats med ett blocklagringssystem från DataDirect Networks, DDN SFA14K DCR, som ger 30 petabyte av snurrande diskcache, mot bara två på den ersatta hårdvaran. "Det betyder att vi kommer att kunna hålla mycket mer data iscensatt på diskar så att det går snabbare att hämta och du inte behöver återkalla det från band, " lade Minyard till.
En annan välkommen förändring av Ranch kommer från företaget Quantum, som försåg ett Scalar i6000-bandbibliotek med Quantum StorNext-arkivfilsystemet som koordinerar både disk- och bandlagring. "Vi valde Quantum-systemet baserat på dess förmåga och flexibilitet, sa Junseong Heo, senior systemadministratör och chef, Storskaliga system från TACCs Advanced Computing Systems-grupp.
Ranch uppgraderad till DDN SFA14K DCR blocklagringssystem, levereras av DataDirect Networks, som ger 30 petabyte roterande diskcache. Kredit:TACC
"Specifikt, Quantum tillhandahåller en kvotkontrollmekanism som gör det möjligt för TACC att tillhandahålla ett tilldelningsbaserat projektområde för användare, " tillade Heo. Det betyder att användare kan ha mycket enklare tillgång till data och övervaka användningen av resurser. "Den projektbaserade kvoten har stått högst upp på önskelistan från användare tidigare, " sa Heo.
"TACC:s fokus på ständig innovation skapar en miljö som lägger enorm stress på lagring, och Quantum har länge legat i framkant när det gäller att hantera lösningar som möter den mest extrema tillförlitligheten, tillgänglighet och massiva krav på skalbarhet, " sa "Eric Bassier, Senior Director för produktmarknadsföring, Kvant. "Att kombinera Scalar-band med StorNexts datahanteringsfunktioner skapar en HSM-lösning (Hierarchical Storage Management) som kan leverera under de krävande förhållandena i TACC-miljön."
"Det nya systemet ger några ytterligare möjligheter för oss att kunna hantera projektdata och lagringsnivåer bättre än det gamla systemet gjorde, Minyard lade till. Detta är särskilt goda nyheter för tunga Ranch-användare, vars tilldelning kan ändras ofta. De tyngsta 100 användarna tillsammans har mer än 20 petabyte på det nuvarande arkivsystemet.
En av de stora förändringarna som användarna kommer att märka är antagandet av miljön Community Enterprise Operating System (CentOS), som ersatte den tidigare Solaris-miljön. När användare navigerar i CentOS för att migrera sina filer till de nya Ranch-biblioteken, TACC ger 12 månaders skrivskyddad åtkomst till data i det gamla biblioteket fram till slutet av 31 mars, 2020. Användare bör inspektera och migrera data i gynnsamma storlekar för bandarkiven, helst större än 100 gigabyte i individuell filstorlek.
"Arkivdata är inte glamoröst, men det krävs, " sa Minyard. "Jag vet inte hur många gånger vi har haft någon panik över att av misstag radera en fil, där TACC kunde återkalla filen för dem från Ranch. Ur deras synvinkel, Ranch är en livräddare, " sa Minyard.