Adaptable IO System (ADIOS) ger en enkel, flexibelt sätt för forskare att beskriva data i sin kod som kan behöva skrivas, läsa, eller bearbetas utanför den löpande simuleringen. Kredit:Oak Ridge National Laboratory
Forskare över hela det vetenskapliga spektrumet längtar efter data, eftersom det är viktigt för att förstå den naturliga världen och, i förlängningen, påskynda vetenskapliga framsteg. Nyligen, dock, verktygen för vetenskaplig strävan har blivit så kraftfulla att mängden data som erhålls från experiment och observationer ofta är svårhanterlig.
Med andra ord, det är möjligt att få för mycket av det goda.
Att förstå dagens ballonguppsättningar har blivit en stor vetenskaplig utmaning i sig, tvingar forskare att inte bara ta itu med sina domänvetenskapliga problem utan också problemet med att hantera och bearbeta deras ständigt växande datamängder. Fråga bara forskare på BP, som har i uppdrag att hitta naturgas och olja i marken och ta reda på hur man bäst utvinner den.
"Ny teknik på området tillåter oss att samla in mer data än vi någonsin drömt om, " sa BP HPC Computational Scientist Vladimir Bashkardin, hänvisar till egenskaperna hos vätska och berg under ytan som erhållits via energisvar till företagets sondering. "Vi måste skala vår förmåga att komma åt stora seismiska datamängder, som kan mäta en halv petabyte ibland."
För att hjälpa dem i denna monumentala ansträngning vände sig Bashkardin och hans kollegor till Department of Energy's Oak Ridge National Laboratory, hem till Summit, världens mest kraftfulla och "smartaste" dator, och en mängd expertis om hur man hanterar och bearbetar dagens stora och komplexa vetenskapliga datamängder.
Summits debut markerade tredje gången laboratoriet har ställt upp världens snabbaste superdator. Dessa system har använts för att ta itu med några av vår tids mest pressande vetenskapliga utmaningar, inklusive fusionsenergi, drogleverans, och design av nya material, insatser som också har gjort ORNL till världsledande på den allt viktigare arenan big data.
BP-forskare vände sig till ORNL Scientific Data Group Leader Scott Klasky och ORNL Scientific Data Management Team Lead Norbert Podhorszki, huvudutredarna bakom Adaptable I/O System (ADIOS), en I/O-mellanvara som har hjälpt forskare att uppnå vetenskapliga genombrott genom att tillhandahålla en enkel, flexibelt sätt att beskriva data i sin kod som kan behöva skrivas, läsa, eller bearbetas utanför den löpande simuleringen.
BP bjöd in Klasky och Podhorszki till sina kontor i Houston för att ge företagets högpresterande datorteam en handledning om ADIOS och visa hur det kan hjälpa dem att accelerera sin vetenskap genom att hjälpa till att ta itu med deras stora, unika seismiska datamängder.
"Workshopen var fantastisk, " sa BP HPC-teknikanalytiker Bosen Du. "Det var en bra introduktion till ADIOS, och vi såg definitivt många möjliga möjligheter att tillämpa det på våra specifika utmaningar. Ännu bättre, Scott och Norbert ställde specifika frågor för att anpassa handledningen till BP."
Klasky delade Dus entusiasm. "Detta var en av de roligare handledningarna vi har gett på grund av intresset från alla i rummet, " han sa, och tillägger att BP:s intresse ledde till vad som troligen är den längsta handledning laget någonsin har gett.
Ett naturligt partnerskap
Klaskys och Podhorszkis resa var resultatet av ett växande förhållande mellan ORNL och BP.
BP:s direktör för HPC, Keith Gray, var redan bekant med ORNL:s Oak Ridge Leadership Computing Facility, DOE Office of Science User Facility som är hem för Summit, genom positiva vittnesmål från kollegor som hade deltagit i dess Industrial Partnership Program ACCEL (Accelerating Competitiveness through Computational Excellence).
Gray besökte till och med ORNL för två år sedan för att hålla en gästföreläsning om hur BP:s datacenterbehov är mindre men liknar dem i ett center som OLCF och om vikten av ett pålitligt datacenter för att stödja BP:s engagemang för att ligga i framkant av superdatorer teknologi.
Det förhållandet, tillsammans med ADIOS unika möjligheter, gjorde valet enkelt. "Vi började forska och ADIOS var alltid överst på listan, sa Gray, lägger till:"Genom att samarbeta, BP:s expertis i världsklass i att tillämpa HPC för att lösa komplexa vetenskapliga problem kan hjälpa ADIOS-teamet att förstå olika arbetsflöden eftersom de hjälper oss att hantera vår data."
Att hantera denna data är avgörande ur ett affärsperspektiv. I ett nyligen projekt stod BP-teamet inför en datauppsättning på 500 terabyte. Och det är innan seismisk bearbetning, varefter datasetet kan växa tio gånger.
"Att ha något som kan skala, gör massivt parallell I/O, och stödkomprimering skulle vara en stor fördel för att hjälpa oss att övervinna våra nuvarande dataproblem, " sade Bashkardin. MGARD, en teknik utvecklad gemensamt av ORNL och Brown University som används för förlustkomprimering av vetenskaplig data och som matematiskt garanterar felgränser, verkade passa särskilt bra för BP:s kompressionsproblem, sa Klasky.
Han tillade att de senaste förändringarna i ADIOS, möjliggjort av Exascale Computing Project, har hjälpt SPECFEM3D-Globe-seismologikoden som används av Princetons Jeroen Tromp att uppnå en hastighet på mer än 2 terabyte per sekund medan den skriver data till Summits allmänna parallella filsystem. En sådan hastighet kan leda till ytterligare samarbete med Tromps team, som använder ADIOS som I/O-backend, och bidra till att stärka databehandlingsförmågan för en stor del av seismologisamhället.
Att övervinna problem som I/O-flaskhalsar innebär en minskning av omloppstiden för dataanalys, som skulle göra det möjligt för företaget att utforska olika idéer, identifiera och åtgärda flaskhalsar, och uppnå en bättre förståelse av underytan. Tagen tillsammans, dessa förmågor kan skapa enorma genombrott för BP:s forskningsprogram.
Men en framgångsrik implementering av ADIOS i BP:s nuvarande I/O-kod, kallat Data Dictionary System, skulle vara fördelaktigt på kort sikt också. Till exempel, det skulle ge deras team värdefull insikt om huruvida de strävar efter rätt teknik och strategier för att lyckas.
"Det kan hjälpa oss att överväga att bygga ytterligare filsystem för att leverera mer bandbredd än våra nuvarande kluster, sa Gray, tillägger att "du behöver inte nya filsystem om din I/O är på topp, och vi har för närvarande inte alla nödvändiga I/O-mått." Forskare från ORNL-teamet har gått med på att ge lite stöd för att hjälpa BP att utvärdera sin datastrategi.
Lade till Bashkardin:"Vi kämpar med att extrahera I/O-bandbredd ur vårt Luster-filsystem på grund av ett antal faktorer. Det finns mycket att vinna i dessa termer. Till och med en fördubbling av prestandan med en enda datauppsättning skulle vara en enorm förbättring."
I teorin, ADIOS skulle kunna påskynda vissa jobb från dagar till timmar, fundamentalt förändra arbetsflödena för BP:s seismiska forskare. Och, enligt BP HPC Computational Specialist Qingquing Liao, Mellanvarans inbyggda visualiseringsförmåga är ett utmärkt verktyg som pekar ut problematiska områden i forskarnas koder och modeller för att hjälpa dem att bäst förstå hur de kan ändra sina algoritmer. Klasky krediterar sina kollegor Lipeng Wan och William Godoy för denna förmåga, som tillåter användare att omedelbart övergå från filbaserad kodkoppling (t.ex. asynkron koppling av en kod till visualisering) till koppling i minnet utan att ändra sin kod.
Men innan ADIOS kan implementeras, BP-teamet kommer att behöva specificera vilka livskraftiga funktioner de vill se på sin I/O-backend och skapa ett nytt API-lager med en specifik uppsättning API-mål.
"Att kunna utnyttja ORNL:s ADIOS och arbeta tillsammans för att förbättra det kommer att utöka BP:s expertis i att använda big data för att lösa kritiska energiproblem, sa Gray.