Upphovsman:Greg Stewart/SLAC National Accelerator Laboratory
När uppgraderingar av röntgenlasern vid Department of Energys SLAC National Accelerator Laboratory är klara, den kraftfulla nya maskinen kommer att fånga upp till 1 terabyte data per sekund; det är en datahastighet som motsvarar att streama cirka tusen filmer i full längd på bara en enda sekund, och analysera varje bildruta i varje film när de zoomar förbi i detta supersnabbspolningsläge.
Dataexperter vid labbet hittar sätt att hantera denna enorma mängd information när Linac Coherent Light Source (LCLS) uppgraderingarna kommer på nätet under de kommande åren.
LCLS accelererar elektroner till nästan ljusets hastighet för att generera extremt ljusa strålar av röntgenstrålar. Dessa röntgenstrålar undersöker ett prov som ett protein eller ett kvantmaterial, och en detektor fångar en serie bilder som avslöjar provets atomrörelse i realtid. Genom att sätta ihop dessa bilder, apotek, biologer, och materialforskare kan skapa molekylära filmer av händelser som hur växter absorberar solljus, eller hur våra läkemedel hjälper till att bekämpa sjukdomar.
När LCLS uppgraderas, forskare går från 120 pulser per sekund till upp till 1 miljon pulser per sekund. Det kommer att skapa en 10, 000 gånger ljusare röntgenstråle som kommer att möjliggöra nya studier av system som inte kunde studeras tidigare. Men det kommer också att ge en enorm datautmaning:Röntgenlasern kommer att producera hundratals till tusen gånger mer data per given tidsperiod än tidigare.
För att hantera denna data, en grupp forskare ledda av LCLS Data Systems Division Director Jana Thayer utvecklar nya beräkningsverktyg, inklusive datoralgoritmer och sätt att ansluta till superdatorer. Thayers grupp använder en kombination av datorer, dataanalys och maskininlärning för att bestämma mönstren i röntgenbilder och sedan sätta ihop en molekylär film.
Går med strömmen
På LCLS, data flödar kontinuerligt. "När forskare får tillgång till att köra ett experiment, det är antingen en 12-timmars dag eller en 12-timmars natt, och begränsat till bara några skift innan nästa lag anländer, säger Ryan Coffee, SLAC senior forskare. För att effektivt använda värdefull experimentell tid, Flaskhalsar måste helt undvikas för att bevara dataflödet och deras analys.
Streaming och lagring av data utgör en betydande utmaning för nätverks- och datorresurser, och att kunna övervaka datakvaliteten i nära realtid innebär att data behöver behandlas omedelbart. Ett viktigt steg för att göra detta möjligt är att minska mängden data så mycket som möjligt innan den lagras för vidare analys.
För att aktivera detta, Thayers team har implementerat on-the-fly datareduktion med hjälp av flera typer av komprimering för att minska storleken på inspelade data utan att påverka kvaliteten på det vetenskapliga resultatet. En form av kompression, kallas veto, kastar ut oönskad data, som till exempel bilder där röntgenbilderna missade sitt mål. Annan, kallas funktionsextraktion, sparar endast den information som är viktig vetenskapligt, som platsen och ljusstyrkan för en punkt i en röntgenbild.
"Om vi sparade all rådata, som vi har gjort hittills, det skulle kosta oss en kvarts miljard dollar per år, ", säger Thayer. "Vårt uppdrag är att ta reda på hur man kan minska data innan vi skriver den. En av de riktigt snygga, innovativa delar av det nya datasystemet vi utvecklade är dataminskningspipelinen, som tar bort irrelevant information och minskar den data som behöver överföras och lagras."
Kaffe säger, "Då sparar du mycket på strömmen, men ännu viktigare, du sparar på genomströmningen. Om du måste skicka rådata via nätverket, du kommer att helt överväldiga det genom att försöka skicka ut bilder varenda mikrosekund."
Gruppen skapade också en mellanliggande plats för att lägga data innan den går till lagring. Thayer förklarar, "Vi kan inte skriva direkt till lagret, för om det finns ett fel i systemet, den måste pausa och vänta. Eller om det finns en nätverkshicka, då kan du förlora data helt. Så, vi har en liten men pålitlig buffert som vi kan skriva till; då kan vi flytta data till permanent lagring."
Driv innovation
Thayer betonar att datasystemet är byggt för att ge forskare resultatet av deras arbete lika snabbt som det nuvarande systemet, så att de får information i realtid. Den är också byggd för att klara expansionen inom LCLS-vetenskap under de kommande 10 åren. Den stora utmaningen är att hänga med i det enorma hoppet i datahastigheten.
"Om du föreställer dig att gå från att analysera 120 bilder per sekund till 1 miljon per sekund, det kräver mycket mer rullning, " säger hon. "Datorer är inte magi - det fungerar fortfarande på samma sätt - vi ökar bara antalet hjärnor som arbetar på var och en av bilderna."
Med stöd av en nyligen utmärkelse från DOE, och arbeta med kollegor från hela DOE:s nationella laboratoriekomplex, teamet ser också efter att införliva artificiell intelligens och maskininlärningstekniker för att ytterligare minska mängden data som ska bearbetas, och att flagga intressanta funktioner i data när de uppstår.
För att förstå LCLS-datautmaningen, Kaffe drar en analogi till självkörande bilar:"De måste beräkna i realtid:de kan inte analysera en sats bilder som just spelats in och sedan säga "Vi förutspår att du skulle ha svängt vänster på bild nummer 10." SLAC:s datahastighet är mycket högre än någon av dessa bilar kommer att uppleva, men problemet är detsamma – forskare måste styra sitt experiment för att hitta de mest spännande destinationerna!"
Uppgraderingarna som driver detta enorma steg i datahastighet och prestanda kommer att ske i två faser under de kommande åren, inklusive LCLS-II och en högenergiuppgradering som följer. Dataexperternas arbete kommer att säkerställa att forskarna kan dra full nytta av båda. "I slutändan kommer det att ha en dramatisk effekt på vilken typ av vetenskap vi kan göra, öppna möjligheter som inte är möjliga idag, "Säger kaffe.