Den högteknologiska utvecklingen av vetenskaplig datoranvändning. Kredit:US Department of Energy
Vetenskapen har alltid förlitat sig på en kombination av metoder för att härleda ett svar eller utveckla en teori. Fröna till Darwins teori om naturligt urval växte under en herkulisk aggregering av observation, data, och experimentera. Den nyare bekräftelsen av gravitationsvågor av Laser Interferometer Gravitational-Wave Observatory (LIGO) var ett decennier långt samspel av teori, experimentera, och beräkning.
Säkert, denna idé gick inte förlorad på US Department of Energy's (DOE) Argonne National Laboratory, som har hjälpt till att flytta fram gränserna för högpresterande datorteknik genom Argonne Leadership Computing Facility (ALCF).
Inse löftet om exascale computing, ALCF utvecklar ramverket för att utnyttja denna enorma datorkraft till en avancerad kombination av simulering, dataanalys, och maskininlärning. Denna insats kommer utan tvekan att omformulera hur vetenskapen bedrivs, och gör det på global skala.
Sedan ALCF grundades 2006, metoderna som används för att samla in, analysera och använda data har förändrats dramatiskt. Där data en gång var produkten av och begränsades av fysisk observation och experiment, framsteg i flöden från vetenskaplig instrumentering som strållinjer, kolliderare, och rymdteleskop – bara för att nämna några – har ökat datautmatningen avsevärt, ge vika för nya terminologier, som "big data".
Även om den vetenskapliga metoden förblir intakt och den mänskliga instinkten att ställa stora frågor fortfarande driver forskning, sättet vi reagerar på denna nya oväntade information kräver en fundamental förändring i hur vi använder framväxande datorteknik för analys och upptäckt.
Denna konvergens av simulering, data, och lärande driver en allt mer komplex men logisk återkopplingsslinga.
Ökad beräkningskapacitet stöder större vetenskapliga simuleringar som genererar enorma datamängder som används för att mata en maskininlärningsprocess, vars utdata informerar om ytterligare och mer exakt simulering. Detta, för, förstärks ytterligare av data från observationer, experiment, etc., att förfina processen med hjälp av datadrivna metoder.
"Medan vi alltid har haft den här traditionen att köra simuleringar, vi har arbetat stegvis i mer än några år nu för att robust integrera data och lärande, " säger Michael Papka, ALCF -chef och biträdande associerad laboratoriedirektör för datorer, Miljö- och livsvetenskaper (CELS).
För att främja detta mål, anläggningen lanserade sitt ALCF Data Science-program 2016 för att utforska och förbättra beräkningsmetoder som bättre skulle kunna möjliggöra datadrivna upptäckter över vetenskapliga discipliner. ALCF utökade också nyligen sitt Aurora Early Science-program med tillägg av 10 nya projekt som kommer att hjälpa till att förbereda anläggningens framtida exascale superdator för data och inlärningsmetoder.
Och tidigare i år, CELS-direktoratet tillkännagav skapandet av divisionerna Computational Science (CPS) och Data Science and Learning (DSL) för att utforska utmanande vetenskapliga problem genom avancerad modellering och simulering, och dataanalys och andra metoder för artificiell intelligens, respektive.
"Dessa kombinerade ansträngningar kommer att fokusera på domänvetenskap och identifiera viktiga problem som kan lösas genom en kombination av simulering, datavetenskap, och maskininlärningsmetoder. I många fall, vi kommer att använda oss av personer med relevant expertis inom flera divisioner, " säger CPS-chefen Paul Messina.
Redan, denna kombination av program och enheter testas och bevisas genom studier som korsar det vetenskapliga spektrumet, från att förstå universums ursprung till att dechiffrera hjärnans neurala anslutningsmöjligheter.
Konvergens för en ljusare framtid
Data har alltid varit en viktig drivkraft inom vetenskapen och ja, det är sant att det finns en exponentiellt större mängd än det var, säga, tio år sedan. Men även om storleken och komplexiteten hos de data som nu är tillgängliga utgör utmaningar, det ger också möjligheter till nya insikter.
Utan tvekan var Darwins forskning stordata för sin tid, men det var kulmen på nästan 30 års noggrann insamling och analys. Han hade kanske gjort processen betydligt om han hade tillgång till högpresterande datorer, och dataanalys och maskininlärningstekniker, till exempel datavinning.
"Dessa tekniker förändrar inte i grunden den vetenskapliga metoden, men de ändrar skalan eller hastigheten eller den typ av komplexitet du kan hantera, "konstaterar Rick Stevens, CELS biträdande laboratoriechef och professor vid University of Chicago.
Ta, till exempel, forskning om nya material utformade för att generera solenergi när solljus passerar genom fönster. Tekniken har hämmats av brist på rätt färgämnesmolekyl, vars upptäckt kräver den tidskrävande uppgiften att söka igenom mängder av kemilitteratur för att hitta molekyler med rätt parametrar.
Kemisten och fysikern Jacqueline Cole leder ett samarbete mellan Argonne och University of Cambridge för att få fram sådana molekyler. Cole har utvecklat en flerstegsprocess som cirkulerar genom simulering; dataextraktion, berikning, och gruvdrift; materialförutsägelse och experimentell validering.
Teamet kör storskaliga simuleringar på riktade molekyler för att förutsäga kemiska färgämnen med viktiga optiska egenskaper. Från dessa uppgifter, molekyler väljs ut för syntes, och de resulterande kemikalierna tillverkas till enheter för att validera deras framtidsutsikter i soldrivna fönster. Resultaten avgör om ytterligare utredning krävs.
"Det finns en positiv feedback loop inneboende i detta, "säger hon." Även om valideringsprocessen inte går bra, det kan fortfarande ge några användbara insikter. Vi kanske lär oss, till exempel, att vi behöver förfina struktur-funktionsrelationerna för molekylerna för en viss applikation eller lägga till en ny typ av data till befintliga data."
En stor del av insatsen var inriktad på att konstruera en databas med önskvärda organiska molekyler, varav mycket sammanställdes genom datautvinning omkring 300, 000 publicerade forskningsartiklar. Forskningen sporrades av Materials Genome Initiative, ett regeringsinitiativ för att ta ut funktionellt material till marknaden mycket snabbare än de årtionden det en gång tog.
"Fördelen med den här processen är att verkligen ta bort den gamla manuella kureringen av databaser, vilket är livstider av arbete, och minska det till några månader. I sista hand, några dagar, säger Cole.
En maskin för att binda dem alla
Oavsett om det är sökandet efter mycket specifika färgämnesmolekyler eller förståelse av nyckelflödesfysik för att utveckla effektivare vindkraftverk, sammansmältning och blomstring av simulering, data, och inlärning är bara möjlig på grund av den exponentiella och avsiktliga utvecklingen av högpresterande dator- och dataledningssystem.
"Superdatorarkitekturer struktureras för att göra dem mer mottagliga för att hantera stora mängder data och underlätta inlärning, förutom traditionella simuleringar, " säger Venkat Vishwanath, ALCF datavetenskap leder. "Och vi förser dessa maskiner med massiva ledningar som gör att vi kan strömma stora mängder data från omvärlden, som Large Hadron Collider vid CERN och vår egen Advanced Photon Source (APS) och möjliggör datadrivna modeller."
Många nuvarande arkitekturer kräver fortfarande överföring av data från dator till dator, från en maskin, vars enda funktion är simulering, till en annan som utmärker sig inom dataanalys och/eller maskininlärning.
Under de senaste åren, Argonne och ALCF har gjort en gedigen investering i högpresterande datorer som får dem närmare en fullt integrerad maskin. Processen accelererade 2017, med introduktionen av Intel-Cray-systemet, Theta, som är kapabel att kombinera traditionella simuleringskörningar och maskininlärningstekniker.
ALCF hjälper till att driva simulering, data, och lära sig till en ny nivå 2021, när de avslöjar landets första exascale-maskin, Aurora. Även om den kan utföra en miljard miljarder beräkningar per sekund, dess främsta fördel kan vara dess förmåga att genomföra och konvergera simulering, dataanalys, och maskininlärning under en huva. Slutresultatet kommer att tillåta forskare att närma sig nya typer såväl som mycket större problem och minska tiden till lösning.
"Aurora kommer att förändra spelet, " säger ALCF:s Papka. "Vi arbetar med leverantörerna Intel och Cray för att försäkra oss om att vi kan stödja vetenskap genom detta sammanflöde av simulering, data, och lär dig allt på dag ett av Auroras utplacering."
Vare sig av Darwin eller Turing, oavsett om det är med svarta tavlan eller millimeterpapper, några av världens stora vetenskapliga innovationer var produkten av en eller flera bestämda individer som väl förstod vikten av att tillämpa balanserade och varierade tillvägagångssätt för att stödja – eller vederlägga – en hypotes.
Eftersom nuvarande innovation drivs av samarbete mellan kollegor och mellan discipliner, potentialen för upptäckt genom pragmatisk tillämpning av nya beräkningsresurser, i kombination med ohämmat dataflöde, vacklar fantasin.