En konstnärlig illustration av en blandning av Gaussiska processer och en ljus- eller partikelstråle som passerar igenom. Bilden anspelar på algoritmens inre funktion i gpCAM, ett mjukvaruverktyg utvecklat av forskare vid Berkeley Labs CAMERA-anläggning för att underlätta autonoma vetenskapliga upptäckter. Kredit:Marcus Noack, Berkeley Lab
Experimentella anläggningar runt om i världen står inför en utmaning:deras instrument blir allt kraftfullare, leder till en stadig ökning av volymen och komplexiteten hos de vetenskapliga data som de samlar in. På samma gång, dessa verktyg kräver nya, avancerade algoritmer för att dra nytta av dessa möjligheter och göra det möjligt att ställa och besvara allt mer invecklade vetenskapliga frågor. Till exempel, ALS-U-projektet för att uppgradera Advanced Light Source-anläggningen vid Lawrence Berkeley National Laboratory (Berkeley Lab) kommer att resultera i 100 gånger starkare mjukt röntgenljus och har supersnabba detektorer som kommer att leda till en enorm ökning av datainsamlingshastigheter.
För att fullt ut utnyttja moderna instrument och faciliteter, forskare behöver nya sätt att minska mängden data som krävs för vetenskaplig upptäckt och ta itu med datainsamlingshastigheter som människor inte längre kan hålla jämna steg med. En lovande väg ligger i ett framväxande område känt som autonom upptäckt, där algoritmer lär sig av en jämförelsevis liten mängd indata och själva beslutar om nästa steg att ta, tillåter flerdimensionella parameterutrymmen att utforskas snabbare, effektivt, och med minimal mänsklig inblandning.
"Fler och fler experimentella fält drar fördel av denna nya optimala och autonoma datainsamling eftersom, när det kommer till kritan, det handlar alltid om att approximera någon funktion, med bullriga data, sa Marcus Noack, en forskare vid Center for Advanced Mathematics for Energy Research Applications (CAMERA) vid Berkeley Lab och huvudförfattare till en ny artikel om Gaussiska processer för autonom datainsamling publicerad 28 juli i Naturrecensioner Fysik . Tidningen är kulmen på ett flerårigt, multinationell ansträngning ledd av CAMERA för att introducera innovativa autonoma upptäcktstekniker i ett brett vetenskapssamhälle.
Stokastiska processer tar ledningen
Under de senaste åren, autonoma upptäcktsmetoder har blivit mer sofistikerade, med stokastiska processer (t.ex. Gaussisk processregression [GPR]) framstår som den valda metoden för att styra många klasser av experiment. Framgången för GPR i styrexperiment beror på dess probabilistiska natur, vilket gör att vi kan fatta beslut utifrån den nuvarande modellens osäkerhet. Detta är vad som ligger i hjärtat av gpCAM, ett mjukvaruverktyg utvecklat av CAMERA.
"I motsats till djupinlärning, stokastiska processer kan användas för att fatta beslut baserat på relativt små datamängder, och de ger osäkerhetsuppskattningar som kan optimera inlärningsprocessen, Sa Noack.
Medan CAMERAs initiala forskningsansträngningar främst har fokuserat på synkrotronstrållinjeexperiment, ett växande antal forskare inom andra discipliner ser nu fördelarna med att införliva autonoma upptäcktstekniker i sina experimentella projektarbetsflöden. I april, en workshop om autonom upptäckt inom vetenskap och teknik sponsrad av CAMERA och ledd av Noack lockade hundratals forskare från hela världen, återspeglar det växande intresset för detta framväxande område.
"Vi är fortfarande i början med detta, men stora framsteg har gjorts under det senaste året, sa Martin Böhm, en instrumentforskare i spektroskopigruppen vid Institut Laue-Langevin i Grenoble, Frankrike, och en medförfattare till Nature Reviews Physics. "För spektrometri, till exempel, det erbjuder ett nytt sätt att göra experiment och låter instrumenten göra jobbet, vilket resulterar i tidsbesparingar för användarna." Andra potentiella applikationsområden inkluderar fysik, matematik, kemi, biologi, materialvetenskap, miljöstudier, drog upptäckt, datavetenskap, och elektroteknik.
Flera användningsområden dyker upp
Till exempel, John Thomas, en postdoktor vid Berkeley Labs Molecular Foundry, använder fotokopplad skanningssondmikroskopi för att förstå materialegenskaper för tunnfilms halvledande system och har arbetat med gpCAM för att förbättra dessa insatser.
"Nanoskala -applikationer som använder artificiell intelligens och maskininlärningsalgoritmer, speciellt för scanning av sondsystem, har varit ett intresse för Weber-Bargioni-gruppen [på gjuteriet] under en tid, "Sa Thomas." Vi blev intresserade av att använda gaussiska processer mot autonom upptäckt sommaren 2020. "
Gruppen slutförde nyligen en applikation som använder gpCAM i ett Python-to-LabVIEW-gränssnitt, var, med viss användarinmatning för initiering, gpCAM driver en atomärt vass sond över ett halvledande tvådimensionellt material för hyperspektral datainsamling. Bilder som erhållits representerar en konvolution av både elektronisk och topografisk information, och punktspektroskopi extraherar lokal elektronisk struktur.
"Autonom körning av scanningssondinstrument, utan behov av konstant mänsklig verksamhet, kan optimera verktygsprestanda för ingenjörer och forskare genom att fortsätta experimenten utanför kontorstid eller tillhandahålla vägar för samtidiga uppgifter inom ett givet arbetsflöde; det är, verktyget kan ställas in för en autonom körning samtidigt som användaren effektivt kan utnyttja den tid som tillåts, ", sa Thomas. "Som ett resultat, vi kan nu använda Gaussiska processer för att kartlägga och identifiera defekta regioner i 2D heterostrukturer med sub-Ångström upplösning."
Aaron Michelson, en forskare i Oleg Gang-gruppen vid Columbia University som arbetar med DNA-origami-baserad självmontering, har precis börjat tillämpa gpCAM på sin forskning. För ett projekt, det hjälper honom och hans kollegor att undersöka den termiska glödgningshistorien för DNA-origami-supergitter på nanoskala; i en annan, den används för att bryta stora datamängder från experiment med 2D-röntgenmikroskopi.
"DNA-nanoteknik i strävan efter självmonterande funktionellt material lider ofta av en begränsad förmåga att prova det stora parameterutrymmet för syntes, ", sa han. "Antingen kräver detta en stor mängd data som ska samlas in eller en mer effektiv lösning på experiment. Autonom upptäckt kan direkt integreras i både gruvdrift av stora datamängder och vägledning för nya experiment. Detta gör det möjligt för forskaren att undvika att tanklöst ta fler prover och sätter oss i förarsätet för att fatta beslut."
"Noacks arbete och ledarskap har samlat ett brett tvärvetenskaplig samdesigngemenskap. Den här typen av vetenskaplig samhällsbyggnad är kärnan i vad CAMERA försöker göra, " sa CAMERA Director James Sethian, en medförfattare på Naturrecensioner Fysik papper.