Kredit:CC0 Public Domain
Envishet kommer naturligt för en kille som kommer från "världens mulehuvudstad". Den egenskapen har bestått Columbia, Tennessee, infödda Elliot Perryman i god ställning som praktikant vid Lawrence Berkeley National Laboratory (Berkeley Lab). Förra hösten, han började arbeta med forskaren Peter Zwart vid Center for Advanced Mathematics for Energy Research Applications (CAMERA) genom Berkeley Labs grundforskningsprogram.
CAMERA syftar till att identifiera områden inom experimentell vetenskap som kan få hjälp av nya tillämpade matematiska insikter. Dessa tvärvetenskapliga forskare utvecklar nödvändiga algoritmiska verktyg och levererar dem som användarvänlig programvara. Zwart satte Perryman, en huvudämne i datavetenskap och fysik vid University of Tennessee, på ett projekt liknade han vid att "gå runt i ett mörkt rum och försöka hitta en katt".
Det svårfångade kattdjuret i det här fallet var ett matematiskt problem som har förvirrat den experimentella kristallografiska gemenskapen under en tid:hur man modellerar förekomsten av brus i data på ett mer realistiskt sätt.
Kristallografi är ett oumbärligt verktyg för att bestämma molekylernas atomära strukturer – vilket i sin tur ger forskare insikter om deras beteende och funktion. När en fokuserad ljusstråle riktas mot en renad, kristallint prov, ljuset diffrakterar bort från atomerna och en detektor registrerar det diffrakterade ljuset. När provet roteras, tvådimensionella bilder av diffraktionsmönstren fångas i olika orienteringar. Algoritmer appliceras sedan på diffraktionsdata för att rekonstruera en tredimensionell karta över arrangemanget av atomer i provet.
När du bestämmer dig, eller lösa, en struktur från diffraktionsdata, du måste relatera modellen till dina observationer, förklarade Zwart, som är en del av Berkeley Labs Molecular Biophysics and Integrating Bioimaging Division. Målfunktionerna som används för att göra detta kallas maximala sannolikhetsfunktioner. De fungerar riktigt bra om din data är bra, han noterar, men när mängden brus i data ökar – vilket blir fallet vid högre upplösningar – kan de nuvarande metoderna inte ge det bästa möjliga svaret.
Anledningen till att målfunktionerna inte blir korta i sådana fall är att det finns ett steg i beräkningen, en integration, som inte kan göras analytiskt – det vill säga, med penna-och-papper matematik som ger dig ett uttryck du kan förvandla till kod. Tidigare försök att hantera detta problem har antingen helt enkelt ignorerat integrationssteget, eller kom med uppskattningar som bara fungerar i experiment- eller teknikspecifika scenarier. Så Zwart och Perryman gick tillbaka till grunderna, prova en mängd olika metoder för maskininlärning för att numeriskt härleda en så exakt approximation som möjligt på det mest effektiva sättet.
Tre fjärdedelar av Perrymans 16-veckors praktik, de två kom fram till att de flesta av de stigar som från början verkade lovande faktiskt var återvändsgränder. "Jag skulle prova saker och det tog ett tag bara att ta reda på om något är en framgång eller ett misslyckande eftersom, med ett helt nytt problem, du vet bara inte, " sa Perryman. Saker och ting klickade till slut när de insåg att ett vanligt antagande som människor har gjort i 30 år kunde förbättras.
Univ. från Tennessee undergraduate Elliot Perryman (till höger) arbetade med Biosciences personalforskare Peter Zwart under hans hösten 2019 Berkeley Lab Undergraduate Research (BLUR) praktik. Kredit:Thor Swift/Berkeley Lab
Antagandet har att göra med formen på bruset i data. Den allmänt accepterade uppfattningen har varit att experimentella fel faller in i en klassisk normalfördelning, som den Gaussiska klockkurvan, där nästan 100 procent av observationerna faller inom 3,5 standardavvikelser. Men en mer realistisk kurva har tjockare "svansar" på grund av sällsynta men förutsägbara händelser. "Att inkludera dessa lite mer realistiska felmodeller i kristallografiska målfunktioner gör det möjligt för oss att modellera närvaron av vad som normalt kan kallas för extremvärden på ett mer realistiskt sätt, " sa Zwart.
Deras metod, som de publicerade i tidskriften Acta Crystallographica Avsnitt D:Strukturell biologi , är brett tillämpbar inom det experimentella kristallografiområdet och kommer att göra det möjligt för forskare att bättre utnyttja marginella eller lågkvalitativa diffraktionsdata. Denna forskning stöddes av National Institutes of Health och CAMERA finansieras av US Department of Energy's Office of Science.
En postdoktor i Zwarts labb arbetar nu med att förvandla det matematiska konceptramverket till en applikation som så småningom kan implementeras i programsviten Phenix. MBIB-direktör Paul Adams leder utvecklingen av Phenix, en samling verktyg för automatiserade strukturlösningar som används flitigt av kristallografiska samfundet.
"Elliot spenderade mycket tid och energi på tillvägagångssätt som till slut inte lyckades, men var avgörande för den totala ansträngningen eftersom han kunde lära sig mycket själv och utbilda mig samtidigt, " tillade Zwart. Och erfarenheten Perryman fick hjälpte honom att få en uppföljande praktikplats med Tess Smidt, en postdoc vid Computational Research Division, och slutligen en studentassistenttjänst som arbetar med CAMERA postdoc Marcus Noack om maskinassisterat beslutsfattande för experimentella vetenskaper.
Projektet Perryman och Noack har arbetat med syftar till att vända traditionella metoder för automatiserad bildsampling på huvudet. De föreslår att man använder ett slumpmässigt tillvägagångssätt som är storleksordningar mer effektivt och kommer att ge en förutsägelse av hur bilden kan se ut på någon plats, samt en indikation på osäkerheten i den förutsägelsen. Perryman har arbetat med en distribuerad optimeringsmetod, heter HGDL (Hybrid Global Deflated Local), för att förbättra en kritisk optimeringsfunktion.
Det finns många utmanande beräkningsproblem inom biovetenskapen som kan lösas med metoder som redan har utvecklats av tillämpade matematiker, Zwart noterade. "Vissa idéer tar bara längre tid att tränga in i andra områden, " sa han. "Det är därför det är så fantastiskt att arbeta inom CAMERA:matematiker har en annan syn på världen, en annan uppsättning färdigheter, och läsa olika tidningar. Men de känner inte till experimentfälten som strukturbiologer gör. Det är viktigt att föra samman dessa människor så att vi kan identifiera problem inom biovetenskapen och hitta lösningar inom matematik och datorer."
"Det har varit en av de stora fördelarna med denna praktik, " sa Perryman. "Jag började med kärnfysik, så jag var bara bekant med typerna av problem inom det området. Men efter att ha arbetat med Peter, eller arbetat med Tess i våras, eller Marcus, Jag inser att det finns så många liknande problem. Tycka om, om du har samma problem, Marcus skulle rama in det i termer av något slags geofysik, och Tess skulle säga att det är ett geometriproblem, men det är förmodligen också ett biologiskt problem."
I slutet, Perryman har inte avskräckts av någon av dessa envisa utmaningar:"Det finns så många intressanta projekt, det är svårt att inte bli upphetsad över dem."