• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Lära datorer att vägleda vetenskap:Maskininlärningsmetoden ser skogar och träd

    Kredit:CC0 Public Domain

    Även om det kan vara en tid präglad av superdatorer och "big data, "utan smarta metoder för att bryta all den datan, det är bara så mycket digitalt detritus. Nu har forskare vid Department of Energys Lawrence Berkeley National Laboratory (Berkeley Lab) och UC Berkeley kommit fram till en ny maskininlärningsmetod som gör det möjligt för forskare att få insikter från system med tidigare svåröverskådlig komplexitet på rekordtid.

    I en tidning som nyligen publicerades i Proceedings of the National Academy of Sciences ( PNAS ), forskarna beskriver en teknik som kallas "iterative Random Forests, "som de säger kan ha en transformativ effekt på alla områden av vetenskap eller ingenjörskonst med komplexa system, inklusive biologi, precisionsmedicin, materialvetenskap, miljövetenskap, och tillverkning, för att nämna några.

    "Ta en mänsklig cell, till exempel. Det finns 10 170 möjliga molekylära interaktioner i en enda cell. Det skapar avsevärda datorutmaningar i sökandet efter relationer, sa Ben Brown, chef för Berkeley Labs avdelning för molekylära ekosystembiologi. "Vår metod möjliggör identifiering av interaktioner av hög ordning till samma beräkningskostnad som huvudeffekter - även när dessa interaktioner är lokala med svaga marginaleffekter."

    Brown och Bin Yu från UC Berkeley är ledande seniorförfattare till "Iterative Random Forests to Discover Predictive and Stable High-Order Interactions." De första författarna är Sumanta Basu (tidigare gemensam postdoc för Brown och Yu och nu biträdande professor vid Cornell University) och Karl Kumbier (en doktorand vid Yu vid UC Berkeleys statistiska avdelning). Uppsatsen är kulmen på tre års arbete som författarna tror kommer att förändra hur vetenskapen görs. "Med vår metod kan vi få radikalt rikare information än vi någonsin har kunnat få från en inlärningsmaskin, sa Brown.

    Behoven av maskininlärning inom naturvetenskap skiljer sig från industrins, där maskininlärning har använts för saker som att spela schack, tillverka självkörande bilar, och förutsäga aktiemarknaden.

    "Maskininlärningen som utvecklats av industrin är fantastisk om du vill göra högfrekvent handel på aktiemarknaden, " sa Brown. "Du bryr dig inte om varför du kan förutsäga att aktien kommer att gå upp eller ner. Du vill bara veta att du kan göra förutsägelser."

    Men inom vetenskapen, frågor kring varför en process beter sig på vissa sätt är kritiska. Att förstå "varför" gör det möjligt för forskare att modellera eller till och med konstruera processer för att förbättra eller uppnå ett önskat resultat. Som ett resultat, maskininlärning för vetenskap måste titta in i den svarta lådan och förstå varför och hur datorer nådde de slutsatser de nådde. Ett långsiktigt mål är att använda denna typ av information för att modellera eller konstruera system för att uppnå önskade resultat.

    I mycket komplexa system - oavsett om det är en enda cell, Människokroppen, eller till och med ett helt ekosystem - det finns ett stort antal variabler som interagerar på olinjära sätt. Det gör det svårt för att inte säga omöjligt att bygga en modell som kan fastställa orsak och verkan. "Tyvärr, i biologi, du stöter på interaktioner av ordning 30, 40, 60 hela tiden, " sa Brown. "Det är helt omöjligt med traditionella metoder för statistiskt lärande."

    Metoden utvecklad av teamet ledd av Brown och Yu, iterativa slumpmässiga skogar (iRF), bygger på en algoritm som kallas slumpmässiga skogar, ett populärt och effektivt verktyg för prediktiv modellering, att översätta de inre tillstånden hos den svarta lådan till en människa-tolkbar form. Deras tillvägagångssätt tillåter forskare att söka efter komplexa interaktioner genom att frikoppla ordningen, eller storlek, av interaktioner från beräkningskostnaden för identifiering.

    "Det finns ingen skillnad i beräkningskostnaden för att detektera en interaktion av ordning 30 jämfört med en interaktion av ordning två, " sa Brown. "Och det är en förändring i havet."

    I PNAS-tidningen, forskarna demonstrerade sin metod på två genomikproblem, rollen av genförstärkare i fruktflugembryot och alternativ splitsning i en mänskligt härledd cellinje. I båda fallen, med hjälp av iRF bekräftade tidigare fynd samtidigt som tidigare oidentifierade interaktioner av högre ordning upptäcktes för uppföljningsstudier.

    Brown sa att de nu använder sin metod för att designa fasade array-lasersystem och optimera hållbara jordbrukssystem.

    "Vi tror att detta är ett annat paradigm för att göra vetenskap, sa Yu, professor vid avdelningarna för statistik och elektroteknik och datavetenskap vid UC Berkeley. "Vi förutsäger, men vi introducerar stabilitet utöver förutsägelse i iRF för att mer tillförlitligt lära oss den underliggande strukturen i prediktorerna."

    "Detta gör det möjligt för oss att lära oss hur man konstruerar system för målinriktad optimering och mer exakt riktade simuleringar och uppföljande experiment, " tillade Brown.

    I en PNAS-kommentar om tekniken, Danielle Denisko och Michael Hoffman från University of Toronto skrev:"iRF lovar mycket som ett nytt och effektivt sätt att upptäcka interaktioner i en mängd olika miljöer, och dess användning kommer att hjälpa oss att säkerställa att ingen gren eller löv någonsin lämnas ovänd."


    © Vetenskap https://sv.scienceaq.com