• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Berkeleys labkosmologer är topputmanare inom maskininlärningsutmaningen

    2020 LHC Olympics logotyp. Kredit:Gregor Kasieczka, Benjamin Nachman, David Shih

    När man letar efter nya partiklar, fysiker kan stödja sig på teoretiska förutsägelser som föreslår några bra ställen att leta på och några bra sätt att hitta dem:Det är som att få en grov skiss av en nål gömd i en höstack.

    Men blinda sökningar är mycket mer komplicerade, som att jaga i en höstack utan att veta vad du letar efter.

    För att ta reda på vad konventionella datoralgoritmer och forskare kan förbise i den enorma mängd data som samlas in i experiment med partikelkollider, partikelfysikgemenskapen vänder sig till maskininlärning, en tillämpning av artificiell intelligens som kan lära sig att förbättra sina sökförmåga när den sållar igenom en höstack av data.

    I en maskininlärningsutmaning kallad 2020 Large Hadron Collider (LHC) Olympics, ett team av kosmologer från det amerikanska energidepartementets Lawrence Berkeley National Laboratory (Berkeley Lab) utvecklade en kod som bäst identifierade en skensignal gömd i simulerade partikelkollisionsdata.

    Kosmologer? Det är rätt.

    "Det var helt oväntat för oss att prestera så bra, sade George Stein, en Berkeley Lab och UC Berkeley postdoktoral forskare som deltog i utmaningen med Uros Seljak, en Berkeley Lab-kosmolog, UC Berkeley professor, och meddirektör för Berkeley Center for Cosmological Physics, där Stein är medlem.

    Tio lag, består mestadels av partikelfysiker, tävlade i tävlingen, som löpte från den 19 november, 2019, till 12 januari, 2020.

    Stein ledde anpassningen av en kod som två andra studentforskare hade utvecklat under Seljaks ledning. Tävlingen lanserades av arrangörerna av konferensen Machine Learning for Jets 2020 (ML4Jets2020). Strålar är smala koner av partiklar som produceras i partikelkollisionsexperiment som partikelfysiker kan spåra tillbaka för att mäta egenskaperna hos deras partikelkällor.

    Tävlingsresultaten tillkännagavs under konferensen, som hölls vid New York University 15-17 januari.

    Ben Nachman, en postdoktoral forskare från Berkeley Lab som är en del av en grupp som arbetar med ATLAS – en stor detektor vid CERNs LHC – fungerade som en av arrangörerna av evenemang och tävlingar. David Shih, en fysik- och astronomiprofessor vid Rutgers University nu på sabbatsår vid Berkeley Lab, och Gregor Kasieczka, professor vid universitetet i Hamburg i Tyskland, var medarrangörer.

    Medan vissa datortävlingar tillåter deltagare att skicka in och testa sina koder flera gånger för att bedöma om de närmar sig de korrekta resultaten, tävlingen i LHC OS 2020 gav lagen bara en chans att skicka in en lösning.

    "Det coola är att vi inte använde ett hyllverktyg, " sa Seljak. "Vi använde ett verktyg som vi hade utvecklat för vår forskning."

    Han noterade, "I min grupp hade vi arbetat med oövervakad maskininlärning. Tanken är att man vill beskriva data där data inte har några etiketter."

    Verktyget som teamet använde kallas sliced ​​iterative optimal transport. "Det är en form av djupinlärning, men en form där vi inte optimerar allt på en gång, " sa Seljak. "Istället, vi gör det iterativt, " i etapper.

    Koden är så effektiv att den kan köras på en enkel stationär eller bärbar dator. Det utvecklades för ett statistiskt tillvägagångssätt som kallas Bayesian bevis.

    Seljak sa, "Anta att du tittar på anomalier i en planets transittid, "den tid det tar för planeten att passera framför ett större föremål från din synvinkel - som att se från jorden när Merkurius rör sig framför solen.

    "En lösning kräver att det finns en extra planet, " han sa, "och den andra lösningen kräver en extra måne, och de passar båda bra till data, men de har väldigt olika parametrar. Hur jämför jag dessa två lösningar?"

    Den bayesianska metoden är att beräkna bevisen för båda lösningarna och se vilken lösning som har större sannolikhet att vara sann.

    "Den här typen av exempel dyker upp hela tiden, "Seljak sa, och hans teams kod är utformad för att påskynda de komplexa beräkningar som krävs av konventionella metoder. "Vi försökte förbättra något som inte var relaterat till partikelfysik, och vi insåg att detta kunde användas som ett allmänt maskininlärningsverktyg."

    Han lade till, "Vår lösning är särskilt användbar för så kallad anomalidetektering:letar efter väldigt små signaler i data som på något sätt skiljer sig från andra data."

    I 2020 års LHC OS-tävling, deltagarna fick först en provuppsättning av data som kallade ut partikelsignaldata från vissa bakgrundsdata – både nålen och höstacken – som gjorde det möjligt för deltagarna att testa sina koder.

    Sedan fick de själva "black box"-tävlingsdata:bara höstacken. De fick i uppdrag att hitta en annan och helt okänd typ av partikelsignal gömd i bakgrundsdata, och att specifikt beskriva signalhändelserna som deras metoder visade.

    Tävlingsmedarrangörerna Shih och Nachman noterade att de personligen hade arbetat med en anomali-detektionsmetod som använder ett mycket liknande tillvägagångssätt (kallad "betingad densitetsuppskattning") som tekniken utvecklad av Seljak och Stein som deltog i tävlingen.

    Seljak och Stein rådfrågade ett antal partikelfysiker på labbet, inklusive Nachman, Shih, och doktorand Patrick McCormack. De diskuterade, bland andra ämnen, hur högenergifysikgemenskapen vanligtvis analyserar datauppsättningar som de som används i tävlingen, men för själva "black box"-utmaningen var Seljak och Stein på egen hand.

    När tävlingen närmade sig sitt slut, Stein sa, "Vi trodde att vi hittade något ungefär en vecka innan deadline."

    Stein och Seljak lämnade in sina resultat några dagar före konferensen, "men eftersom vi inte är partikelfysiker, vi planerade inte att delta i konferensen, sa Seljak.

    Sedan, Stein fick ett mejl från konferensarrangörerna, som bad honom att flyga ut och presentera ett föredrag om lagets lösning senare samma vecka. Arrangörerna delade inte med sig av tävlingens resultat förrän alla talare hade presenterat sina resultat.

    "Mitt föredrag var ursprungligen först, och sedan kort innan sessionens början flyttade de mig till sist. Jag visste inte om det var bra, " sa Stein.

    Koden som Berkeley Lab-teamet skrev in fick ungefär 1, 000 evenemang, med en felmarginal på plus eller minus 200, och det korrekta svaret var 843 händelser. Deras kod var den klara vinnaren i den kategorin.

    Flera team var nära att uppskatta energinivån, eller "resonansmassa, "av signalen, och Berkeley Lab-teamet var närmast i sin uppskattning av resonansmassan för en sekundär signal som härrörde från huvudsignalen.

    På konferensen, Stein noterade, "Det fanns ett enormt intresse för det övergripande tillvägagångssättet vi tog. Det skapade vågor."

    Oz Amram, en annan tävlande i tävlingen, skämtade i ett Twitter-inlägg, "Resultatet av OS i LHC ... är att kosmologer är bättre på vårt jobb än vi är." Men tävlingsarrangörerna tillkännagav inte formellt någon vinnare.

    Nachman, en av arrangörerna, sa, "Även om George och Uros klart överträffade de andra konkurrenterna, i slutändan är det troligt att ingen algoritm kommer att täcka alla möjligheter – så vi kommer att behöva en mångsidig uppsättning tillvägagångssätt för att uppnå bred känslighet."

    Han lade till, "Partikelfysik har gått in i en intressant tid där varje förutsägelse för nya partiklar som vi har testat vid Large Hadron Collider har hittills visat sig inte realiseras i naturen - förutom standardmodellen för partikelfysik. Även om det är viktigt att fortsätta programmet av modelldrivna sökningar, vi måste också utveckla ett parallellt program för att vara modellagnostiska. Det är motivationen till denna utmaning."

    Seljak sa att hans team planerar att publicera ett papper som beskriver dess maskininlärningskod.

    "Vi planerar definitivt att tillämpa detta på många astrofysiska problem, " sa han. "Vi kommer att leta efter intressanta applikationer - allt med fel eller transienter, något anomalt. Vi kommer att arbeta för att snabba upp koden och göra den mer kraftfull. Den här typen av tillvägagångssätt kan verkligen hjälpa."


    © Vetenskap https://sv.scienceaq.com