Vera Rubin-observatoriet kommer att inrymma LSST-kameran, som kommer att samla in data om 37 miljarder galaxer och stjärnor under loppet av 10 år. Forskare utvecklar maskininlärningsprogram för att analysera dataflödet. Kredit:M. Park/Inigo Films/LSST/AURA/NSF
Tittar upp mot natthimlen på landsbygden, du kommer förmodligen att se den lysande månen omgiven av stjärnor. Om du har tur, du kanske ser det som är längst bort med blotta ögat – Andromedagalaxen. Det är närmaste granne till vår galax, Vintergatan. Men det är bara den minsta bråkdelen av vad som finns där ute. När Department of Energys (DOE) Legacy Survey of Space and Time (LSST) kamera vid National Science Foundations Vera Rubin Observatory slås på 2022, den kommer att ta bilder av 37 miljarder galaxer och stjärnor under loppet av ett decennium.
Resultatet från detta enorma teleskop kommer att överskölja forskare med data. Under dessa 10 år, LSST-kameran tar 2, 000 bilder för varje del av den södra himlen som den täcker. Varje bild kan ha upp till en miljon objekt i sig.
"När det gäller omfattningen av uppgifterna, mängden data, datas komplexitet, de är långt bortom någon av de nuvarande datamängder vi har, sa Rachel Mandelbaum, professor vid Carnegie Mellon University och talesperson för LSST Dark Energy Science Collaboration. "Detta öppnar upp en enorm mängd upptäcktsutrymme."
Forskare bygger inte LSST-kameran för att bara ta vackra bilder. De vill identifiera, kategorisera, och mäta himmelska objekt som kan avslöja information om själva universums struktur. För att förstå mörk energi och andra kosmologiska mysterier krävs data om supernovor och galaxer. Forskare kan till och med hitta helt nya klasser av föremål.
"Det kommer att finnas några föremål som vi aldrig har sett förut eftersom det är poängen med ny upptäckt, sa Renée Hložek, en biträdande professor i astrofysik vid University of Toronto, som arbetar med LSST Dark Energy Science Collaboration. "Vi kommer att hitta ett gäng av vad vi kallar konstigheter, eller anomalier."
Själva volymen och märkligheten i data kommer att göra det svårt att analysera. Medan en stjärnskådare som är ny i ett område kan gå ut på fältet med en lokal expert, forskare har inte en sådan guide till nya delar av universum. Så de gör sina egna. Mer exakt, de gör många olika guider som kan hjälpa dem att identifiera och kategorisera dessa objekt. Astrofysiker med stöd av DOE Office of Science utvecklar dessa guider i form av datormodeller som är beroende av maskininlärning för att undersöka LSST-data. Maskininlärning är en process där ett datorprogram med tiden lär sig om sambanden i en uppsättning data.
Datorprogram som lär sig
Att bearbeta data snabbt är ett måste för forskare i Dark Energy Science Collaboration. Forskare måste veta att kameran pekar på exakt rätt plats och tar data korrekt varje gång. Denna snabba bearbetning hjälper dem också att veta om något har förändrats i den delen av himlen sedan de senast tog bilder av den. Att subtrahera det aktuella fotot från tidigare visar dem om det finns ett tecken på ett intressant himlaobjekt eller fenomen.
De måste också kombinera många foton på ett sätt som är korrekt och användbart. Detta projekt undersöker universums djup för att ta bilder av några av de svagaste stjärnorna och galaxerna. Det kommer också att ta bilder under mindre än idealiska atmosfäriska förhållanden. Att kompensera, forskare behöver program som kan kombinera bilder för att förbättra klarheten.
Maskininlärning kan hantera dessa utmaningar förutom att hantera den stora mängden data. När dessa program analyserar mer data, desto mer exakta blir de. Precis som en person som lär sig att identifiera en konstellation, de får bättre omdöme med tiden.
"Många forskare ser maskininlärning som det mest lovande alternativet för att klassificera källor baserat på fotometriska mätningar (mätningar av ljusintensitet), " sa Eve Kovacs, en fysiker vid DOE:s Argonne National Laboratory.
Men maskininlärningsprogram måste lära sig själva innan de kan ta itu med en hög med ny data. Det finns två huvudsakliga sätt att "träna" ett maskininlärningsprogram:oövervakat och övervakat.
Oövervakad maskininlärning är som att någon lär sig om stjärnor från bara sina nattliga observationer. Programmet tränar sig på omärkta data. Även om oövervakad maskininlärning kan gruppera bilder och identifiera extremvärden, den kan inte kategorisera dem utan en guidebok av något slag.
Övervakad maskininlärning är som en nybörjare som förlitar sig på en guidebok. Forskarna matar den med en enorm uppsättning data som är märkt med klasserna för varje objekt. Genom att granska uppgifterna om och om igen, programmet lär sig förhållandet mellan observationen och etiketterna. Denna teknik är särskilt användbar för att klassificera objekt i kända grupper.
I vissa fall, forskarna matar också programmet med en specifik uppsättning funktioner att leta efter, som ljusstyrka, form, eller färg. De ger vägledning om hur viktig varje funktion är jämfört med de andra. I andra program, maskininlärningsprogrammet räknar ut de relevanta funktionerna själv.
Dock, noggrannheten i övervakad maskininlärning beror på att du har ett bra utbildningsset, med all mångfalden och variationen hos en riktig. För bilder från LSST-kameran, den variationen kan inkludera ränder från satelliter som rör sig över himlen. Märkningen måste också vara extremt exakt.
"Vi måste lägga så mycket fysik som vi kan i träningsuppsättningarna, " sade Mandelbaum. "Det tar inte bort bördan från oss att förstå fysiken. Det flyttar det bara till en annan del av problemet."
Mile Markers på Space Highway
Några av universums mest intressanta föremål finns inte kvar länge. Övergående föremål verkar mycket ljusa, blekna under en viss tidsperiod, och sedan mörkna. Supernovor – massivt exploderande stjärnor – är ett slags övergående objekt. Variabla objekt ändras i ljusstyrka över tiden på ett konsekvent sätt. Vissa typer av båda kan vara "standardljus, "objekt som forskare kan använda för att mäta avståndet från jorden, som milmarkörer på en motorväg. Dessa standardljus ger information om universums storlek och historia.
"Om du tittar på tillräckligt många galaxer en given natt, du kommer nästan garanterat att upptäcka en supernova, " sa Kovacs.
För att veta om en supernova kommer att vara användbar som ett standardljus eller inte, forskare måste veta vilken typ det är. Typ Ia supernovor kan vara standardljus. Precis som att dra på erfarenhet kan tala om för stjärnskådare om de tittar på Mars eller Venus, ett datorprogram kan använda sin träning för att klassificera en supernova från en bild.
"Den lilla flugan i allt detta är att supernovorna av typ Ia inte precis är standardljus. De har en viss variation, ", sa Kovacs. "Att förstå den variationen ... är faktiskt kärnan i att få allt detta att fungera."
Kovacs och hennes medarbetare skapade ett program som använder supernovornas färger för att sortera dem i kategorier. Tidigare, forskare tränade maskininlärningsalgoritmer genom att låta dem jämföra en specifik supernovas ljusstyrka över tid med en modell baserad på typ Ia supernova. Men programmen skulle sannolikt felklassificera för många supernovor som typ Ia. Hennes team tog ett annat tillvägagångssätt. De identifierade en uppsättning av 17 funktioner som kännetecknar ljuskurvorna (tidsvariation av ljusintensitet) för supernovor. Med hjälp av en träningsuppsättning av flera tusen simulerade supernovor, de kunde uppnå klassificeringar som hade extremt höga nivåer av noggrannhet.
Att ta reda på hur långt kosmiska objekt är från jorden är ett annat lovande område för maskininlärning. Tidigare, forskare förlitade sig på spektroskopiska teleskop som använder fiberoptik för att exakt mäta dessa objekts avstånd. Men LSST-kameran kommer att hitta mer än 1, 000 transienta föremål per natt. Det är för många för att följa upp med den här tekniken. Mandelbaum och hennes team utvecklade ett maskininlärningsprogram som kan uppskatta detta avstånd exakt utifrån foton. Den kan också anpassa och införliva spektroskopisk data om den är tillgänglig.
Men supernovor är inte de enda föremålen som kan användas som standardljus. Faktiskt, astrofysiker använder ofta andra föremål för att kalibrera deras avstånd. Mandelbaum och hennes team använde maskininlärning för att hitta andra potentiella standardljus. Genom att mata programdata om massor av variabla stjärnor, de fann att det kunde komma med och tillämpa funktioner som identifierar ett bra standardljus utan att behöva klassificera stjärnan först. Att hoppa över det steget – vilket kräver mycket märkning, kategoriserad data – förenklade processen. Det hjälpte också till att undvika fördomar eller fel från klassificeringen. Programmet producerade ett prov med stjärnor som var lika bra standardljus som Cepheider, en användbar men sällsynt variabel stjärna. Det fanns en annan bonus - stjärnorna i deras prov var i allmänhet ljusare och lättare att mäta än cepheider.
"Maskininlärningen hjälper dig att lösa dessa komplicerade utrymmen eftersom människor har svårt att tänka i mer än tre dimensioner, " sa Kovacs.
Att välja och välja på en galaktisk nivå
Även om enskilda stjärnor kan avslöja en hel del information, ibland behöver man en hel galax. Enbart med ett foto, det är lättare att räkna ut avståndet till värdgalaxen för en supernova snarare än själva supernovan. Men forskare måste välja rätt värdgalax. Förr, de har gjort den här matchningen för hand. Men LSST-kameran kommer att skapa alldeles för mycket data för människor att hantera.
I ett av Kovacs projekt, det vetenskapliga teamet utvecklade en algoritm som matchade värdgalaxen med supernovan korrekt 90 till 92 procent av gångerna. Inte tillräckligt exakt. Men maskininlärning kom till undsättning. Teamet utvecklade ett maskininlärningsprogram för att berätta för dem hur sannolikt det var att klassificeringen skulle vara rätt eller fel. Den identifierade sju till åtta procent av den ursprungliga produktionen som troligen felaktig. Att ta bort dessa objekt från data ökade noggrannheten och gjorde det lättare att följa upp de knepiga bilderna för hand.
Att knacka på det kollektiva sinnet
För att ytterligare utforska kraften med maskininlärning, två av LSST Cameras vetenskapsgrupper hittade ett unikt sätt att dra nytta av forskarnas hjärnkraft – de genomförde en tävling. Samarbetar med Kaggle, en webbplats för datavetare, de riktade in sig på icke-astronomer som specialiserat sig på maskininlärning för att utveckla program för att sortera igenom framtida data från LSST-kameran.
"Om du bara pratar med de människor du känner, du förlorar den mångfalden av tankar i det större samhället, sa Hložek, som drev tävlingen. "Vi ville att folk faktiskt skulle arbeta tillsammans för att slå samman sina modeller och poola sina data."
De ville särskilt att programmen skulle välja ut objekttyper som astrofysiker kanske inte har sett tidigare. De gav gruppen tre miljoner föremål att sortera i 15 kategorier, med den 15:e "Jag har inte sett den förut."
"Vi vill förbereda oss på att vara öppna för den typen av arbete, " sa Hložek. "Vad är det för sätt som konstigheter kan visa sig?"
Mer än 1, 300 tävlande i 1, 000 lag deltog i utmaningen, som avslutades i december 2018. Nu, forskare på LSST-kameran sorterar igenom koderna för att kombinera dem till bästa möjliga uppsättning program.
All denna aktivitet pågår flera år innan LSST-kameran ens slås på. Maskininlärningsprogram kommer säkerligen att avslöja ännu mer när data börjar flöda in. Även om datorer inte kan titta på stjärnorna i förundran, de kommer att ge allt mer insikt i de himmelska föremålen som inspirerar oss till sådan vördnad.