Hur forskare tillämpade rekommendationsalgoritmen för att förutse CMEs ankomsttider

Överst:Från vänster till höger, ögonblicksbilder av CME-händelsen som inträffade den 16 augusti 2006 16 : 30 UT. Kredit:SOHO LASCO C2. Nederst:Från vänster till höger, ögonblicksbilder av CME-händelsen som inträffade den 7 april 1997 14 : 27 UT. Kredit:Rymden:vetenskap och teknik

Coronal mass ejections (CME) är eruptiva solhändelser. De förknippas ofta med solflammor och filament. CME kan orsaka rymdväderhändelser som geomagnetiska stormar, högenergielektronstormar, het plasmainjektion, jonosfäriska stormar och ökad densitet i den övre atmosfären.

Stora CME-händelser kan påverka kommunikation, navigationssystem, flygaktiviteter och till och med elnät. För att undvika potentiell skada och tillgångsförlust finns det ett behov av att exakt förutsäga ankomsten av CME i två delar. Kommer CME att "träffa" eller "missa" jorden? Om förutsägelsen är "träff", så är nästa fråga vad är den förväntade ankomsttiden för CME?

I en forskningsartikel som nyligen publicerades i Space:Science &Technology , Yurong Shi från National Space Science Center, Chinese Academy of Sciences, använde rekommendationsalgoritmen, som kunde användas för att rekommendera liknande historiska CME-händelser för prognosmakare, för att förutse CME:s ankomsttid och bevisade att rekommendationsalgoritm och logistisk regression kunde agera tillsammans för att ge prognosmakare ett alternativ för att förbättra förutsägelseresultaten.

Först utarbetades data och metodik. Författaren valde prover från totalt 30 321 CME-händelser som samlades in från SOHO/LASCO CME-katalogen, från 1996 till 2020. Översampling användes för att lösa obalanserade data och har erhållit 181 positiva prover (CMEs som nådde jorden) och 3486 negativa prover (CME som inte nådde jorden).

Dessutom samlas 8 karakteristiska parametrar genom val av karakteristiska parametrar, inklusive vinkelbredd, central positionsvinkel (CPA), mätpositionsvinkel (MPA), linjär hastighet, initial hastighet, sluthastighet, hastigheten vid 20 solradier, massa. En komplett och enhetlig dimensionslös datamängd av de 8 karakteristiska parametrarna sattes upp och redo för att underlätta utvecklingen av prediktionsmodellen. Dessutom, för att söka efter den historiska händelse som mest liknar den specificerade CME-händelsen, antar författarna två avstånd som vanligtvis används inom maskininlärning och artificiell intelligens för datorer:cosinusdistans och euklidisk distans som båda visade sig fungera bra under experimentet.

Efteråt utformades experimentet, ett kontrollerat försök. Det första steget är datasamplingen. Totalt 3 667 prov inklusive 8 karakteristiska parametrar är slumpmässigt uppdelade i två lika stora undergrupper. Den ena (1 833 prover) är för styrketräning och den andra (1 834 prover) är för det efterföljande rekommendationstestet. Under styrketräningsstadiet använde författaren 1 466 träningsprov som träningsuppsättning för att träna vikter efter både den logistiska regressionsproceduren och rekommendationsalgoritmen, medan resten var (367 prover) valideringsuppsättningen.

I korthet utförs totalt 6 experiment för att träna vikter, och följaktligen erhålls 6 uppsättningar viktkoefficienter med 4 från den logistiska regressionsalgoritmen och 2 från rekommendationsalgoritmen. Två logistiska regressionsramverk antogs för jämförelse. En var logit-funktionen som tillhandahålls i den Python-baserade statsmodels-modulen och som kallas "sm.logit." Den andra också Python-baserad var LogisticRegression-klassificeraren som tillhandahålls i scikit-learn (sklearn) biblioteket och hänvisas till som "sk.LR."

Om man jämför alla modeller, presterade sm.logit-modellen bäst i både valideringsuppsättningen och testuppsättningen. Det var lämpligt att välja vikterna för sm.logit som de optimala vikterna i det följande steget i just detta arbete. Dessutom kan man se att användningen av rekommendationsalgoritmerna för att träna vikterna av karakteristiska parametrar var mycket tidskrävande, men det var lättare att få fram vikterna genom logistisk regression. Därför var ett nytt försök att applicera vikterna som erhölls av den logistiska regressionen på rekommendationsalgoritmen. Genomförbarheten av en sådan operation testades under det sista steget, rekommendationsteststeget.

Sammanfattningsvis beräknade författaren först vikterna av de karakteristiska parametrarna för CME baserat på logistisk regression och matade sedan in dem i rekommendationsalgoritmen för att ge de mest liknande historiska händelserna som referens för CME:s effektivitetsprognoser. Det kan konstateras att i varje färdighetspoäng var modellen som tillämpade vikterna av logistisk regression på rekommendationsalgoritmen bättre än att använda enbart rekommendationsalgoritmen, så denna hybridmodell var genomförbar. En sådan behandling undvek att träna rekommendationsvikterna för att spara tid och datorresurser.

För närvarande är det mycket sällsynt i litteraturen att tillämpa rekommendationsalgoritmen på förutsägelse av CME. Författaren bevisade att när den logistiska regressionsmodellen bekräftar effektiviteten för en CME, kan rekommendationsalgoritmen användas för att rekommendera liknande historiska händelser. Att rekommendera liknande historiska händelser som en levande referens för prognosmakare är en stor förbättring av prognostjänsten i motsats till den binära "ja" eller "nej"-prognosen som endast tillhandahålls av den logistiska regressionsmodellen. Rymdväderprognosister kanske kan använda sig av denna metod för att utföra en jämförande analys. + Utforska vidare