Kredit:Southwest Research Institute
Big data har blivit en stor utmaning för rymdforskare som analyserar stora datamängder från allt kraftfullare rymdinstrumentering. För att ta itu med detta har ett team från Southwest Research Institute utvecklat ett maskininlärningsverktyg för att effektivt märka stora, komplexa datauppsättningar för att tillåta djupinlärningsmodeller att sålla igenom och identifiera potentiellt farliga solhändelser. Det nya märkningsverktyget kan tillämpas eller anpassas för att möta andra utmaningar som involverar stora datamängder.
Eftersom rymdinstrumentpaket samlar in allt mer komplexa data i ständigt ökande volymer, blir det mer utmanande för forskare att bearbeta och analysera relevanta trender. Maskininlärning (ML) håller på att bli ett viktigt verktyg för att bearbeta stora komplexa datauppsättningar, där algoritmer lär sig av befintliga data för att fatta beslut eller förutsägelser som kan faktorisera mer information samtidigt än vad människor kan. Men för att dra fördel av ML-tekniker måste människor först märka all data – ofta en monumental strävan.
"Att märka data med meningsfulla kommentarer är ett avgörande steg i övervakad ML. Märkning av datauppsättningar är dock tråkigt och tidskrävande", säger Dr. Subhamoy Chatterjee, en postdoktor vid SwRI specialiserad på solastronomi och instrumentering och huvudförfattare till en artikel om dessa. resultat publicerade i tidskriften Nature Astronomy . "Ny forskning visar hur konvolutionella neurala nätverk (CNN), tränade på grovt märkta astronomiska videor, kan utnyttjas för att förbättra kvaliteten och bredden på datamärkning och minska behovet av mänskligt ingripande."
Tekniker för djupinlärning kan automatisera bearbetning och tolka stora mängder komplex data genom att extrahera och lära sig komplexa mönster. SwRI-teamet använde videor av solens magnetfält för att identifiera områden där starka, komplexa magnetfält dyker upp på solytan, som är den främsta föregångaren till rymdväderhändelser.
"Vi utbildade CNN:er med att använda råa etiketter, manuellt verifierade endast våra oenigheter med maskinen", säger medförfattaren Dr. Andrés Muñoz-Jaramillo, en SwRI-solfysiker med expertis inom maskininlärning. "Vi tränade sedan om algoritmen med de korrigerade uppgifterna och upprepade denna process tills vi alla var överens. Även om märkning av flödesuppkomst vanligtvis görs manuellt, minskar denna iterativa interaktion mellan människan och ML-algoritmen manuell verifiering med 50 %."
Iterativa märkningsmetoder som aktivt lärande kan avsevärt spara tid, vilket minskar kostnaderna för att göra big data ML redo. Dessutom, genom att gradvis maskera videorna och leta efter ögonblicket där ML-algoritmen ändrar sin klassificering, utnyttjade SwRI-forskare ytterligare den tränade ML-algoritmen för att ge en ännu rikare och mer användbar databas.
"Vi skapade en heltäckande, djupinlärningsmetod för att klassificera videor av magnetisk patch-utveckling utan att uttryckligen tillhandahålla segmenterade bilder, spårningsalgoritmer eller andra handgjorda funktioner", säger SwRI:s Dr. Derek Lamb, en medförfattare som specialiserat sig på evolution av magnetiska fält på solens yta. "Denna databas kommer att vara avgörande för utvecklingen av nya metoder för att förutsäga uppkomsten av komplexa regioner som bidrar till rymdväder, vilket potentiellt ökar ledtiden vi har för att förbereda oss för rymdväder." + Utforska vidare