Vårens återkomst på norra halvklotet berör tornadosäsongen. En tornados vridande tratt av damm och skräp verkar vara en omisskännlig syn. Men den sikten kan skymmas för radarn, meteorologernas verktyg. Det är svårt att veta exakt när en tornado har bildats, eller ens varför.
En ny datauppsättning kan innehålla svar. Den innehåller radarreturer från tusentals tornados som har drabbat USA under de senaste 10 åren. Stormar som gett upphov till tornados flankeras av andra svåra stormar, några med nästan identiska förhållanden, som aldrig gjorde det. Forskare från MIT Lincoln Laboratory som kurerade datasetet, kallat TorNet, har nu släppt det med öppen källkod. De hoppas kunna möjliggöra genombrott för att upptäcka ett av naturens mest mystiska och våldsamma fenomen.
"Många framsteg drivs av lättillgängliga benchmark-datauppsättningar. Vi hoppas att TorNet kommer att lägga en grund för maskininlärningsalgoritmer för att både upptäcka och förutsäga tornados", säger Mark Veillette, projektets huvudutredare tillsammans med James Kurdzo. Båda forskarna arbetar i Air Traffic Control Systems Group.
Tillsammans med datasetet släpper teamet modeller som tränats på det. Modellerna visar lovande för maskininlärningens förmåga att upptäcka en twister. Att bygga vidare på detta arbete kan öppna nya gränser för prognosmakare och hjälpa dem att ge mer exakta varningar som kan rädda liv.
Omkring 1 200 tornados inträffar i USA varje år, vilket orsakar miljoner till miljarder dollar i ekonomisk skada och kräver i genomsnitt 71 liv. Förra året dödade en ovanligt långvarig tornado 17 människor och skadade minst 165 andra längs en 59 mil lång stig i Mississippi.
Ändå är tornados notoriskt svåra att förutse eftersom forskare inte har en tydlig bild av varför de bildas. "Vi kan se två stormar som ser identiska ut, och en kommer att producera en tornado och en kommer inte att göra det. Vi förstår det inte helt", säger Kurdzo.
En tornados grundingredienser är åskväder med instabilitet som orsakas av snabbt stigande varm luft och vindskjuvning som orsakar rotation. Väderradar är det primära verktyget som används för att övervaka dessa förhållanden. Men tornados låg för lågt för att upptäckas, även när de var måttligt nära radarn. När radarstrålen med en given lutningsvinkel färdas längre från antennen, blir den högre över marken, mestadels ser den reflektioner från regn och hagel som bärs i "mesocyklonen", stormens breda, roterande uppgång. En mesocyklon producerar inte alltid en tornado.
Med denna begränsade vy måste prognosmakare besluta om de ska utfärda en tornadovarning eller inte. De vill ofta vara försiktiga. Som ett resultat är andelen falsklarm för tornadovarningar mer än 70 %.
"Det kan leda till pojke-som-grät-varg-syndrom", säger Kurdzo.
Under de senaste åren har forskare vänt sig till maskininlärning för att bättre upptäcka och förutsäga tornados. Men rådatauppsättningar och modeller har inte alltid varit tillgängliga för det bredare samhället, vilket kväver framstegen. TorNet fyller denna lucka.
Datauppsättningen innehåller mer än 200 000 radarbilder, varav 13 587 avbildar tornados. Resten av bilderna är icke-tornadiska, tagna från stormar i en av två kategorier:slumpmässigt utvalda svåra stormar eller falsklarmstormar (de som fick en prognosmakare att utfärda en varning men som inte producerade en tornado).
Varje prov av en storm eller tornado består av två uppsättningar av sex radarbilder. De två uppsättningarna motsvarar olika radarsvepvinklar. De sex bilderna visar olika radardataprodukter, såsom reflektivitet (som visar nederbördsintensitet) eller radiell hastighet (indikerar om vindar rör sig mot eller bort från radarn).
En utmaning med att kurera datamängden var att först hitta tornados. Inom korpusen av väderradardata är tornados extremt sällsynta händelser. Teamet var sedan tvungen att balansera dessa tornadoprover med svåra icke-tornadoprover. Om datauppsättningen var för enkel, t.ex. genom att jämföra tornados med snöstormar, skulle en algoritm som tränats på data sannolikt överklassificera stormar som tornadisk.
"Det som är vackert med en äkta benchmarkdatauppsättning är att vi alla arbetar med samma data, med samma svårighetsgrad och kan jämföra resultat," säger Veillette. "Det gör också meteorologin mer tillgänglig för datavetare och vice versa. Det blir lättare för dessa två parter att arbeta med ett gemensamt problem."
Båda forskarna representerar de framsteg som kan komma från korssamarbete. Veillette är en matematiker och algoritmutvecklare som länge varit fascinerad av tornados. Kurdzo är utbildad meteorolog och expert på signalbehandling. På grundskolan jagade han tornados med specialbyggda mobila radarer och samlade in data för att analysera på nya sätt.
"Denna datauppsättning betyder också att en akademikerstudent inte behöver spendera ett eller två år på att bygga en datauppsättning. De kan hoppa direkt in i sin forskning," säger Kurdzo.
Med hjälp av datasetet utvecklade forskarna baslinjemodeller för artificiell intelligens (AI). De var särskilt angelägna om att tillämpa djupinlärning, en form av maskininlärning som utmärker sig vid bearbetning av visuell data. På egen hand kan djupinlärning extrahera funktioner (nyckelobservationer som en algoritm använder för att fatta ett beslut) från bilder över en datauppsättning. Andra metoder för maskininlärning kräver att människor först etiketterar funktioner manuellt.
"Vi ville se om djupinlärning kunde återupptäcka vad människor normalt letar efter i tornados och till och med identifiera nya saker som vanligtvis inte söks efter av prognosmakare", säger Veillette.
Resultaten är lovande. Deras modell för djupinlärning presterade liknande eller bättre än alla tornadodetekterande algoritmer som är kända i litteraturen. Den tränade algoritmen klassificerade korrekt 50 % av de svagare EF-1-tornados och över 85 % av tromberna klassificerade EF-2 eller högre, vilket utgör de mest förödande och kostsamma förekomsterna av dessa stormar.
De utvärderade också två andra typer av maskininlärningsmodeller och en traditionell modell att jämföra med. Källkoden och parametrarna för alla dessa modeller är fritt tillgängliga. Modellerna och datauppsättningen beskrivs också i en artikel som skickats till en tidskrift från American Meteorological Society (AMS). Veillette presenterade detta arbete vid AMS årsmöte i januari.
"Den största anledningen till att lägga ut våra modeller är för samhället att förbättra dem och göra andra fantastiska saker," säger Kurdzo. "Den bästa lösningen kan vara en modell för djupinlärning, eller så kanske någon upptäcker att en modell för icke-djupinlärning faktiskt är bättre."
TorNet kan vara användbart i vädergemenskapen för andra användningar också, till exempel för att genomföra storskaliga fallstudier av stormar. Det kan också utökas med andra datakällor, som satellitbilder eller blixtkartor. Att slå samman flera typer av data kan förbättra noggrannheten hos modeller för maskininlärning.
Utöver att upptäcka tornados hoppas Kurdzo att modeller kan hjälpa till att reda ut vetenskapen om varför de bildas.
"Som forskare ser vi alla dessa föregångare till tornados – en ökning av lågnivårotation, ett hakeko i reflektionsdata, specifik differentialfas (KDP) fot och differentialreflektivitet (ZDR) bågar. Men hur går de alla ihop? Och finns det fysiska manifestationer vi inte känner till?" frågar han.
Att reta ut dessa svar kan vara möjligt med förklarlig AI. Förklarlig AI avser metoder som gör att en modell kan ge sitt resonemang, i ett format som är förståeligt för människor, om varför den kom till ett visst beslut. I det här fallet kan dessa förklaringar avslöja fysiska processer som händer före tornados. Denna kunskap kan hjälpa till att träna prognosmakare och modeller att känna igen tecknen tidigare.
"Ingen av den här tekniken är någonsin avsedd att ersätta en prognosmakare. Men kanske en dag kan den vägleda prognosmakares ögon i komplexa situationer och ge en visuell varning till ett område som förutspås ha tornadisk aktivitet", säger Kurdzo.
Sådan hjälp kan vara särskilt användbar eftersom radartekniken förbättras och framtida nätverk potentiellt blir tätare. Datauppdateringshastigheten i nästa generations radarnätverk förväntas öka från var femte minut till ungefär en minut, kanske snabbare än prognosmakare kan tolka den nya informationen. Eftersom djupinlärning kan bearbeta enorma mängder data snabbt, kan den vara väl lämpad för att övervaka radarretur i realtid, tillsammans med människor. Tornado kan bildas och försvinna på några minuter.
Men vägen till en operativ algoritm är en lång väg, särskilt i säkerhetskritiska situationer, säger Veillette. "Jag tror att prognosmakarna fortfarande, förståeligt nog, är skeptiska till maskininlärning. Ett sätt att skapa förtroende och transparens är att ha offentliga referensdatauppsättningar som denna. Det är ett första steg."
De nästa stegen, hoppas teamet, kommer att tas av forskare över hela världen som är inspirerade av datamängden och energiska att bygga sina egna algoritmer. Dessa algoritmer kommer i sin tur att gå in i testbäddar, där de så småningom kommer att visas för prognosmakare, för att starta en process med övergång till drift.
I slutändan kan vägen cirkulera tillbaka till förtroende.
"Vi kanske aldrig får mer än en 10- till 15-minuters tornadovarning med dessa verktyg. Men om vi kunde sänka antalet falska larm, skulle vi kunna börja göra framsteg med allmänhetens uppfattning," säger Kurdzo. "Människor kommer att använda dessa varningar för att vidta de åtgärder de behöver för att rädda sina liv."
Tillhandahålls av Massachusetts Institute of Technology