"Vi tittar på krisen när den händer, ” sa Prasenjit Mitra. "Den bästa källan för att få aktuell information under en katastrof är sociala medier, särskilt mikrobloggar som Twitter. Kredit:Thinkstock
Twitter-data kan ge katastrofhjälpsteam realtidsinformation för att ge hjälp och rädda liv, tack vare en ny algoritm utvecklad av ett internationellt team av forskare.
Ett team av forskare från Penn State, Indian Institute of Technology Kharagpur, och Qatar Computing Research Institute skapade en algoritm som analyserar Twitter-data för att identifiera mindre katastrofrelaterade händelser, kända som underhändelser, och genererar mycket exakta, realtidssammanfattningar som kan användas för att vägleda responsaktiviteter.
Gruppen presenterade sitt papper - "Identifiera delhändelser och sammanfattande information från mikrobloggar under katastrofer" - idag (10 juli) vid 41:a International Association for Computing Machinerys specialintressegrupp för informationssökningskonferens om forskning och utveckling inom informationssökning i Ann Arbor , Michigan.
"Vi tittar på krisen när den händer, sa Prasenjit Mitra, biträdande dekan för forskning vid Penn State College of Information Sciences and Technology och en bidragsgivare till studien.
"Den bästa källan för att få aktuell information under en katastrof är sociala medier, särskilt mikrobloggar som Twitter, " sade Mitra. "Tidningar har ännu inte tryckt och bloggar har ännu inte publicerats, så Twitter möjliggör en nästan realtidsvy av en händelse från de som påverkas av den."
Att analysera dessa data och använda dem för att generera rapporter relaterade till ett underämne av en katastrof – som skador på infrastruktur eller behov av skydd – kan hjälpa humanitära organisationer att bättre svara på de olika behoven hos individer i ett drabbat område.
Med tanke på mängden data som produceras, att manuellt hantera denna process i omedelbar efterdyning av en kris är inte alltid praktiskt. Det finns också ofta ett behov av unika uppdateringar relaterade till särskilda ämnen inom och mellan organisationer.
"Flera arbeten om katastrofspecifik sammanfattning på senare tid föreslagit algoritmer som oftast ger en allmän sammanfattning av hela händelsen, " skrev forskarna i sin uppsats. "Men, olika intressenter som räddningsarbetare, statliga myndigheter, fältexperter, [och] vanliga människor har olika informationsbehov."
I studien, gruppen samlade in mer än 2,5 miljoner tweets som postades under tre stora globala katastrofer – tyfonen Hagupit som drabbade Filippinerna 2014, översvämningen i Pakistan 2014, och jordbävningen 2015 i Nepal. Sedan, volontärer från FN:s kontor för samordning av humanitära frågor tränade ett maskininlärningssystem genom att manuellt kategorisera tweetarna i olika underhändelser, som mat, medicin och infrastruktur.
När systemet kan identifiera tweets med hög noggrannhet, forskarna låter systemet kategorisera stora mängder data snabbt och korrekt utan mänsklig inblandning. När händelserna utvecklas, dock, nya innehållskategorier dyker upp som kräver att processen startas om.
"Vid en viss tidpunkt, det finns en glidning i ämnet. Ämnen skiftar från omedelbar respons, som att människor är instängda, till pågående nedfall, såsom sjukdomar eller transportproblem, " förklarade Mitra. "När ämnet ändras, vi observerar maskinens noggrannhet. Om det faller under en viss tröskel, arbetsgruppen kategoriserar manuellt fler tweets för att vidareutbilda maskinen."
Deras "Dependency-Parser-based SUB-event detection"-algoritm, känd som DEPSUB, identifierade substantiv-verbpar som representerar underämnen - som "brokollaps" eller "person instängd" - och rangordnade dem baserat på hur ofta de förekommer i tweets. Sedan, de skapade en algoritm för att skriva sammanfattningar av den breda händelsen och de identifierade underhändelserna. Till sist, mänskliga utvärderare rangordnade användbarheten och träffsäkerheten hos delhändelser som identifierats av DEPSUB och autogenererade sammanfattningar mot de som skapats av andra befintliga metoder.
Utvärderarna fann att både DEPSUB och deras sammanfattningsalgoritm var mer relevanta, användbar och begriplig jämfört med andra ledande algoritmer. I framtiden, forskarna hoppas kunna tillämpa sitt arbete på specialiserade situationer, som att sammanfatta information om försvunna personer, och dra specifik information från tweets som kan skapa en mer grundlig beskrivning och visualisering av en händelse.
"Med ett välutbildat system, mänskligt ingripande behövs inte för att kategorisera eller sammanfatta Twitter-data, " sa Mitra. "Detta automatiserade system är ett första steg i att ge hjälparbetare en ställning som de kan förfina för att skapa en bättre övergripande sammanfattning av en händelse, samt ta en mer snävt skräddarsydd bild av någon del av det större evenemanget."