Elke Rundensteiner, höger, professor i datavetenskap vid Worcester Polytechnic Institute (WPI), och doktorand Allison Rozet, stå bredvid en testbädd för autonoma fordon som används i forskning vid WPI. Analysverktygen Rundensteiner och Rozet utvecklar kan göra förarlösa bilar säkrare genom att analysera dataströmmar från fordon i realtid. Kredit:Worcester Polytechnic Institute
Ett nytt verktyg för dataanalys som utvecklas av datavetenskapare vid Worcester Polytechnic Institute (WPI) kommer att hjälpa företag att få mening, i realtid, av syndafloden av data som strömmar mot dem som vatten från en brandslang.
Med ett treårigt, $499, 753 anslag från National Science Foundation, Elke Rundensteiner, professor i datavetenskap och chef för WPI:s Data Science Program, leder ett team av studenter inom datavetenskap och datavetenskap som bygger ett nästa generations verktyg för händelsetrendanalys som kallas SETA (Scalable Event Trend Analytics). Denna programvara med öppen källkod kommer att användas inte bara för att hitta mönster i realtid, dataströmmar med hög volym ("data i rörelse"), men att analysera dessa mönster och förstå dem i farten för just-in-time beslutsfattande.
SETA kan möjliggöra stora företag, sociala medier, centra för upptäckt av bedrägerier, autonoma fordonsnätverk, regeringar, och andra användare för att utnyttja det kontinuerliga flödet av big data när den strömmar in och omvandla den till handlingsbara insikter som kan göra det möjligt för dem att bli allt mer lyhörda och konkurrenskraftiga. "I en värld där big data kontinuerligt accelererar i volym och hastighet, realtidsströmningsdataanalys har blivit allt mer kritisk, sade Rundensteiner, en internationellt erkänd expert på skalbar dataströmsbehandling.
Händelsebearbetning är ett sätt att spåra och analysera inkommande informationsströmmar, som onlineköp, uppgång och fall av ett aktiekurs, hur lång tid användare är kvar på en webbplats, eller om vårdpersonal tvättar händerna innan de går in i patienternas rum. Det handlar om att flagga viktiga händelser i inkommande data, så att en organisation kan svara på dem i realtid. SETA kommer att kunna hantera komplexa frågor och analyser, samtidigt som användarna får sammanfattade insikter billigare och snabbare än vad som är möjligt för närvarande.
De flesta befintliga dataanalysverktyg är inte utformade för att fungera med strömmande data, Rundensteiner noterade. Istället, information måste lagras i en statisk databas innan den kan analyseras, införa en fördröjning som kan förhindra snabb upptäckt, till exempel, av början av ett utbrott av infektionssjukdomar på ett sjukhus. Rundensteiners verktyg arbetar på data när den genereras, så att även komplexa mönster kan upptäckas i realtid, så viktiga beslut kan fattas snabbt.
"Dataströmmar ökar i en dramatisk takt, överväldigande företag som inte kan förstå sin data i realtid, " sa Rundensteiner. "Genom att hitta sätt att hantera dessa liveströmmar, vi bryter ny mark i dataanalys. Du kan fästa all denna stora data i en statisk databas och titta på den senare, men om du vill fånga ett bedrägligt kreditkortsköp medan det händer eller varna ett nätverk av autonoma bilar om en olycka framför dig, du måste analysera den informationen när den strömmar in med tiotusentals datastycken per mikrosekund. "
Med det nya priset, Rundensteiner kommer att bygga vidare på sin tidigare NSF-sponsrade forskning inom händelseströmsanalys, som fokuserade på att hitta mönster i strömmande data. Det arbetet (i samarbete med tidigare doktorander, Olga Poppe, en forskare vid Microsoft Grey Systems Lab, Chuan Lei, en forskningsanställd vid IBM Almaden Research Center, och Di Wang, en forskare på Facebook), producerade analysverktyg som gjorde det möjligt för användare att fråga efter en dataström för relativt enkla händelsessekvenser. Men om programvaran hittade många instanser av samma eller liknande sekvenser och visade dem alla, användaren skulle ofta bli överväldigad och missa de betydande mönstren eller de övergripande trenderna över mönster.
Istället för att visa upptäckta sekvenser en efter en, det nya verktyget Rundensteiner utvecklar kommer att aggregera dessa mönster och visa användaren hur många gånger varje mönster inträffar. "Genom att visa en topp av onormal aktivitet, systemet låter dig mycket snabbt se vad som händer, ", sa hon. "Ibland är jag mer intresserad av avvikelsen från det typiska antalet mönster för då vet jag omedelbart om något onormalt händer. Om en självkörande bil svänger, det kanske inte betyder något. Men om tusen bilar på samma vägsträcka alla uppvisar avvikande beteende, då händer något riktigt. Du kan sedan gräva djupare i den specifika delmängden av data för att utforska detta oväntade beteende."
Att utveckla verktygen för att gräva djupare i dessa mönsteraggregat är en annan del av forskningen om SETA. Rundensteiner vill ge användare möjlighet att leta efter mycket mer sofistikerade mönster. Till exempel, medan hennes tidigare verktyg kunde användas för att leta efter en sekvens med en fast längd (säg, fall där ett fordon aktiverar bromsarna, svängande, och sedan stoppa), hon vill göra det möjligt, med en enda enkel strömfråga, att upptäcka sekvenser som involverar ett obegränsat antal instanser (en bil som svänger ett okänt antal gånger, bromsa upprepade gånger, och sedan stanna, till exempel). Även om antalet potentiella matchningar till en sådan fråga kan växa exponentiellt på grund av frågespråkets komplexitet, resultaten lovar att bli mer användbara, Hon sa.
För att skapa nya analysverktyg för händelsetrender, Rundensteiner måste först designa ett nytt frågespråk, som används för att hitta och hämta mönster i data. Genom att låta användare söka efter mer komplicerade mönster, det nya språket kommer att göra verktyget betydligt enklare att använda. Hon bygger också en ny "sökmotor" för att bearbeta dessa sofistikerade frågor och hitta de begärda mönstren eller händelserna. En distribuerad motor, det kommer att köras på flera servrar över ett molnnätverk, ökar dess hastighet dramatiskt.
"Att bygga den motorn är en viktig del av projektet, " sa hon. "Traditionellt, en motor kan generera alla svar på en fråga, lagra dem, och börja sedan räkna dem. Det är för tidskrävande och dyrt. Nuvarande teknik kan ta timmar, eller ännu längre, att bearbeta en komplicerad fråga. Vårt tar några sekunder. Det är ingen idé att ställa de här stora frågorna om du måste vänta flera dagar på svaren."
Den nya analysmjukvaran för händelsetrender, som hon utvecklar tillsammans med Allison Rozet, en doktorsexamen kandidat inom datavetenskap, kommer att testas med hjälp av verkliga datauppsättningar och applikationer som tillhandahålls av en vårdcentral och ett företag som hanterar finansiella transaktioner.
"Inom hälso- och sjukvården, detta kan rädda liv, "Rundensteiner sa." Vi kunde upptäcka mönster som visar hur infektion sprids. Vi kunde se när, till exempel, personalen tar inte på sig operationsrockar eller tvättar händerna. Vi kan alltså se problem när de utvecklas, så att vi kan se var problemen har sitt ursprung. Vi gör bättre verktyg för att få svaren vi behöver från en växande flod av inkommande information."