Ahmed Eldawy. Kredit:UC Riverside
Låt oss säga att du gör forskning som kräver miljontals geotaggade tweets. Eller kanske är du en journalist som vill kartlägga mord i Chicago från 2001 till idag. Du måste hitta stora rums-temporala datauppsättningar – men var?
Även om det finns hundratals allmänt tillgängliga datauppsättningar, att hitta dem kan ta månader av sökning. När potentiella källor hittas, de ger sällan tillräckligt med information för att en forskare ska kunna avgöra om uppsättningen faktiskt innehåller den typ av data de behöver utan att ladda ner den ofta enorma filen och sortera igenom den först.
Tack vare en datavetare vid University of California, Riverside, att hitta rätt datauppsättning är nu lika enkelt som att bokmärka en webbplats, och det kostar absolut ingenting.
Ahmed Eldawy, en biträdande professor i datavetenskap vid Marlan and Rosemary Bourns College of Engineering, och hans grupp ägnade de senaste tre åren åt att finkamma internet för offentliga rums-temporala datauppsättningar, studera deras egenskaper, och sammanfatta resultaten för varje uppsättning på interaktiva kartor som visar användaren exakt vad de får.
"Människor som arbetar med datavetenskap behöver datauppsättningar men kan spendera mycket tid på att hitta dem, " sa Eldawy. "Jag ville bygga ett arkiv som de lätt kan hitta."
Kallas UCR Spatio-temporal Active Repository, eller UCR STAR, arkivet görs tillgängligt som en tjänst för forskarsamhället för att ge enkel tillgång till stora tidsrumsdatauppsättningar genom ett interaktivt utforskande gränssnitt. Användare kan söka och filtrera dessa datamängder som om de handlar efter sin forskning, förutom att allt är gratis.
"Kartgränssnittet visualiserar data, så att du kan se om det passar bra, " sa Eldawy. "Det är som en katalog för datauppsättningar."
I hjärtat av UCR STAR, kartan tillhandahåller ett interaktivt utforskande gränssnitt för datamängden. I likhet med Google Maps eller andra webbkartor, användare kan zooma in och ut och panorera runt för att få en snabb överblick över datadistributionen, rapportering, och noggrannhet.
Viktig information visas när en datauppsättning har valts, som den ursprungliga hemsidan, en länk till den ursprungliga nedladdningskällan, storlek i byte, antal poster, filformat, och annan användbar information. Nedladdningsfunktionen för delmängder tillåter användare att snabbt ladda ner data i en given geografisk region, vilket minskar nedladdningsstorleken. De kan också bädda in sin anpassade vy på en webbsida eller dela länken via sociala medier och bokmärka den för att se den igen senare.
UCR STAR innehåller 102 datauppsättningar och 5 miljarder poster. Datauppsättningarna kartlades med Da Vinci, ett ramverk med öppen källkod byggt ovanpå Apache Spark som Eldawy designat för att fungera med rumslig data. UCR STAR-webbplatsen nås bäst via en stationär webbläsare men har också ett begränsat mobilvänligt gränssnitt.