Teamet, som leds av professor i datavetenskap Jure Leskovec, skapade ett system som heter "Data Wrangler" som automatiskt kan rensa och omvandla rådata till ett format som är mer tillgängligt och användbart.
"Rå myndighetsdata är ofta rörigt och svårt att förstå," sa Leskovec. "Vårt mål var att skapa ett verktyg som kan göra denna data mer tillgänglig för människor som vill använda den för forskning, journalistik eller andra ändamål."
Data Wrangler fungerar genom att använda en mängd olika maskininlärning och naturliga språkbehandlingstekniker för att identifiera och korrigera fel i data, samt att extrahera meningsfull information från texten.
Systemet kan användas för att analysera en mängd olika statliga data, inklusive ekonomiska register, brottsstatistik och miljödata.
Leskovec och hans team har redan använt Data Wrangler för att analysera flera stora datamängder, inklusive U.S. Census Bureaus American Community Survey och New York City Police Departments stop-and-frisk-data.
Resultaten av dessa analyser har publicerats i flera akademiska tidskrifter och har använts av journalister och beslutsfattare för att informera deras arbete.
"Vi tror att Data Wrangler har potentialen att revolutionera sättet som människor använder statlig data," sa Leskovec. "Genom att göra denna data mer tillgänglig och användbar kan vi ge människor möjlighet att fatta bättre beslut om sina liv och sina samhällen."
Teamets forskning publicerades i tidskriften "Nature Machine Intelligence".