I åratal, forskare från MIT och Brown University har utvecklat ett interaktivt system som låter användare dra och släppa och manipulera data på vilken pekskärm som helst, inklusive smartphones och interaktiva whiteboards. Nu, de har inkluderat ett verktyg som omedelbart och automatiskt genererar maskininlärningsmodeller för att köra prediktionsuppgifter på dessa data. Kredit:Melanie Gonick
I den Iron Man filmer, Tony Stark använder en holografisk dator för att projicera 3D-data i tomma intet, manipulera dem med sina händer, och hitta lösningar på hans superhjälteproblem. I samma ven, forskare från MIT och Brown University har nu utvecklat ett system för interaktiv dataanalys som körs på pekskärmar och låter alla – inte bara geni, miljardär, playboy-filantroper – ta itu med verkliga problem.
I åratal, forskarna har utvecklat ett interaktivt datavetenskapssystem som heter Northstar, som körs i molnet men har ett gränssnitt som stöder alla pekskärmsenheter, inklusive smartphones och stora interaktiva whiteboards. Användare matar systemets datauppsättningar, och manipulera, kombinera, och extrahera funktioner på ett användarvänligt gränssnitt, med sina fingrar eller en digital penna, för att avslöja trender och mönster.
I ett dokument som presenterades på ACM SIGMOD-konferensen, forskarna beskriver en ny komponent av Northstar, kallade VDS för "virtuell dataforskare, " som omedelbart genererar maskininlärningsmodeller för att köra prediktionsuppgifter på sina datauppsättningar. Läkare, till exempel, kan använda systemet för att förutsäga vilka patienter som är mer benägna att ha vissa sjukdomar, medan företagare kanske vill prognostisera försäljningen. Om du använder en interaktiv skrivtavla, alla kan också samarbeta i realtid.
Syftet är att demokratisera datavetenskap genom att göra det enkelt att göra komplexa analyser, snabbt och exakt.
"Till och med en kaféägare som inte kan datavetenskap borde kunna förutsäga sin försäljning under de närmaste veckorna för att ta reda på hur mycket kaffe de ska köpa, " säger medförfattare och mångårig Northstar-projektledare Tim Kraska, en docent i elektroteknik och datavetenskap vid MIT:s Computer Science and Artificial Intelligence Laboratory (CSAIL) och grundande meddirektör för det nya Data System and AI Lab (DSAIL). "I företag som har datavetare, det är mycket fram och tillbaka mellan dataforskare och icke-experter, så vi kan också ta dem till ett rum för att göra analyser tillsammans."
VDS bygger på en alltmer populär teknik inom artificiell intelligens som kallas automatiserad maskininlärning (AutoML), som låter personer med begränsad datavetenskaplig kunskap träna AI-modeller för att göra förutsägelser baserat på deras datamängder. För närvarande, verktyget leder tävlingen DARPA D3M Automatic Machine Learning, som var sjätte månad beslutar om det bästa AutoML-verktyget.
Med Kraska på tidningen är:första författare Zeyuan Shang, en doktorand, och Emanuel Zgraggen, en postdoc och huvudbidragsgivare till Northstar, båda EECS, CSAIL, och DSAIL; Benedetto Buratti, Yeounoh Chung, Philipp Eichmann, och Eli Upfal, hela Brown; och Carsten Binnig som nyligen flyttade från Brown till Darmstadts tekniska universitet i Tyskland.
Kredit:Melanie Gonick
En "obegränsad duk" för analys
Det nya arbetet bygger på år av samarbete om Northstar mellan forskare vid MIT och Brown. Över fyra år, forskarna har publicerat ett flertal artiklar som beskriver komponenter av Northstar, inklusive det interaktiva gränssnittet, verksamhet på flera plattformar, accelererande resultat, och studier om användarbeteende.
Northstar börjar som ett tomt, vitt gränssnitt. Användare laddar upp datauppsättningar till systemet, som visas i en "dataset"-ruta till vänster. Alla dataetiketter kommer automatiskt att fylla i en separat "attribut"-ruta nedan. Det finns också en "operatörsbox" som innehåller olika algoritmer, samt det nya AutoML-verktyget. All data lagras och analyseras i molnet.
Forskarna gillar att demonstrera systemet på en offentlig datauppsättning som innehåller information om intensivvårdspatienter. Tänk på medicinska forskare som vill undersöka samtidiga förekomster av vissa sjukdomar i vissa åldersgrupper. De drar och släpper in i mitten av gränssnittet en algoritm för mönsterkontroll, som först visas som en tom ruta. Som input, de flyttar in i lådan sjukdomsegenskaper märkta, säga, "blod, " "smittsamma, " och "metabolisk." Procentandelar av dessa sjukdomar i datasetet visas i rutan. Sedan, de drar "ålder"-funktionen till gränssnittet, som visar ett stapeldiagram över patientens åldersfördelning. Att dra en linje mellan de två rutorna länkar dem samman. Genom att cirkulera åldersintervall, Algoritmen beräknar omedelbart förekomsten av de tre sjukdomarna i åldersgruppen.
"Det är som en stor, obegränsad duk där du kan lägga ut hur du vill ha allt, säger Zgraggen, som är nyckeluppfinnaren av Northstars interaktiva gränssnitt. "Sedan, du kan länka ihop saker för att skapa mer komplexa frågor om din data."
Ungefär AutoML
Med VDS, användare kan nu också köra prediktiv analys på denna data genom att få modeller anpassade till deras uppgifter, såsom dataförutsägelse, bildklassificering, eller analysera komplexa grafstrukturer.
Med hjälp av exemplet ovan, säger att de medicinska forskarna vill förutsäga vilka patienter som kan ha blodsjukdom baserat på alla funktioner i datasetet. De drar och släpper "AutoML" från listan över algoritmer. Det kommer först att producera en tom låda, men med en "mål"-flik, under vilken de skulle släppa "blod"-funktionen. Systemet hittar automatiskt de bästa maskininlärningspipelines, presenteras som flikar med ständigt uppdaterade noggrannhetsprocentsatser. Användare kan stoppa processen när som helst, förfina sökningen, och undersöka varje modells felfrekvens, strukturera, beräkningar, och andra saker.
Kredit:Melanie Gonick
Enligt forskarna, VDS är det snabbaste interaktiva AutoML-verktyget hittills, tack, till viss del, till deras anpassade "uppskattningsmotor". Motorn sitter mellan gränssnittet och molnlagringen. Motorns hävstång skapar automatiskt flera representativa prover av en datauppsättning som kan bearbetas successivt för att producera högkvalitativa resultat på några sekunder.
"Tillsammans med mina medförfattare tillbringade jag två år med att designa VDS för att efterlikna hur en dataforskare tänker, "Shang säger, vilket innebär att den omedelbart identifierar vilka modeller och förbearbetningssteg den ska eller inte ska köras på vissa uppgifter, baserat på olika kodade regler. Den väljer först från en stor lista över möjliga maskininlärningspipelines och kör simuleringar på provuppsättningen. Genom att göra så, den kommer ihåg resultat och förfinar sitt urval. Efter att ha levererat snabba ungefärliga resultat, systemet förfinar resultaten i backend. Men de slutliga siffrorna är vanligtvis mycket nära den första approximationen.
"För att använda en prediktor, du vill inte vänta fyra timmar för att få tillbaka dina första resultat. Du vill redan se vad som händer och, om du upptäcker ett misstag, du kan omedelbart korrigera det. Det är normalt inte möjligt i något annat system, " säger Kraska. Forskarnas tidigare användarstudie, faktiskt, "visa att i det ögonblick du dröjer med att ge användarna resultat, de börjar tappa engagemanget med systemet."
Forskarna utvärderade verktyget på 300 datauppsättningar i verkliga världen. Jämfört med andra toppmoderna AutoML-system, VDS uppskattningar var lika exakta, men genererades inom några sekunder, vilket är mycket snabbare än andra verktyg, som fungerar på minuter till timmar.
Nästa, the researchers are looking to add a feature that alerts users to potential data bias or errors. Till exempel, to protect patient privacy, sometimes researchers will label medical datasets with patients aged 0 (if they do not know the age) and 200 (if a patient is over 95 years old). But novices may not recognize such errors, which could completely throw off their analytics.
"If you're a new user, you may get results and think they're great, " Kraska says. "But we can warn people that there, faktiskt, may be some outliers in the dataset that may indicate a problem."
Den här historien återpubliceras med tillstånd av MIT News (web.mit.edu/newsoffice/), en populär webbplats som täcker nyheter om MIT-forskning, innovation och undervisning.