• Home
  • Kemi
  • Astronomien
  • Energi
  • Naturen
  • Biologi
  • Fysik
  • Elektronik
  • Tool for nonstatisticians genererar automatiskt modeller som får insikter från komplexa datamängder

    MIT -forskare hoppas kunna främja demokratiseringen av datavetenskap med ett nytt verktyg för icke -programmerare som automatiskt genererar modeller för analys av rådata. Upphovsman:Christine Daniloff, MIT

    MIT -forskare hoppas kunna främja demokratiseringen av datavetenskap med ett nytt verktyg för icke -statistiker som automatiskt genererar modeller för analys av rådata.

    Demokratisering av datavetenskap är tanken att någon, med liten eller ingen expertis, kan göra datavetenskap om det finns gott om data och användarvänliga analysverktyg. Stödjer den idén, det nya verktyget intar datamängder och genererar sofistikerade statistiska modeller som vanligtvis används av experter för att analysera, tolka, och förutsäga underliggande mönster i data.

    Verktyget lever för närvarande på Jupyter Notebook, en öppen källkod webbram som gör det möjligt för användare att köra program interaktivt i sina webbläsare. Användare behöver bara skriva några rader kod för att avslöja insikter om, till exempel, finansiella trender, flygresor, omröstningsmönster, spridning av sjukdomar, och andra trender.

    I ett papper som presenterades vid ACM SIGPLAN Symposium om principerna för programmeringsspråk i veckan, forskarna visar att deras verktyg exakt kan extrahera mönster och göra förutsägelser från verkliga datauppsättningar, och till och med överträffa manuellt konstruerade modeller i vissa dataanalysuppgifter.

    "Målet på hög nivå är att göra datavetenskap tillgänglig för personer som inte är experter på statistik, "säger författaren Feras Saad '15, MEng '16, en doktorsexamen student vid Institutionen för elektroteknik och datavetenskap (EECS). "Människor har många datamängder som sitter, och vårt mål är att bygga system som låter människor automatiskt få modeller som de kan använda för att ställa frågor om den informationen. "

    I sista hand, verktyget tar upp en flaskhals inom datavetenskapens område, säger medförfattare Vikash Mansinghka '05, MEng '09, Ph.D. '09, en forskare vid Institutionen för hjärn- och kognitiv vetenskap (BCS) som driver Probabilistic Computing Project. "Det finns en allmänt erkänd brist på människor som förstår hur man modellerar data väl, "säger han." Detta är ett problem i regeringar, den ideella sektorn, och platser där människor inte har råd med datavetenskapare. "

    Tidningens andra medförfattare är Marco Cusumano-Towner, en EECS -doktorand studerande; Ulrich Schaechtle, en BCS postdoc med Probabilistic Computing Project; och Martin Rinard, en EECS -professor och forskare vid datavetenskap och artificiell intelligenslaboratorium.

    Bayesiansk modellering

    Verket använder Bayesiansk modellering, en statistikmetod som kontinuerligt uppdaterar sannolikheten för en variabel när mer information om den variabeln blir tillgänglig. Till exempel, statistiker och författare Nate Silver använder Bayesian-baserade modeller för sin populära webbplats FiveThirtyEight. Inför ett presidentval, webbplatsens modeller gör en första förutsägelse att en av kandidaterna kommer att vinna, baserat på olika undersökningar och andra ekonomiska och demografiska uppgifter. Denna förutsägelse är variabeln. På valdagen, modellen använder den informationen, och väger inkommande röster och annan data, att kontinuerligt uppdatera den sannolikheten för en kandidats potential att vinna.

    Mer allmänt, Bayesianska modeller kan användas för att "förutsäga" - förutsäga ett okänt värde i datamängden - och för att avslöja mönster i data och samband mellan variabler. I deras arbete, forskarna fokuserade på två typer av datamängder:tidsserier, en sekvens av datapunkter i kronologisk ordning; och tabelldata, där varje rad representerar en enhet av intresse och varje kolumn representerar ett attribut.

    Dataserier i tidsserier kan användas för att förutsäga, säga, flygtrafik under de kommande månaderna eller åren. En sannolikhetsmodell kraschar mängder av historisk trafikdata och producerar ett tidsseriediagram med framtida trafikmönster ritade längs linjen. Modellen kan också avslöja periodiska fluktuationer korrelerade med andra variabler, som tid på året.

    Å andra sidan, en tabelluppsättning som används för, säga, sociologisk forskning, kan innehålla hundratals till miljoner rader, var och en representerar en individuell person, med variabler som kännetecknar ockupation, lön, hemort, och svar på enkätfrågor. Probabilistiska modeller kan användas för att fylla i saknade variabler, som att förutsäga någons lön baserat på yrke och plats, eller att identifiera variabler som informerar varandra, som att upptäcka att en persons ålder och yrke är förutsägande för deras lön.

    Statistiker ser Bayesiansk modellering som en guldstandard för att konstruera modeller från data. Men Bayesiansk modellering är notoriskt tidskrävande och utmanande. Statistiker gissar först en utbildad gissning om nödvändig modellstruktur och parametrar, förlitar sig på deras allmänna kunskap om problemet och data. Med hjälp av en statistisk programmeringsmiljö, som R, en statistiker bygger sedan modeller, passar parametrar, kontrollerar resultat, och upprepar processen tills de uppnår en lämplig prestandaavvägning som väger modellens komplexitet och modellkvalitet.

    Forskarnas verktyg automatiserar en viktig del av denna process. "Vi ger ett mjukvarusystem ett jobb du skulle låta en juniorstatistiker eller datavetenskapare göra, "Säger Mansinghka." Programvaran kan svara på frågor automatiskt från data - förutsäga förutsägelser eller berätta vad strukturen är - och den kan göra det strikt, rapportera kvantitativa osäkerhetsmått. Denna nivå av automatisering och noggrannhet är viktig om vi försöker göra datavetenskap mer tillgänglig. "

    Bayesiansk syntes

    Med det nya tillvägagångssättet, användare skriver en kodrad som beskriver rådataens plats. Verktyget laddar data och skapar flera probabilistiska program som var och en representerar en Bayesiansk modell av data. Alla dessa automatiskt genererade modeller skrivs på domänspecifika probabilistiska programmeringsspråk-kodningsspråk som utvecklats för specifika applikationer-som är optimerade för att representera Bayesianska modeller för en specifik typ av data.

    Verktyget fungerar med en modifierad version av en teknik som kallas "programsyntes, "som automatiskt skapar datorprogram givna data och ett språk att arbeta inom. Tekniken är i grunden datorprogrammering omvänt:Med tanke på en uppsättning input-output-exempel, programsyntes fungerar bakåt, fylla i ämnena för att konstruera en algoritm som producerar exempelutmatningarna baserat på exempelingångarna.

    Tillvägagångssättet skiljer sig från vanlig programsyntes på två sätt. Först, verktyget syntetiserar probabilistiska program som representerar bayesiska modeller för data, medan traditionella metoder producerar program som inte modellerar data alls. Andra, verktyget syntetiserar flera program samtidigt, medan traditionella metoder bara producerar en i taget. Användare kan välja vilka modeller som bäst passar deras applikation.

    "När systemet gör en modell, det spottar ut en kod kod skriven på ett av dessa domänspecifika probabilistiska programmeringsspråk ... som människor kan förstå och tolka, "Säger Mansinghka." Till exempel, användare kan kontrollera om en tidsseriedatas som flygbolagstrafik har säsongsvariationer bara genom att läsa koden-till skillnad från black-box maskininlärning och statistikmetoder, där användare måste lita på en models förutsägelser men inte kan läsa den för att förstå dess struktur. "

    Probabilistisk programmering är ett framväxande område i skärningspunkten mellan programmeringsspråk, artificiell intelligens, och statistik. Det här året, MIT var värd för den första internationella konferensen om probabilistisk programmering, som hade mer än 200 deltagare, inklusive ledande branschaktörer inom probabilistisk programmering som Microsoft, Uber, och Google.


    © Vetenskap https://sv.scienceaq.com