Vad är skillnaden mellan statistik och datavetenskap - och, kanske ännu viktigare, varför har vi två fält med vad som verkar vara samma fokus? Det bästa sättet att förstå framväxten av datavetenskap som en separat disciplin, förklarar Herman "Gene" Ray, chef för Center for Statistics and Analytical Research vid Kennesaw State University, är att se datavetenskap som en sammanslagning av datavetenskap och statistik. "De flesta traditionella statistikprogram lär dig mycket teori och hur du kan lösa problem för hand, " säger han. "Datorapplikationer är något av en eftertanke. Men företag kommer inte att analysera 100 miljoner poster för hand; de har att göra med enorma bekvämlighetsprover. Och det är där datavetenskap går in."
Och det är där den akademiska konflikten börjar:Statistiker säger att datavetare saknar den statistiska eller matematiska grunden för att förstå datainsamling och analys, och dataforskare himlar med ögonen på statistiker för deras bristande programmeringskunniga. Detta, säger Ray, var det största hindret de mötte när de skapade en av de första amerikanska doktorerna. program i analys och datavetenskap:Hur do kombinerar du statistik och datavetenskap? "Var och en tror att de kan göra det utan den andra, " säger han. "Men verkligheten är att de flesta statistiker inte är särskilt bra programmerare, och de flesta datavetare förstår inte riktigt några av nyanserna i statistik. Vårt mål är att överbrygga den klyftan."
Deras lösning, till viss del, utnyttjade den ökande medvetenheten bland företag i Atlanta-området om vikten av data. Analytics and Data Science Institute skapade nio sponsrade forskningslaboratorier, var och en fokuserade på dataproblem som ett företag eller offentlig tjänst eller ideell organisation står inför, och var och en med en till fyra Ph.D. studenter som leds av en fakultetsmedlem. "De är som tankesmedjor i miniatyr som utforskar verkliga problem, " säger Ray. "Och genom att göra det, studenter får förstå problemet från datavetenskap och statistiskt perspektiv." En mer traditionellt sinnad statistikstudent kan uppmuntras av en kollega att utforska neurala nätverk, medan en mer traditionellt sinnad datavetenskapsstudent kan uppmuntras att se varför de måste använda representativt urval framför bekvämlighetssampling.
Ett nyligen genomfört projekt involverade att arbeta med Cobb County Fire Department, en förort till Atlanta, som inte uppfyllde de nationella måtten för brandstandarder. "Vi tog alla deras data för brand- och ambulanshändelser – tiden för det första telefonsamtalet till det att ambulansen lämnade brandhuset till den tid det tog att komma till en händelse. Vi tittade på rutter och trafikmönster, och sedan optimerade svarstider med graft-teori och Google Maps." Rutter ändrades, brandzoner omfördelade, och svarstiderna minskade. "Cobb Countys brandchef är mycket datakunnig, säger Ray, "så han implementerar inkrementella ändringar och ser sedan hur data uppdateras."
Forskningslaboratorierna lägger också till en annan dimension – och en allt viktigare sådan – till studentupplevelsen:hur man pratar med människor som inte är statistiker eller datavetare.
"När jag utbildades, förväntningen var att jag skulle arbeta med andra statistiker och närvara vid akademiska konferenser, " säger Ray. "Så, vi talade alla samma språk. I dag, en dataforskare kan prata med en chef, eller klient, eller politiker, som har väldigt lite statistikbakgrund överhuvudtaget. De måste kunna läsa det här väldigt snabbt, och se till att rätt budskap fortfarande kommuniceras på lämplig nivå. Det är en av de vackra sakerna med dessa labb – de tvingar alla att lära sig att tala på ett sätt för att labben ska bli framgångsrik."