Forskare från University of Illinois har utvecklat en metod som använder kausal slutledning för att förutsäga störningar i NCAA Men's Basketball Tournament som överträffar många andra tekniker. Förutom förbättrad noggrannhet, metoden sticker ut eftersom den bygger på allmänt tillgänglig data, gör den reproducerbar och mer tillgänglig för andra att använda.
Uppsatsen som rapporterar metoden är publicerad i American Statistical Association (ASA) Journal of Quantitative Analysis in Sports (JQAS) av Sheldon H. Jacobson (University of Illinois at Urbana-Champaign), Jason J. Sauppe (University of Wisconsin La Crosse) och Shouvik Dutta (tidigare University of Illinois doktorand). Kortfattat, tekniken identifierar potentiella upprörelser med endast ett litet antal offentligt tillgänglig statistik genom att identifiera matchningar under innevarande år som uppvisar egenskaper som liknar de som uppvisas av historiska upprörelser av 64-tal.
Med hjälp av beslutsträd, maskininlärning, och kausal slutledning, Jacobson och hans medarbetare analyserade 115 offentligt tillgänglig statistik för att upptäcka de 15 viktigaste för att identifiera störningar i första omgångens matchuper mellan lagen seedade 2 och 15, 3 och 14, och 4 och 13. Bland de mest inflytelserika av de 15 var det effektiva besittningsgraden - antalet innehav och offensiva returer minus antalet omsättningar alla dividerade med antalet besittningar - antalet spelade spel under grundserien och ett mått målchanser per match.
Skillnaderna i de 15 statistikerna mellan de två lagen i varje historisk störning används sedan för att bygga en profil av tidigare störningar. Till sist, de upprörda profilerna kan jämföras med omgången av 64-spel under innevarande år för att hitta matcher som mest liknar historiska störningar.
Jacobson och medförfattare tillämpade sin inställning till NCAA-turneringen under vart och ett av de 13 åren från 2003 till 2015. Av de 26 utvalda spelen, 10 (38,4%) var verkliga upprörda, vilket är mer än dubbelt så många som det förväntade antalet korrekta urval när man använder en viktad slumpmässig urvalsmetod.
Att identifiera orsaksfaktorer i NCAA -turneringen är utmanande av många skäl, en är att randomiserade kontrollerade prövningar - en etablerad metod som är idealisk för att identifiera kausalitet - inte är ett alternativ. "Genom att närma oss problemet som ett orsaksslutande problem med hjälp av observationsdata, sa Jacobson, "vi kunde förbättra prognosen för störningar över ren slumpmässig slump."
Dubbat saldooptimeringsundergruppsval (eller BOSS), ramverket kan tillämpas på ett brett spektrum av data inom samhällsvetenskap och medicin. Den inledande forskningen för BOSS-idén stöddes delvis av National Science Foundation. "Den kovariata balansmetoden som författarna använder är ny i samband med en sportapplikation, " sa Mark Glickman (Harvard University), tidigare chefredaktör för JQAS som hanterade detta manuskript. "Det är uppfriskande att se kausala slutsatser spela en framträdande roll för att bedöma faktorer som påverkar spelupprördhet."
Jacobsons förväntade störningar för årets turnering kommer att publiceras efter Selection Sunday på http://bracketodds.cs.illinois.edu, ett STEM-lärande laboratorium fokuserat på statistiken för March Madness.
"March Madness är ett utmärkt tillfälle för alla människor, ung och gammal, att njuta av ett nationellt sportevenemang samtidigt som du får en uppskattning för hur statistik och datavetenskap kastar ljus över turneringen. Enkelt uttryckt, vårt forskningsprogram om dataanalys hjälper till att förstå galenskapen, sa Jacobson.
Jacobson är domare i den andra årliga Statsketball-tävlingen, värd av Detta är statistik (http://thisisstatistics.org), ASA:s kampanj för att göra studenter, lärare och föräldrar medvetna om de många karriärer som stärks av statistiskt tänkande.