Kredit:CC0 Public Domain
Att känna till ett företags verkliga försäljning kan hjälpa till att bestämma dess värde. Investerare, till exempel, anställer ofta finansanalytiker för att förutsäga ett företags kommande intäkter med hjälp av olika offentliga data, beräkningsverktyg, och sin egen intuition. Nu har MIT-forskare utvecklat en automatiserad modell som avsevärt överträffar människor när det gäller att förutsäga företagsförsäljning med mycket begränsade, "bullriga" data.
Inom finans, det finns ett växande intresse för att använda oprecisa men ofta genererade konsumentdata – så kallade "alternativa data" – för att hjälpa till att förutsäga ett företags intäkter för handels- och investeringsändamål. Alternativa uppgifter kan omfatta kreditkortsköp, platsdata från smartphones, eller till och med satellitbilder som visar hur många bilar som står parkerade på en återförsäljares tomt. Kombinera alternativa data med mer traditionella men sällsynta ekonomiska data – som kvartalsvinster, pressmeddelande, och aktiekurser – kan måla en tydligare bild av ett företags ekonomiska hälsa även på en daglig eller veckovis basis.
Men, än så länge, det har varit väldigt svårt att bli exakt, frekventa uppskattningar med hjälp av alternativa data. I en artikel som publicerades denna vecka i Proceedings of ACM Sigmetrics Conference, forskarna beskriver en modell för att prognostisera ekonomi som endast använder anonymiserade veckovisa kreditkortstransaktioner och tre månaders intjäningsrapporter.
I uppdrag att förutsäga kvartalsvinster för mer än 30 företag, modellen överträffade de kombinerade uppskattningarna från experter på Wall Street-analytiker på 57 procent av förutsägelserna. I synnerhet, analytikerna hade tillgång till alla tillgängliga privata eller offentliga data och andra maskininlärningsmodeller, medan forskarnas modell använde en mycket liten datauppsättning av de två datatyperna.
"Alternativa data är dessa konstiga, proxysignaler för att hjälpa till att spåra den underliggande ekonomin för ett företag, " säger första författaren Michael Fleder, en postdoc vid Laboratoriet för informations- och beslutssystem (LIDS). "Vi frågade, "Kan du kombinera dessa brusiga signaler med kvartalssiffror för att uppskatta den verkliga ekonomin för ett företag vid höga frekvenser?" Det visar sig att svaret är ja."
Modellen kan ge investerare ett försprång, handlare, eller företag som ofta vill jämföra sin försäljning med konkurrenter. Utöver ekonomi, modellen kan hjälpa samhällsvetare och statsvetare, till exempel, att studera aggregerat, anonyma uppgifter om offentligt beteende. "Det kommer att vara användbart för alla som vill ta reda på vad folk gör, " säger Fleder.
Med Fleder på tidningen är EECS-professor Devavrat Shah, som är chef för MIT:s statistik- och datavetenskapscenter, medlem av Laboratoriet för informations- och beslutssystem, en huvudutredare för MIT Institute for Foundations of Data Science, och en adjungerad professor vid Tata Institute of Fundamental Research.
Ta itu med problemet med "små data".
För bättre eller sämre, mycket konsumentdata är till salu. Återförsäljare, till exempel, kan köpa kreditkortstransaktioner eller platsdata för att se hur många som handlar hos en konkurrent. Annonsörer kan använda uppgifterna för att se hur deras annonser påverkar försäljningen. Men att få dessa svar är fortfarande främst beroende av människor. Ingen maskininlärningsmodell har lyckats få ihop siffrorna på ett adekvat sätt.
kontraintuitivt, problemet är faktiskt bristen på data. Varje ekonomisk insats, till exempel en kvartalsrapport eller veckovis kreditkortssumma, är bara ett nummer. Kvartalsrapporter över två år uppgår till endast åtta datapunkter. Kreditkortsuppgifter för, säga, varje vecka under samma period är bara ungefär ytterligare 100 "bullriga" datapunkter, vilket innebär att de innehåller potentiellt otolkbar information.
"Vi har ett problem med "små data", " Fleder säger. "Du får bara en liten del av vad folk spenderar och du måste extrapolera och sluta dig till vad som verkligen händer från den bråkdelen av data."
För deras arbete, forskarna fick konsumentkreditkortstransaktioner – med intervaller som vanligtvis veckovisar och varannan vecka – och kvartalsrapporter för 34 återförsäljare från 2015 till 2018 från en hedgefond. I alla företag, de samlade in data för 306 kvartal totalt.
Att beräkna daglig försäljning är ganska enkelt i konceptet. Modellen förutsätter att ett företags dagliga försäljning förblir liknande, endast något minskande eller ökande från en dag till en annan. Matematiskt, det betyder att försäljningsvärden för på varandra följande dagar multipliceras med ett konstant värde plus ett visst statistiskt brusvärde – vilket fångar en del av den inneboende slumpmässigheten i ett företags försäljning. Morgondagens försäljning, till exempel, lika med dagens försäljning multiplicerat med, säga, 0,998 eller 1,01, plus det uppskattade antalet för buller.
Om noggranna modellparametrar ges för den dagliga konstanten och ljudnivån, en standard slutledningsalgoritm kan beräkna den ekvationen för att producera en korrekt prognos för daglig försäljning. Men tricket är att beräkna dessa parametrar.
Att reda ut siffrorna
Det är där kvartalsrapporter och sannolikhetstekniker kommer till användning. I en enkel värld, en kvartalsrapport kan delas med, säga, 90 dagar för att beräkna den dagliga försäljningen (vilket innebär att försäljningen är ungefär konstant från dag till dag). I verkligheten, försäljningen varierar från dag till dag. Också, Att inkludera alternativa data för att hjälpa till att förstå hur försäljningen varierar över ett kvartal komplicerar saken:Förutom att vara bullrig, köpta kreditkortsuppgifter består alltid av någon obestämd del av den totala försäljningen. Allt detta gör det mycket svårt att veta exakt hur kreditkortssummorna ingår i den totala försäljningsuppskattningen.
"Det kräver lite att reda ut siffrorna, " Fleder säger. "Om vi observerar 1 procent av ett företags veckoförsäljning genom kreditkortstransaktioner, hur vet vi att det är 1 procent? Och, om kreditkortsdata är störande, hur vet du hur bullrigt det är? Vi har inte tillgång till grundsanningen för dagliga eller veckovisa försäljningssummor. Men de kvartalsvisa aggregaten hjälper oss att resonera kring dessa summor."
Att göra så, forskarna använder en variant av standardinferensalgoritmen, kallas Kalman-filtrering eller trosförökning, som har använts i olika tekniker från rymdfärjor till smartphone GPS. Kalman-filtrering använder datamätningar som observerats över tid, som innehåller bullerfel, att generera en sannolikhetsfördelning för okända variabler över en angiven tidsram. I forskarnas arbete har det innebär att uppskatta den möjliga försäljningen för en enskild dag.
För att träna modellen, tekniken delar först upp kvartalsförsäljningen i ett visst antal uppmätta dagar, säg 90 – vilket gör att försäljningen kan variera från dag till dag. Sedan, det stämmer med det observerade, bullriga kreditkortsdata till okänd daglig försäljning. Med hjälp av kvartalssiffrorna och viss extrapolering, den uppskattar andelen av den totala försäljningen som kreditkortsdata sannolikt representerar. Sedan, den beräknar varje dags andel av observerad försäljning, ljudnivå, och en feluppskattning för hur väl den gjorde sina förutsägelser.
Slutledningsalgoritmen kopplar in alla dessa värden i formeln för att förutsäga dagliga försäljningssummor. Sedan, det kan summera dessa summor för att få veckovis, en gång i månaden, eller kvartalssiffror. I alla 34 företag, modellen slog ett konsensusriktmärke – som kombinerar uppskattningar från Wall Street-analytiker – på 57,2 procent av 306 kvartalsprognoser.
Nästa, forskarna designar modellen för att analysera en kombination av kreditkortstransaktioner och andra alternativa data, såsom platsinformation. "Det här är inte allt vi kan göra. Det här är bara en naturlig utgångspunkt, " säger Fleder.