När forskare, ekonomer eller statistiker gör förutsägelser baserade på teori och sedan samlar verkliga data behöver de ett sätt att mäta variationen mellan förutspådda och uppmätta värden. De brukar använda sig av det genomsnittliga kvadratfelet (MSE), vilket är summan av variationerna för de enskilda datapunkterna kvadrerade och dividerat med antalet datapunkter minus 2. När data visas på ett diagram bestämmer du MSE för summerar variationerna i datapunkterna för vertikala axlar. På ett x-y-diagram skulle det vara y-värdena.
Varför kvadrera variationerna?
Multiplicera variationen mellan förutspådda och observerade värden har två önskvärda effekter. Den första är att se till att alla värden är positiva. Om en eller flera värden var negativa kan summan av alla värden vara orealistiskt liten och en dålig representation av den faktiska variationen mellan förutspådda och observerade värden. Den andra fördelen med kvadrering är att ge större vikt åt större skillnader, vilket säkerställer att ett stort värde för MSE betyder stora datavariationer.
Provberäkningslageralgoritm
Antag att du har en algoritm som förutspår priserna på ett visst lager på daglig basis. På måndag förutspår aktiekursen att vara $ 5,50, på tisdag för att vara $ 6,00, onsdag 6,00 $, torsdag 7,50 $ och fredag 8,00 $. Med tanke på måndag som dag 1 har du en uppsättning datapunkter som visas så här: (1, 5,50), (2, 6,00), (3, 6,00), (4, 7,50) och (5, 8,00). De faktiska priserna är följande: måndag 4,75 kr (1, 4,75); Tisdag 5,35 kr (2, 5,35); Onsdag 6,25 dollar (3, 6,25); Torsdag $ 7,25 (4, 7,25); och fredag: $ 8,50 (5, 8,50).
Varianterna mellan y-värdena för dessa punkter är 0,75, 0,65, -0,25, 0,25 och -0,50, där negativa tecknet anger ett förutsett värde mindre än den observerade För att beräkna MSE förstrycker du varje variationsvärde, vilket eliminerar minustecknen och ger 0,5625, 0,4225, 0,0625, 0,0625 och 0,25. Summan av dessa värden ger 1,36 och dividerar med antalet mätningar minus 2, vilket är 3, ger MSE, vilket visar sig vara 0,45.
MSE och RMSE
Mindre värden för MSE indikerar närmare överensstämmelse mellan förutsagda och observerade resultat, och en MSE på 0,0 indikerar perfekt överenskommelse. Det är viktigt att komma ihåg att variationsvärdena är kvadrade. När en felmätning krävs som ligger i samma enheter som datapunkterna, tar statistikerna root mean square error (RMSE). De erhåller detta genom att ta kvadratroten av det genomsnittliga kvadratfelet. För exemplet ovan skulle RSME vara 0.671 eller cirka 67 cent.