När forskare, ekonomer eller statistiker gör förutsägelser baserade på teori och sedan samlar in reella data, behöver de ett sätt att mäta variationen mellan förutspådda och uppmätta värden. De förlitar sig vanligtvis på medelkvadratfelet (MSE), som är summan av variationerna i de enskilda datapunkterna i kvadrat och dividerat med antalet datapunkter minus 2. När data visas på en graf bestämmer du MSE med summera variationerna i datapunkterna för vertikal axel. På en x-y-graf skulle det vara y-värden.
Varför kvadrera variationerna?
Att multiplicera variationen mellan förutsagda och observerade värden har två önskvärda effekter. Den första är att se till att alla värden är positiva. Om ett eller flera värden var negativa, kan summan av alla värden vara orealistisk liten och en dålig representation av den faktiska variationen mellan förutspådda och observerade värden. Den andra fördelen med kvadrering är att ge större vikt till större skillnader, vilket säkerställer att ett stort värde för MSE innebär stora datavariationer.
Exempelberäkning Lageralgoritm
Anta att du har en algoritm som förutsäger priserna för en viss bestånd dagligen. På måndag förutspår det att aktiekursen ska vara $ 5,50, på tisdag till $ 6,00, onsdag $ 6,00, torsdag $ 7,50 och fredag $ 8,00. Med tanke på måndag som dag 1 har du en uppsättning datapunkter som ser ut så här: (1, 5.50), (2, 6.00), (3, 6.00), (4, 7.50) och (5, 8.00). De faktiska priserna är följande: Måndag 4,75 $ (1, 4,75); Tisdag 5,35 $ (2, 5,35); Onsdag $ 6,25 (3, 6,25); Torsdag 7,25 $ (4, 7,25); och fredag: 8,50 $ (5, 8,50).
Variationerna mellan y-värdena för dessa punkter är 0,75, 0,65, -0,25, 0,25 respektive -0,50, där det negativa tecknet indikerar ett förutsagt värde mindre än den observerade. För att beräkna MSE, kvadrerar du först varje variationsvärde, vilket eliminerar minustecknen och ger 0,5625, 0,4225, 0,0625, 0,0625 och 0,25. Sammanfattning av dessa värden ger 1,36 och att dividera med antalet mätningar minus 2, som är 3, ger MSE, vilket visar sig vara 0,45.
MSE och RMSE |
Mindre värden för MSE indikerar närmare överensstämmelse mellan förutsagda och observerade resultat, och en MSE på 0,0 indikerar perfekt överensstämmelse. Det är dock viktigt att komma ihåg att variationsvärdena är kvadratiska. När en felmätning krävs som finns i samma enheter som datapunkterna, tar statistiker root-medelkvadratfelet (RMSE). De får detta genom att ta kvadratroten av det genomsnittliga kvadratfelet. För exemplet ovan skulle RSME vara 0,671 eller cirka 67 cent.