Förenkla jämförelser mellan antal uppsättningar, särskilt stora uppsättningar, genom att beräkna mittvärdena med medelvärde, läge och median. Använd områdena och standardavvikelserna för uppsättningarna för att undersöka variabiliteten i data.
Beräkna medelvärde
Medlet identifierar medelvärdet för uppsättningen av siffror. Tänk till exempel datauppsättningen som innehåller värdena 20, 24, 25, 36, 25, 22, 23..
För att hitta medelvärdet, använd formel: Medel är lika med summan av siffrorna i datauppsättningen dividerad med antalet värden i datauppsättningen. I matematiska termer: Medel \u003d (summan av alla termer) ÷ (hur många termer eller värden i uppsättningen).
Lägg till siffrorna i exempeldataplan : 20 + 24 + 25 + 36 + 25 + 22 + 23 \u003d 175.
Dela med antalet datapunkter i uppsättningen. Denna uppsättning har sju värden så divideras med 7.
Sätt in värdena i formeln för att beräkna medelvärdet. Medeltalet är lika med summan av värdena (175) dividerat med antalet datapunkter (7). Sedan 175 ÷ 7 \u003d 25 är medelvärdet för denna datamängd lika med 25. Inte alla medelvärden kommer att vara lika med ett heltal.
Beräkning av median
Median identifierar mittpunkten eller mittvärdet för en uppsättning siffror.
Sätt siffrorna i ordning från minsta till största. Använd exemplet med värden: 20, 24, 25, 36, 25, 22, 23. Placerad i ordning blir uppsättningen: 20, 22, 23, 24, 25, 25, 36.
Eftersom denna uppsättning siffror har sju värden är median eller värde i mitten 24.
Om uppsättningen av siffror har ett jämnt antal värden, beräkna genomsnitt av de två mittvärdena. Anta till exempel att uppsättningen av siffror innehåller värdena 22, 23, 25, 26. Mitten ligger mellan 23 och 25. Att lägga till 23 och 25 ger 48. Genom att dela 48 med två ger ett medianvärde av 24.
Beräkningsläge
Läget identifierar de vanligaste värdena eller värdena i datauppsättningen. Beroende på data kan det finnas ett eller flera lägen, eller inget läge alls.
Liksom att hitta median, beställ datauppsättningen från minsta till största. I exempeluppsättningen blir de ordnade värdena: 20, 22, 23, 24, 25, 25, 36.
Ett läge uppstår när värden upprepas. I exempeluppsättningen inträffar värdet 25 två gånger. Inga andra nummer upprepas. Därför är läget värdet 25.
I vissa datamängder inträffar mer än ett läge. Datauppsättningen 22, 23, 23, 24, 27, 27, 29 innehåller två lägen, var och en vid 23 och 27. Andra datamängder kan ha mer än två lägen, kan ha lägen med mer än två siffror (som 23, 23 , 24, 24, 24, 28, 29: läget är lika med 24) eller kanske inte har några lägen alls (som 21, 23, 24, 25, 26, 27, 29). Läget kan förekomma var som helst i datauppsättningen, inte bara i mitten.
Beräkningsområde
Område visar det matematiska avståndet mellan de lägsta och högsta värdena i datauppsättningen. Område mäter datamängdens variation. Ett brett intervall indikerar större variation i uppgifterna, eller kanske en enda outlier långt ifrån resten av uppgifterna. Outliers kan skeva eller förskjuta medelvärdet som är tillräckligt för att påverka dataanalys.
I provgruppen är det lägsta värdet 20 och det högsta värdet är 36.
För att beräkna intervall, subtrahera det lägsta värdet från det högsta värdet. Sedan 36-20 \u003d 16 är intervallet lika med 16.
I provuppsättningen överskrider det höga datavärdet 36 det föregående värdet, 25, med 11 Detta värde verkar extremt, med tanke på de andra värdena i uppsättningen. Värdet på 36 kan vara en överliggande datapunkt.
Beräkning av standardavvikelse
Standardavvikelse mäter datamängdens variation. Som intervall indikerar en mindre standardavvikelse mindre variation.
Att hitta standardavvikelse kräver summering av kvadratskillnaden mellan varje datapunkt och medelvärdet [∑ (x- µ) 2], lägga till alla rutor, dela den summan med en mindre än antalet värden (N-1) och beräkna slutligen kvadratroten till utdelningen. Matematiskt börjar du med att beräkna medelvärdet. Beräkna medelvärdet genom att lägga till alla datapunktvärden och sedan dela med antalet datapunkter. I provdatauppsättningen är 20 + 24 + 25 + 36 + 25 + 22 + 23 \u003d 175. Dela summan, 175, med antalet datapunkter, 7 eller 175 ÷ 7 \u003d 25. Medelvärdet är lika med 25. Därefter subtraheras medelvärdet från varje datapunkt och kvadrerar sedan varje skillnad. Formeln ser ut så här: ∑ (x-µ) 2, där ∑ betyder summa, x representerar varje datasättvärde och µ representerar medelvärdet. Fortsättningen med exemplet blir värdena: 20-25 \u003d -5 och -5 2 \u003d 25; 24-25 \u003d -1 och -1 2 \u003d 1; 25-25 \u003d 0 och 0 2 \u003d 0; 36-25 \u003d 11 och 11 2 \u003d 121; 25-25 \u003d 0 och 0 2 \u003d 0; 22-25 \u003d -3 och -3 <2> 9; och 23-25 \u003d -2 och -2 2 \u003d 4. Lägga till de kvadratiska skillnaderna ger: 25 + 1 + 0 + 121 + 0 + 9 + 4 \u003d 160. Dela summan av kvadratskillnaderna med en mindre än antalet datapunkter. Exempeldataset har 7 värden, så N-1 är lika med 7-1 \u003d 6. Summan av de kvadratiska skillnaderna, 160, dividerad med 6 är lika med ungefär 26.6667. Beräkna standardavvikelsen genom att hitta kvadratroten till divisionen med N-1. I exemplet är kvadratroten av 26.6667 lika med cirka 5.164. Därför är standardavvikelsen lika med cirka 5.164. Standardavvikelse hjälper till att utvärdera data. Nummer i datauppsättningen som faller inom en standardavvikelse för medelvärdet är en del av datauppsättningen. Siffror som faller utanför två standardavvikelser är extrema värden eller outliers. I exempeluppsättningen ligger värdet 36 mer än två standardavvikelser från medelvärdet, så 36 är en utligare. Outliers kan representera felaktiga uppgifter eller kan antyda oförutsedda omständigheter och bör övervägas noggrant vid tolkning av data.