En outlier är ett värde i en datamängd som ligger långt ifrån de andra värdena. Outliers kan orsakas av experimentella eller mätfel, eller av en långsiktig befolkning. I de tidigare fallen kan det vara önskvärt att identifiera avvikare och ta bort dem från data innan en statistisk analys utförs, eftersom de kan slänga resultaten så att de inte exakt representerar provpopulationen. Det enklaste sättet att identifiera outliers är med kvartilmetoden.
Sortera data i stigande ordning. Ta till exempel datasatsen {4, 5, 2, 3, 15, 3, 3, 5}. Sorterat är exempeldatasatsen {2, 3, 3, 3, 4, 5, 5, 15}.
Hitta medianen. Detta är numret vid vilken hälften av datapunkterna är större och hälften är mindre. Om det finns ett jämnt antal datapunkter, är de mellersta två i genomsnitt. För exempeldatasatsen är mellannivåerna 3 och 4, så medianen är (3 + 4) /2 = 3,5.
Hitta den övre kvartilen, Q2; detta är datapunktet där 25 procent av data är större. Om datasetet är jämnt, medelst 2 punkter runt kvartilen. För exempeldatasatsen är detta (5 + 5) /2 = 5.
Hitta den lägre kvartilen, Q1; Detta är datapunktet där 25 procent av data är mindre. Om datasetet är jämnt, medelst 2 punkter runt kvartilen. För exempeldata, (3 + 3) /2 = 3.
Subtrahera nedre kvartilen från den högre kvartilen för att få interkvartilintervallet, IQ. För exempeldatasatsen, Q2 - Q1 = 5 - 3 = 2.
Multiplicera interkvartilintervallet med 1,5. Lägg detta till övre kvartilen och dra av det från den nedre kvartilen. Vilken datapunkt som helst utanför dessa värden är en mild outlier. För det angivna exemplet, 1,5 x 2 = 3; således 3 - 3 = 0 och 5 + 3 = 8. Så vilket värde som helst mindre än 0 eller högre än 8 skulle vara en mild outlier. Detta betyder att 15 kvalificerar sig som en mild outlier.
Multiplicera interkvartilintervallet med 3. Lägg till detta i övre kvartilen och dra av det från den nedre kvartilen. Vilken datapunkt som helst utanför dessa värden är en extrem outlier. För det angivna exemplet, 3 x 2 = 6; alltså 3 - 6 = -3 och 5 + 6 = 11. Så vilket värde som helst mindre än -3 eller högre än 11 skulle vara en extrem outlier. Det betyder att 15 kvalificerar sig som en extrem outlier.
Tips
Extreme outliers är mer vägledande för en dålig datapunkt än en mild outlier.