Klusteranalys är en metod för att organisera data i representativa grupper baserat på liknande egenskaper. Varje medlem i klustret har mer gemensamt med andra medlemmar i samma kluster än med andra gruppers medlemmar. Den mest representativa punkten inom gruppen kallas centroid. Vanligtvis är detta medelvärdet av värdena för datapunkterna i klustret.
Ordna data. Om data består av en enda variabel, kan ett histogram vara lämpligt. Om två variabler är inblandade, grafera data på ett koordinatplan. Om du till exempel tittar på skolbarns höjd och vikt i ett klassrum, plottar du datapunkterna för varje barn på ett diagram, med vikten som den horisontella axeln och höjden är den vertikala axeln. Om mer än två variabler är inblandade kan matriser behövas för att visa data.
Gruppera data i kluster. Varje grupp ska bestå av de datapunkter som ligger närmast det. I höjd- och viktexemplet grupperar du alla datapunkter som verkar vara nära varandra. Antalet kluster och huruvida varje datapunkt måste ligga i ett kluster kan bero på syftet med studien.
För varje kluster lägger du till värdena för alla medlemmar. Om exempelvis ett grupp av data bestod av punkterna (80, 56), (75, 53), (60, 50) och (68,54), skulle summan av värdena vara (283, 213).
Dela upp summan av antalet medlemmar i klustret. I exemplet ovan är 283 dividerat med fyra 70,75 och 213 dividerat med fyra är 53,25, så klusterets centrum är (70,75, 53,25).
Avbilda klustercentroiderna och bestämma om några punkter är närmare till ett centroid av ett annat kluster än de är till centroid av deras egna kluster. Om några punkter är närmare ett annat centroid, omfördela dem dem till klustret som innehåller närmare centroid.
Upprepa steg 3, 4 och 5 tills alla datapunkter finns i klustret som innehåller den centroid som de är närmast .
Tips
Om centroid måste vara en viss datapunkt istället för en mittpunkt mellan data, kan medianen användas för att bestämma den, i stället för medelvärdet.