Av Jon Zamboni | Uppdaterad 30 augusti 2022
ALFSnaiper/iStock/GettyImages
I forskning är antalet observationer – ofta betecknat som n – är avgörande för tillförlitliga resultat. Ett större urval ger en tydligare bild av populationen, minskar påverkan av onormala data och skärper felmarginalen.
Stora urvalsstorlekar ger mer exakta medelvärden, framhäver verkliga extremvärden och minskar konfidensintervall, vilket gör resultaten mer pålitliga.
Urvalsstorlek hänvisar till antalet datapunkter som samlats in i en undersökning eller experiment. Till exempel, att testa 100 havsvattenprover för oljerester innebär en provstorlek på 100; undersökning av 20 000 individer om ångest ger en urvalsstorlek på 20 000. Medan större urval kräver mer resurser, är vinsten rikare, mer robust data.
Att beräkna medelvärdet— det aritmetiska medelvärdet— blir mer exakt som n växer. Överväg att mäta höjden:med 40 deltagare kan medelvärdet vara 5 ft 4 tum, men med 100 deltagare kan det ändras till 5 ft 3 tum, vilket ger en mer representativ uppskattning. En större datauppsättning avslöjar också äkta extremvärden – värden som avviker markant från medelvärdet – vilket ger värdefulla insikter för vidare undersökning.
Små prover är känsliga för skeva resultat. Att bara undersöka fyra personer om politisk tillhörighet och hitta en oberoende väljare skulle felaktigt antyda att 25 % av befolkningen är oberoende. Att utöka urvalet späder på effekterna av sådana anomalier, vilket säkerställer att statistik återspeglar verkligheten.
Urvalsstorleken påverkar direkt en statistiks felmarginal. För binära frågor (t.ex. bilägande) är felmarginalen ungefär 100÷√n . Ett urval på 100 ger en marginal på 10 %. För kontinuerliga mätvärden (t.ex. höjd), multiplicera denna siffra med två gånger standardavvikelsen för att fånga variabilitet. I alla fall större n krymper marginalen, vilket stärker förtroendet för resultaten.