Statistik är lite av en blandning mellan matematik och sannolikhet. Poängen med statistik är att beskriva processer du kan observera ute i världen - ekarnas höjd eller sannolikheten för att ett vaccin kommer att fungera för att avvärja sjukdomar - utan att behöva mäta varje ek i världen eller vaccinera varje person innan du bestämmer hur ett läkemedel är effektivt.
Eftersom sannolikhet beskriver saker som involverar slumpen, måste vi acceptera att vilken process vi än använder statistik för att mäta, kommer vi aldrig att få hela bilden.
Anta att du slår ett mynt fyra gånger. Du får tre huvuden och en svans. Utan att använda statistik kan vi dra slutsatsen att sannolikheten att få huvuden är 75 procent, där den verkliga sannolikheten att få huvuden i en myntvändning är 1:1, eller en chans på 50-50. Om vi istället gjorde 40 myntväxlingar skulle vi säkert komma mycket närmare ett 1:1-förhållande mellan huvud och svans, och användningen av statistik skulle återspegla detta.
"Mycket av statistiken har att göra med resonemang från ett urval - de faktiska observationerna - till egenskaper hos befolkningen - alla möjliga observationer", säger John Drake, en forskningsprofessor vid Center for the Ecology of Infectious Diseases vid University of Georgia. i ett mejl. "Vi kan till exempel vara intresserade av höjden på ekar. Vi kan inte mäta alla ekar i världen, men vi kan mäta några. Vi kan beräkna medelhöjden på ekar i provet, men det kommer Det måste nödvändigtvis vara detsamma som genomsnittet av alla ekar."
Eftersom vi inte kan mäta alla världens ekar, kommer statistiker upp med ett uppskattat intervall av höjder baserat på sannolikhet och alla data till deras förfogande. Detta intervall kallas ett konfidensintervall och det består av två tal:ett som förmodligen är mindre än det sanna värdet och ett som förmodligen är större. Det sanna värdet ligger förmodligen någonstans mellan.
"Ett '95 procents konfidensintervall' betyder att 95 av 100 gånger som konfidensintervallet är konstruerat på detta sätt kommer intervallet att inkludera det sanna värdet", säger Drake. "Om vi mätte prover av ekar 100 gånger, skulle konfidensintervallet baserat på data som samlats in i 95 av dessa experiment inkludera populationsmedelvärdet, eller medelhöjden för alla ekar. Således är ett konfidensintervall ett mått på precisionen Uppskattningen blir mer och mer exakt när du samlar in mer data. Det är därför konfidensintervallen blir mindre när mer data blir tillgänglig."
Så, ett konfidensintervall hjälper till att visa hur bra eller dålig uppskattningen är. När vi slår ett mynt bara fyra gånger har vår uppskattning på 75 procent ett brett konfidensintervall eftersom vårt urval är mycket litet. Vår uppskattning med 40 myntslag skulle ha ett mycket snävare konfidensintervall.
Den faktiska innebörden av ett konfidensintervall har att göra med att upprepa ett experiment om och om igen. När det gäller de fyra myntvändningarna betyder ett konfidensintervall på 95 procent att om vi upprepade myntvändningsexperimentet 100 gånger, i 95 av dem, kommer sannolikheten att vi får huvuden falla inom det konfidensintervallet.
Det finns gränser för statistik. Du måste utforma en bra studie — statistik kan inte berätta något du inte frågade om.
Säg att du studerar effekten av ett vaccin, men att du inte inkluderade barn i din studie. Du kan komma med ett konfidensintervall baserat på den data du samlat in, men det säger dig ingenting om hur väl vaccinet skyddar barn.
"Utöver att ha tillräckligt med data måste urvalet också vara representativt", säger Drake. "Vanligtvis innebär detta att man har ett slumpmässigt urval eller ett stratifierat slumpmässigt urval. Om man antar att de 1 000 deltagarna i din hypotetiska vaccinprövning är representativa för befolkningen, så är det rimligt att dra slutsatsen att den verkliga effekten av vaccinet ligger inom det rapporterade konfidensintervallet. Om urvalet inte är representativt – om det inte inkluderar barn – så finns det inget statistiskt underlag för att dra slutsatser om den icke-representerade delen av befolkningen."
Florence Nightingale var en av de viktigaste statistikerna i historien, och använde den vetenskap hon var pionjär för att rädda livet på soldater under Krimkriget.