När du bygger modeller i statistik testar du dem vanligtvis och ser till att modellerna matchar verkliga situationer. Det resterande är ett nummer som hjälper dig att avgöra hur nära din teoretiserade modell är fenomenet i den verkliga världen. Residualer är inte för svåra att förstå: Det är bara siffror som representerar hur långt borta en datapunkt är från vad den "borde vara" enligt den förutsagda modellen.
Matematisk definition
Matematiskt är en rest skillnaden mellan en observerad datapunkt och det förväntade - eller uppskattade - värdet för vad datapunkten borde ha varit. Formeln för en rest är R \u003d O - E, där "O" betyder det observerade värdet och "E" betyder det förväntade värdet. Detta innebär att positiva värden på R visar värden högre än väntat, medan negativa värden visar värden lägre än väntat. Till exempel kan du ha en statistisk modell som säger att när en mans vikt är 140 pund, bör hans höjd vara 6 fot eller 72 tum. När du går ut och samlar in data, kan du hitta någon som väger 140 kilo men är 5 fot 9 tum eller 69 tum. Återstoden är då 69 tum minus 72 tum, vilket ger dig ett värde av negativa 3 tum. Med andra ord, den observerade datapunkten är 3 tum under det förväntade värdet.
Kontrollera modeller |
Residualer är särskilt användbara när du vill kontrollera om din teoretiska modell fungerar i den verkliga världen. När du skapar en modell och beräknar dess förväntade värden, teoretiserar du. Men när du går att samla in data, kanske du upptäcker att uppgifterna inte stämmer med modellen. Ett sätt att hitta detta missförhållande mellan din modell och den verkliga världen är att beräkna rester. Om du till exempel upptäcker att dina rester är konsekvent långt borta från dina uppskattade värden, kanske din modell inte har en stark underliggande teori. Ett enkelt sätt att använda rester på detta sätt är att plotta dem.
Plotta rester -
När du beräknar resterna har du en handfull nummer, vilket är svårt för människor att tolka. Plottning av rester kan ofta visa mönster. Dessa mönster kan leda till att du avgör om modellen passar bra. Två aspekter av rester kan hjälpa dig att analysera ett antal rester. Först bör rester för en bra modell spridas på båda sidor om noll. Det vill säga, en tomt med rester bör ha ungefär samma mängd negativa rester som positiva rester. För det andra bör rester tyckas vara slumpmässiga. Om du ser ett mönster i din restplott, till exempel att de har ett tydligt linjärt eller krökt mönster, kan din ursprungliga modell ha ett fel.
Specialrester: Outliers
Outliers, eller rester av extremt stora värden , visas ovanligt långt borta från de andra punkterna på din tomt med rester. När du hittar en rest som är en överskridare i din datauppsättning, måste du tänka noga över det. Vissa forskare rekommenderar att man tar bort överträdare eftersom det är ”avvikelser” eller specialfall. Andra rekommenderar ytterligare undersökning om varför du har en så stor rest. Till exempel kan du göra en modell för hur stress påverkar skolklass och teoretiserar att mer stress vanligtvis innebär sämre betyg. Om dina uppgifter visar att detta är sant förutom för en person som har mycket låg stress och mycket låga betyg, kan du fråga dig själv varför. En sådan person kanske helt enkelt inte bryr sig om någonting, inklusive skolan, förklarar det stora kvarvarande. I det här fallet kanske du överväger att ta ut återstoden från din datauppsättning eftersom du bara vill modellera elever som bryr sig om skolan.