Linjär regression är en statistisk metod för att undersöka förhållandet mellan en beroende variabel, betecknad som y, Linjär regression är begränsad till linjära relationer Med sin natur ser linjär regression endast linjära relationer mellan beroende och oberoende variabler. Det förutsätter att det finns ett linjärt förhållande mellan dem. Ibland är det felaktigt. Till exempel är förhållandet mellan inkomst och ålder böjd, dvs inkomst tenderar att stiga i de tidiga delarna av vuxenlivet, utplåna i senare vuxen ålder och minska efter att människor går i pension. Du kan se om detta är ett problem genom att titta på de grafiska representationerna av relationerna. Linjär regression ser bara på medelvärdena för beroendevarianten Linjär regression ser på ett förhållande mellan medelvärdet av den beroende variabeln och de oberoende variablerna. Om du till exempel tittar på förhållandet mellan barnets födelsevikt och moderens egenskaper som ålder, kommer linjär regression att se på medelvikten hos barn födda till mödrar i olika åldrar. Ibland måste du dock titta på extremiteterna av den beroende variabeln, t.ex. barnen är i fara när deras vikter är låga, så du skulle vilja titta på ytterligheterna i det här exemplet. Precis som medelvärdet är inte en fullständig beskrivning av en enda variabel, är linjär regression inte en komplett beskrivning av relationerna mellan variabler. Du kan hantera detta problem genom att använda kvantilregression. Linjär regression är känslig för utjämnare Outliers är data som är överraskande. Outliers kan vara univariate (baserat på en variabel) eller multivariate. Om du tittar på ålder och inkomst, kommer univariate outliers vara saker som en person som är 118 år gammal, eller en som gjorde $ 12 miljoner förra året. En multivariat outlier skulle vara en 18-årig som gjorde 200 000 dollar. I detta fall är ingen ålder eller inkomst mycket extrem, men väldigt få 18-åriga gör så mycket pengar. Outliers kan få stora effekter på regressionen. Du kan hantera detta problem genom att begära inflytningsstatistik från din statistiska programvara. Data måste vara oberoende Linjär regression förutsätter att uppgifterna är oberoende. Det betyder att poängen på ett ämne (som en person) inte har något att göra med en annan. Detta är ofta men inte alltid förnuftigt. Två vanliga fall där det inte är meningsfullt är kluster i rymden och tiden. Ett klassiskt exempel på klustring i rymden är studenttest, när du har studenter från olika klasser, betyg, skolor och skoldistrikt. Studenter i samma klass tenderar att vara likartade på många sätt, det vill säga, de kommer ofta från samma stadsdelar, de har samma lärare osv. Således är de inte självständiga. Exempel på klustring i tid är Alla studier där du mäter samma ämnen flera gånger. I en studie av kost och vikt kan du till exempel mäta varje person flera gånger. Dessa data är inte oberoende eftersom vad en person väger vid ett tillfälle är relaterad till vad han eller hon väger vid andra tillfällen. Ett sätt att hantera detta är med multilevelmodeller.
och en eller flera oberoende variabler, betecknad som x
. Den beroende variabeln måste vara kontinuerlig, eftersom den kan ta på sig något värde, eller åtminstone nära kontinuerligt. De oberoende variablerna kan vara av någon typ. Även om linjär regression inte kan visa orsakssamband i sig, är den beroende variabelen vanligtvis påverkad av de oberoende variablerna.