Linjär regression är en statistisk metod för att undersöka förhållandet mellan en beroende variabel, betecknad y, I sin karaktär ser linjär regression bara på linjära förhållanden mellan beroende och oberoende variabler. Det vill säga att det antas att det finns en rak linje relation mellan dem. Ibland är det felaktigt. Exempelvis är förhållandet mellan inkomst och ålder krökt, dvs inkomst tenderar att öka i de tidiga delarna av vuxen ålder, plattas ut i senare vuxen ålder och minska efter att människor går i pension. Du kan veta om detta är ett problem genom att titta på grafiska framställningar av förhållandena. Linjär regression ser på ett förhållande mellan medelvärdet för den beroende variabeln. "and the independent variables.", 3, [[Om du till exempel tittar på förhållandet mellan födelsevikt hos spädbarn och modersegenskaper som ålder, kommer linjär regression att titta på medelvikten för spädbarn födda till mödrar i olika åldrar. Men ibland måste du titta på ytterligheterna i den beroende variabeln, t.ex. är babyer i riskzonen när deras vikter är låga, så du vill titta på ytterligheterna i det här exemplet. Precis som medelvärdet är inte en fullständig beskrivning av en enda variabel, linjär regression är inte en fullständig beskrivning av förhållanden mellan variabler. Du kan hantera det här problemet genom att använda kvantregression. Utbytare är data som är överraskande. Outliers kan vara univariate (baserat på en variabel) eller multivariate. Om du tittar på ålder och inkomst skulle univariata utdelare vara saker som en person som är 118 år gammal eller en som tjänade 12 miljoner dollar förra året. En multivariat-outlier skulle vara en 18-åring som tjänade 200 000 dollar. I det här fallet är varken ålder eller inkomst mycket extrem, men mycket få 18-åriga människor tjänar så mycket pengar. Outliers kan ha enorma effekter på regressionen. Du kan hantera detta problem genom att begära inflytningsstatistik från din statistiska programvara. Linjär regression antar att uppgifterna är oberoende. Det betyder att poängen för ett ämne (som en person) inte har något att göra med ett annat. Detta är ofta men inte alltid förnuftigt. Två vanliga fall där det inte är vettigt är kluster i rum och tid. Ett klassiskt exempel på kluster i rymden är studenttestresultat, när du har elever från olika klasser, betyg, skolor och skoldistrikt. Elever i samma klass tenderar att likna på många sätt, dvs de kommer ofta från samma grannskap, de har samma lärare osv. Således är de inte oberoende. Exempel på kluster i tid är alla studier där du mäter samma ämnen flera gånger. I en studie av kost och vikt kan du till exempel mäta varje person flera gånger. Dessa uppgifter är inte oberoende eftersom vad en person väger vid ett tillfälle är relaterat till vad han eller hon väger vid andra tillfällen. Ett sätt att hantera detta är med flernivåmodeller.
och en eller flera oberoende variabler, betecknade x
. Den beroende variabeln måste vara kontinuerlig, i det att den kan få valfritt värde eller åtminstone nära kontinuerligt. De oberoende variablerna kan vara av valfri typ. Även om linjär regression inte kan visa orsakssamband i sig påverkas den beroende variabeln vanligtvis av de oberoende variablerna.
Linjär regression är begränsad till linjära förhållanden.
Linjär regression Ser bara på medelvärdet av den beroende variabeln.
Linjär regression är känslig för utdelare.
Data måste vara oberoende.