Statistiker och forskare har ofta ett krav för att undersöka förhållandet mellan två variabler, ofta kallade x och y. Syftet med att testa två sådana variabler är vanligtvis att se om det finns någon koppling mellan dem, känd som en korrelation i vetenskapen. Till exempel kanske en forskare vill veta om timmar med exponering för sol kan kopplas till mängden hudcancer. För att matematiskt beskriva styrkan hos en korrelation mellan två variabler använder sådana utredare ofta R2.
Linjär regression |
Statistiker använder tekniken för linjär regression för att hitta den raka linjen som bäst passar en serie av x och y datapar. De gör detta genom en serie beräkningar som härleder ekvationen för den bästa linjen. Denna matematiska beskrivning av linjen kommer att vara en linjär ekvation och har den allmänna formen av y \u003d mx + b, där x och y är de två variablerna i dataparen, m är linjens lutning och b är dess y-skärning.
Korrelationskoefficient
Beräkningarna som hittar den bästa raka linjen kommer att producera en linjär ekvation för att passa alla uppsättningar av data, även om dessa data faktiskt inte är mycket linjära. För att ha en indikation på hur bra data faktiskt passar en rak linje, beräknar statistiker också ett nummer som kallas korrelationskoefficienten. Detta ges symbolen r eller R och är ett mått på hur nära parat dataparen är till den bästa raka linjen genom dem.
Betydelse av R
R kan ha valfritt värde mellan -1 och 1 Ett negativt värde på R betyder helt enkelt att den rätta linjen som passar bäst passar neråt och rör sig från vänster till höger, snarare än uppåt. Ju närmare R är antingen de två ytterligheterna, desto bättre är datapunkternas anpassning till linjen, med antingen -1 eller 1 är perfekt passform och ett R-värde på noll vilket betyder att det inte finns någon passning och punkterna är helt slumpmässigt. Om datapunkterna är väl anpassade till den raka linjen sägs det finnas en viss korrelation mellan dem, varför namnet korrelationskoefficient för R.
R2
Vissa statistiker föredrar att arbeta med värdet R2 , som helt enkelt är korrelationskoefficienten kvadrat, eller multiplicerad med sig själv, och är känd som bestämningskoefficienten. R2 är mycket lik R och beskriver också sambandet mellan de två variablerna, men det är också något annorlunda. Den mäter procenten av variationen i y-variabeln som kan hänföras till variationen i x-variabeln. Ett R2-värde på 0,9, till exempel, betyder att 90 procent av variationen i y-data beror på variation i x-datan. Detta betyder inte nödvändigtvis att x verkligen påverkar y, men att det verkar göra det.