Statistiker och forskare har ofta krav på att undersöka förhållandet mellan två variabler, vanligtvis kallade x och y. Syftet med att testa några två sådana variabler är vanligtvis att se om det finns någon länk mellan dem, känd som ett samband i vetenskapen. Till exempel kanske en forskare vill veta om timmar av solexponering kan kopplas till hudcancer. För att matematiskt beskriva styrkan i en korrelation mellan två variabler använder sådana utredare ofta R2.
Linjär regression
Statistiker använder tekniken för linjär regression för att hitta den raka linjen som bäst passar en serie x och y datapar. De gör det genom en serie beräkningar som härleder ekvationen för den bästa linjen. Denna matematiska beskrivning av linjen kommer att vara en linjär ekvation och ha den allmänna formen av y = mx + b, där x och y är de två variablerna i datapar, m är lutningen av linjen och b är dess y-avlyssning.
Korrelationskoefficient
Beräkningarna som hittar den bästa raka linjen kommer att producera en linjär ekvation som passar alla data, även om data inte är faktiskt mycket linjära. För att få en indikation på hur väl dataen faktiskt passar en rak linje, beräknar statistiker också ett nummer som kallas korrelationskoefficienten. Detta ges symbolen R eller R och är ett mått på hur nära varandra justerade dataparet är den bästa raklinjen genom dem.
Betydelsen av R
R kan ha något värde mellan - 1 och 1. Ett negativt värde av R betyder helt enkelt att den bäst passande raka linjen snäver nedåt, rör sig från vänster till höger, snarare än uppåt. Ju närmare R är antingen av de två ytterligheterna, ju bättre passar datapunkterna till linjen, med antingen -1 eller 1 som en perfekt passform och ett R-värde på noll vilket betyder att det inte finns någon passform och punkterna är helt slumpmässigt. Om datapunkterna är väl inriktade på rak linje, sägs det finnas någon korrelation mellan dem, följaktligen namnskorrelationskoefficienten för R.
R2
Vissa statistiker föredrar att arbeta med värdet av R2, vilket helt enkelt är korrelationskoefficienten kvadrerad eller multiplicerad med sig själv och är känd som bestämningskoefficienten. R2 är mycket lik R och beskriver även korrelationen mellan de två variablerna, men det är också något annorlunda. Det mäter procenten av variationen i y-variabeln som kan hänföras till variationen i x-variabeln. Ett R2-värde av 0,9 betyder till exempel att 90 procent av variationen i y-data beror på variation i x-data. Detta betyder inte nödvändigtvis att x verkligen påverkar y, men att det verkar vara så