Formule dei coefficienti di correlazione, calcolo, interpretazione, esempio

2274
Basil Manning

Il coefficiente di correlazione in statistica è un indicatore che misura la tendenza di due variabili quantitative X e Y ad avere una relazione lineare o proporzionale tra loro.

Generalmente, le coppie di variabili X e Y sono due caratteristiche della stessa popolazione. Ad esempio, X può essere l'altezza di una persona e Y il suo peso..

Figura 1. Coefficiente di correlazione per quattro coppie di dati (X, Y). Fonte: F. Zapata.

In questo caso, il coefficiente di correlazione indicherebbe se esiste o meno una tendenza verso una relazione proporzionale tra altezza e peso in una data popolazione..

Il coefficiente di correlazione lineare di Pearson è indicato dalla lettera r minuscolo e i suoi valori minimo e massimo sono rispettivamente -1 e +1. 

Un valore r = +1 indicherebbe che l'insieme di coppie (X, Y) è perfettamente allineato e che quando X cresce, Y crescerà nella stessa proporzione. D'altra parte, se fosse r = -1, anche l'insieme delle coppie sarebbe perfettamente allineato, ma in questo caso quando X aumenta, Y diminuisce nella stessa proporzione.

Figura 2. Diversi valori del coefficiente di correlazione lineare. Fonte: Wikimedia Commons.

D'altra parte, un valore di r = 0 indicherebbe che non esiste una correlazione lineare tra le variabili X e Y. Mentre un valore di r = +0,8 indicherebbe che le coppie (X, Y) tendono a raggrupparsi su un lato e un altro di una certa retta.

La formula per calcolare il coefficiente di correlazione r è la seguente:

Come calcolare il coefficiente di correlazione?

Il coefficiente di correlazione lineare è una quantità statistica che si trova nelle calcolatrici scientifiche, nella maggior parte dei fogli di calcolo e nei programmi statistici..

Conviene però sapere come viene applicata la formula che la definisce, e per questo verrà mostrato un calcolo dettagliato, effettuato su un piccolo set di dati.

E come si è detto nella sezione precedente, il coefficiente di correlazione è la covarianza Sxy divisa per il prodotto della deviazione standard Sx per le variabili X e Sy per la variabile Y.

Covarianza e varianza

La covarianza Sxy è:

Sxy = [Σ (Xi - ) (Yi - )] / (N-1)

Dove la somma va da 1 a N coppie di dati (Xi, Yi). e sono le medie aritmetiche dei dati Xi e Yi rispettivamente.

Da parte sua, la deviazione standard per la variabile X è la radice quadrata della varianza del set di dati Xi, con i da 1 a N:

Sx = √ [Σ (Xi - ) ^ 2) / (N-1)]

Allo stesso modo, la deviazione standard per la variabile Y è la radice quadrata della varianza del set di dati Yi, con i da 1 a N:

Sy = √ [Σ (Yi - )Due ) / (N-1)]

Caso illustrativo

Per mostrare in dettaglio come calcolare il coefficiente di correlazione, prenderemo il seguente insieme di quattro coppie di dati 

(X, Y): (1, 1); (2. 3); (3, 6) e (4, 7).

Per prima cosa calcoliamo la media aritmetica per X e Y, come segue:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Quindi vengono calcolati i parametri rimanenti:

Covarianza Sxy

Sxy = [(1 - 2.5) (1 - 4.25) + (2 - 2.5) (3 - 4.25) + (3 - 2.5) (6 - 4.25) +….…. (4 - 2.5) (7 - 4.25) ] / (4-1)

Sxy = [(-1,5) (- 3,25) + (-0,5) (- 1,25) + (0,5) (1,75) +… . 

…. (1,5) (2,75)] / (3) = 10,5 / 3 = 3.5

Deviazione standard Sx

Sx = √ [(-1,5)Due + (-0,5)Due + (0,5)Due + (1.5)Due) / (4-1)] = √ [5/3] = 1.29

Deviazione standard Sy

Sx = √ [(-3,25)Due + (-1,25)Due + (1,75)Due + (2,75)Due) / (4-1)] = 

√ [22,75 / 3] = 2.75

Coefficiente di correlazione r

r = 3,5 / (1,29 * 2,75) = 0.98

Interpretazione

Nel set di dati del caso precedente, si osserva una forte correlazione lineare tra le variabili X e Y, che si manifesta sia nel grafico a dispersione (mostrato in Figura 1) che nel coefficiente di correlazione, che ha restituito un valore abbastanza vicino all'unità.

Nella misura in cui il coefficiente di correlazione è più vicino a 1 o -1, più ha senso adattare i dati a una linea, il risultato della regressione lineare..

Regressione lineare

La linea di regressione lineare è ottenuta da Metodo dei minimi quadrati. in cui i parametri della retta di regressione sono ottenuti dalla minimizzazione della somma dei quadrati della differenza tra il valore Y stimato e lo Yi degli N dati.

D'altra parte, i parametri aeb della retta di regressione y = a + bx, ottenuti con il metodo dei minimi quadrati, sono:

* b = Sxy / (SxDue) Per la pendenza

* a = - b per l'intersezione della retta di regressione con l'asse Y..

Ricorda che Sxy è la covarianza definita sopra e SxDue è la varianza o il quadrato della deviazione standard definita sopra. e sono le medie aritmetiche dei dati X e Y rispettivamente.

Esempio

Il coefficiente di correlazione viene utilizzato per determinare se esiste una correlazione lineare tra due variabili. È applicabile quando le variabili da studiare sono quantitative e, inoltre, si assume che seguano una distribuzione di tipo normale..

Di seguito abbiamo un esempio illustrativo: una misura del grado di obesità è l'indice di massa corporea, che si ottiene dividendo il peso di una persona in chilogrammi per l'altezza al quadrato della stessa in unità di metri quadrati.

Vuoi sapere se esiste una forte correlazione tra l'indice di massa corporea e la concentrazione di colesterolo HDL nel sangue, misurata in millimoli per litro. A tal fine è stato realizzato uno studio con 533 persone, che è riassunto nel grafico seguente, in cui ogni punto rappresenta i dati di una persona.

Figura 3. Studio del BMI e del colesterolo HDL in 533 pazienti. Fonte: Istituto Aragonese di Scienze della Salute (IACS).

Un'attenta osservazione del grafico mostra che esiste un certo andamento lineare (non molto marcato) tra la concentrazione di colesterolo HDL e l'indice di massa corporea. La misura quantitativa di questa tendenza è il coefficiente di correlazione, che per questo caso è risultato essere r = -0,276.

Riferimenti

  1. González C. Statistiche generali. Estratto da: tarwi.lamolina.edu.pe
  2. IACS. Istituto Aragonese di Scienze della Salute. Estratto da: ics-aragon.com 
  3. Salazar C. e Castillo S. Principi di base della statistica. (2018). Recupero da: dspace.uce.edu.ec
  4. Superprof. Coefficiente di correlazione. Recupero da: superprof.es
  5. USAC. Manuale di statistica descrittiva. (2011). Estratto da: statistics.ingenieria.usac.edu.gt
  6. Wikipedia. Coefficiente di correlazione di Pearson. Estratto da: es.wikipedia.com.

Nessun utente ha ancora commentato questo articolo.