Coefficiente di determinazione formule, calcolo, interpretazione, esempi

3518
Alexander Pearson
Coefficiente di determinazione formule, calcolo, interpretazione, esempi

Il coefficiente di determinazione è un numero compreso tra 0 e 1 che rappresenta la frazione di punti (X, Y) che seguono la linea di adattamento della regressione di un insieme di dati con due variabili.

È anche conosciuto come bontà di adattamento ed è indicato con RDue. Per calcolarlo si prende il quoziente tra la varianza dei dati Ŷi stimata dal modello di regressione e la varianza dei dati Yi corrispondente a ciascun Xi dei dati.

RDue = Sŷ / Sy

Figura 1. Coefficiente di correlazione per quattro coppie di dati. Fonte: F. Zapata.

Se il 100% dei dati si trova sulla linea della funzione di regressione, il coefficiente di determinazione sarà 1.

Al contrario, se per un insieme di dati e una certa funzione di aggiustamento il coefficiente RDue risulta essere pari a 0,5, quindi si può dire che l'adattamento è soddisfacente o buono al 50%. 

Allo stesso modo, quando il modello di regressione restituisce valori di RDue inferiore a 0,5, indica che la funzione di regolazione scelta non si adatta in modo soddisfacente ai dati, quindi è necessario cercare un'altra funzione di regolazione.

E quando il covarianza o il coefficiente di correlazione tende a zero, quindi le variabili X e Y nei dati non sono correlate e quindi RDue tenderà anche a zero.

Indice articolo

  • 1 Come calcolare il coefficiente di determinazione?
    • 1.1 Caso illustrativo
  • 2 Interpretazione
  • 3 esempi
    • 3.1 - Esempio 1
    • 3.2 - Esempio 2
    • 3.3 - Esempio 3
    • 3.4 Confronto tra adattamenti
    • 3.5 Conclusioni
  • 4 Riferimenti

Come calcolare il coefficiente di determinazione?

Nella sezione precedente si è detto che il coefficiente di determinazione si calcola trovando il quoziente tra le varianze:

-Stimato dalla funzione di regressione della variabile Y 

-Quella della variabile Yi corrispondente a ciascuna delle variabili Xi delle N coppie di dati. 

Detto matematicamente, assomiglia a questo:

RDue = Sŷ / Sy

Da questa formula segue che RDue rappresenta la proporzione di varianza spiegata dal modello di regressione. In alternativa, è possibile calcolare R.Due utilizzando la seguente formula, del tutto equivalente alla precedente:

RDue = 1 - (Sε / Sy)

Dove Sε rappresenta la varianza dei residui εi = Ŷi - Yi, mentre Sy è la varianza dell'insieme dei valori Yi dei dati. Per determinare Ŷi si applica la funzione di regressione, il che significa affermare che Ŷi = f (Xi).

La varianza del set di dati Yi, con i da 1 a N, viene calcolata come segue:

Sy = [Σ (Yi - )Due ) / (N-1)]

E poi procedere in modo simile per Sŷ o per Sε.

Caso illustrativo

Al fine di mostrare il dettaglio di come il calcolo del coefficiente di determinazione prenderemo il seguente insieme di quattro coppie di dati: 

(X, Y): (1, 1); (2. 3); (3, 6) e (4, 7).

Per questo set di dati viene proposto un adattamento di regressione lineare, ottenuto utilizzando il metodo dei minimi quadrati:

f (x) = 2,1 x - 1 

Applicando questa funzione di regolazione si ottengono le coppie:

(X, Ŷ): (1, 1.1); (2, 3.2); (3, 5.3) e (4, 7.4).

Quindi calcoliamo la media aritmetica per X e Y:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Varianza Sy

Sy = [(1 - 4,25)Due + (3 - 4,25)Due + (6 - 4,25)Due +….…. (7 - 4.25)Due] / (4-1) =

= [(-3,25)Due+ (-1,25)Due + (1,75)Due + (2,75)Due) / (3)] = 7.583

Varianza Sŷ

Sŷ = [(1,1 - 4,25)Due + (3,2 - 4,25)Due + (5,3 - 4,25)Due +….…. (7.4 - 4.25)Due] / (4-1) =

= [(-3,25)Due + (-1,25)Due + (1,75)Due + (2,75)Due) / (3)] = 7,35

Coefficiente di determinazione RDue

RDue = Sŷ / Sy = 7,35 / 7,58 = 0,97

Interpretazione

Il coefficiente di determinazione per il caso illustrativo considerato nel segmento precedente è risultato pari a 0,98. In altre parole, la regolazione lineare tramite la funzione:

 f (x) = 2,1x - 1

È affidabile al 98% nello spiegare i dati con cui è stato ottenuto utilizzando il metodo dei minimi quadrati.. 

Oltre al coefficiente di determinazione, c'è il coefficiente di correlazione lineare o noto anche come coefficiente di Pearson. Questo coefficiente, indicato come r, è calcolato dalla seguente relazione:

r = Sxy / (Sx Sy)

Qui il numeratore rappresenta la covarianza tra le variabili X e Y, mentre il denominatore è il prodotto della deviazione standard per la variabile X e la deviazione standard per la variabile Y.

Il coefficiente di Pearson può assumere valori compresi tra -1 e +1. Quando questo coefficiente tende a +1 c'è una correlazione lineare diretta tra X e Y. Se invece tende a -1, c'è una correlazione lineare ma quando X aumenta Y diminuisce. Infine, è vicino a 0 non c'è correlazione tra le due variabili.

Va notato che il coefficiente di determinazione coincide con il quadrato del coefficiente di Pearson, solo quando il primo è stato calcolato in base a un adattamento lineare, ma questa uguaglianza non è valida per altri raccordi non lineari..

Esempi

- Esempio 1

Un gruppo di studenti delle scuole superiori si è proposto di determinare una legge empirica per il periodo di un pendolo in funzione della sua lunghezza. Per raggiungere questo obiettivo, effettuano una serie di misure in cui misurano il tempo di oscillazione del pendolo per diverse lunghezze ottenendo i seguenti valori:

Lunghezza (m) Periodo / i
0.1 0.6
0.4 1.31
0.7 1.78
1 1.93
1.3 2.19
1.6 2.66
1.9 2.77
3 3.62

È richiesto di creare un grafico a dispersione dei dati ed eseguire un adattamento lineare tramite la regressione. Inoltre, mostra l'equazione di regressione e il suo coefficiente di determinazione.

Soluzione

Figura 2. Grafico della soluzione per l'esercizio 1. Fonte: F. Zapata.

Si può osservare un coefficiente di determinazione abbastanza alto (95%), quindi si potrebbe pensare che l'adattamento lineare sia ottimale. Tuttavia, se i punti vengono visualizzati insieme, sembra che abbiano la tendenza a curvarsi verso il basso. Questo dettaglio non è contemplato nel modello lineare.

- Esempio 2

Per gli stessi dati dell'esempio 1, crea un grafico a dispersione dei dati. In questa occasione, a differenza dell'esempio 1, viene richiesto un aggiustamento della regressione utilizzando una funzione potenziale.

Figura 3. Grafico della soluzione per l'esercizio 2. Fonte: F. Zapata.

Mostra anche la funzione di adattamento e il suo coefficiente di determinazione RDue.

Soluzione

La funzione potenziale è della forma f (x) = AxB, dove A e B sono costanti determinate dal metodo dei minimi quadrati.

La figura precedente mostra la funzione potenziale ed i suoi parametri, nonché il coefficiente di determinazione con un valore molto alto del 99%. Si noti che i dati seguono la curvatura della linea di tendenza.

- Esempio 3

Utilizzando gli stessi dati dell'Esempio 1 e dell'Esempio 2, eseguire un adattamento polinomiale di secondo grado. Mostra grafico, polinomio di adattamento e coefficiente di determinazione RDue corrispondente.

Soluzione

Figura 4. Grafico della soluzione per l'esercizio 3. Fonte: F. Zapata.

Con l'adattamento polinomiale di secondo grado, puoi vedere una linea di tendenza che si adatta bene alla curvatura dei dati. Inoltre, il coefficiente di determinazione è al di sopra dell'adattamento lineare e al di sotto dell'adattamento potenziale..

Confronto in forma

Dei tre adattamenti mostrati, quello con il coefficiente di determinazione più elevato è l'adattamento potenziale (esempio 2).

L'adattamento potenziale coincide con la teoria fisica del pendolo, la quale, come è noto, stabilisce che il periodo di un pendolo è proporzionale alla radice quadrata della sua lunghezza, la costante di proporzionalità essendo 2π / √g dove g è l'accelerazione di gravità.

Questo tipo di adattamento potenziale non solo ha il coefficiente di determinazione più alto, ma l'esponente e la costante di proporzionalità corrispondono al modello fisico.. 

Conclusioni

-L'adattamento di regressione determina i parametri della funzione destinata a spiegare i dati utilizzando il metodo dei minimi quadrati. Questo metodo consiste nel ridurre al minimo la somma della differenza al quadrato tra il valore Y della regolazione e il valore Yi dei dati per i valori Xi dei dati. Determina i parametri della funzione di regolazione.

-Come abbiamo visto, la funzione di aggiustamento più comune è la retta, ma non è l'unica, poiché gli aggiustamenti possono essere anche polinomiali, potenziali, esponenziali, logaritmici e altri.. 

-In ogni caso il coefficiente di determinazione dipende dai dati e dal tipo di adattamento ed è indice della bontà dell'adattamento applicato..

-Infine, il coefficiente di determinazione indica la percentuale di variabilità totale tra il valore Y dei dati rispetto al valore Ŷ dell'adattamento per la data X.

Riferimenti

  1. González C. Statistiche generali. Estratto da: tarwi.lamolina.edu.pe
  2. IACS. Istituto Aragonese di Scienze della Salute. Estratto da: ics-aragon.com
  3. Salazar C. e Castillo S. Principi di base della statistica. (2018). Recupero da: dspace.uce.edu.ec
  4. Superprof. Coefficiente di determinazione. Recupero da: superprof.es
  5. USAC. Manuale di statistica descrittiva. (2011). Estratto da: statistics.ingenieria.usac.edu.gt.
  6. Wikipedia. Coefficiente di determinazione. Estratto da: es.wikipedia.com.

Nessun utente ha ancora commentato questo articolo.