Il Mann-Whitney U test Viene applicato per il confronto di due campioni indipendenti quando hanno pochi dati o non seguono una distribuzione normale. In questo modo, è considerato un test non parametrico, A differenza della sua controparte, il Test t di Student, che viene utilizzato quando il campione è abbastanza grande e segue la distribuzione normale.
Frank Wilcoxon lo propose per la prima volta nel 1945, per campioni di dimensioni identiche, ma due anni dopo fu esteso per il caso di campioni di dimensioni diverse da Henry Mann e D. R. Whitney.
Il test viene spesso applicato per verificare se esiste una relazione tra una variabile qualitativa e una quantitativa.
Un esempio illustrativo è prendere un gruppo di persone ipertese ed estrarre due gruppi, dai quali vengono registrati i dati giornalieri della pressione sanguigna per un mese.
Il trattamento A viene applicato a un gruppo e il trattamento B. Qui la pressione sanguigna è la variabile quantitativa e il tipo di trattamento è quello qualitativo..
Vogliamo sapere se la mediana, e non la media, dei valori misurati è statisticamente uguale o diversa, per stabilire se c'è una differenza tra i due trattamenti. Per ottenere la risposta, viene applicata la statistica di Wilcoxon o il test U di Mann-Whitney..
Indice articolo
Un altro esempio in cui è possibile applicare il test è il seguente:
Supponi di voler sapere se il consumo di bevande analcoliche differisce in modo significativo in due regioni del paese.
Uno di loro è chiamato regione A e l'altro regione B. Viene tenuto un registro dei litri consumati settimanalmente in due campioni: uno di 10 persone per la regione A e un altro di 5 persone per la regione B.
I dati sono i seguenti:
-Regione A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Regione B: 12,14, 11, 30, 10
Sorge la seguente domanda:
Il consumo di bevande analcoliche (Y) dipende dalla regione (X)?
-Variabile qualitativa X: Regione
-Variabile quantitativa Y: Consumo di soda
Se la quantità di litri consumati è la stessa in entrambe le regioni, la conclusione sarà che non c'è dipendenza tra le due variabili. Il modo per scoprirlo è confrontare la tendenza media o mediana per le due regioni.
Se i dati seguono una distribuzione normale si sollevano due ipotesi: la null H0 e l'alternativa H1 attraverso il confronto tra le medie:
-H0: non c'è differenza tra la media delle due regioni.
-H1: le medie di entrambe le regioni sono diverse.
Al contrario, se i dati non seguono una distribuzione normale o il campione è semplicemente troppo piccolo per conoscerlo, invece di confrontare la media, verrebbe confrontato la mediana delle due regioni.
-H0: non c'è differenza tra la mediana delle due regioni.
-H1: le mediane di entrambe le regioni sono diverse.
Se le mediane coincidono, allora l'ipotesi nulla è soddisfatta: non c'è relazione tra il consumo di bibite e la regione.
E se accade il contrario, è vera l'ipotesi alternativa: c'è una relazione tra consumo e territorio.
È per questi casi in cui è indicato il test U di Mann-Whitney..
La prossima domanda importante per decidere se applicare il test U di Mann Whitney è se il numero di dati in entrambi i campioni è identico, vale a dire che sono alla pari..
Se i due campioni sono accoppiati, si applicherebbe la versione originale di Wilcoxon. In caso contrario, come nel caso dell'esempio, viene applicato il test di Wilcoxon modificato, che è precisamente il test U di Mann Whitney..
Il test Mann - Whitney U è un test non parametrico, applicabile a campioni che non seguono la distribuzione normale o con pochi dati. Ha le seguenti caratteristiche:
1.- Confronta le mediane
2.- Funziona su gamme ordinate
3.- È meno potente, essendo inteso dal potere la probabilità di rifiutare l'ipotesi nulla quando è effettivamente falsa.
Tenendo conto di queste caratteristiche, il test Mann-Whitney U viene applicato quando:
-I dati sono indipendenti
-Non seguono la distribuzione normale
-L'ipotesi nulla H0 è accettata se le mediane dei due campioni coincidono: Ma = Mb
-L'ipotesi alternativa H1 è accettata se le mediane dei due campioni differiscono: Ma ≠ Mb
La variabile U è la statistica di contrasto utilizzata nel test di Mann - Whitney ed è definita come segue:
U = min (Ua, Ub)
Ciò significa che U è il più piccolo dei valori tra Ua e Ub, applicato a ciascun gruppo. Nel nostro esempio sarebbe per ciascuna regione: A o B.
Le variabili Ua e Ub vengono definite e calcolate secondo la seguente formula:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Qui i valori Na e Nb sono le dimensioni dei campioni corrispondenti alle regioni A e B rispettivamente e da parte loro, Ra e Rb sono le somme di rango che definiremo di seguito.
1.- Ordinare i valori dei due campioni.
2.- Assegna un ranking dell'ordine a ciascun valore.
3.- Correggere le legature esistenti nei dati (valori ripetuti).
4.- Calcola Ra = Somma degli intervalli del campione A.
5.- Trova Rb = Somma dei ranghi del campione B.
6.- Determinare il valore Ua e Ub, secondo le formule fornite nella sezione precedente.
7.- Confronta Ua e Ub, e il più piccolo dei due viene assegnato alla statistica U sperimentale (cioè dei dati) che viene confrontata con la statistica U teorica o normale.
Applichiamo ora il suddetto al problema dei soft drink sollevato in precedenza:
Regione A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Regione B: 12,14, 11, 30, 10
A seconda che le medie di entrambi i campioni siano statisticamente uguali o diverse, l'ipotesi nulla viene accettata o rifiutata: non c'è relazione tra le variabili Y e X, ovvero il consumo di bibite non dipende dalla regione:
H0: Ma = Mb
H1: Ma ≠ Mb
Si procede ad ordinare i dati congiuntamente per i due campioni, ordinando i valori dal più basso al più alto:
Notare che il valore 11 appare 2 volte (una volta in ogni campione). Originariamente ha posizioni o intervalli 3 e 4, ma per non sovrastimare o sottovalutare l'uno o l'altro, come intervallo viene scelto il valore medio, ovvero 3.5.
Allo stesso modo, procediamo con il valore 12, che viene ripetuto tre volte con intervalli 5, 6 e 7.
Bene, al valore 12 viene assegnato l'intervallo medio di 6 = (5 + 6 + 7) / 3. E lo stesso per il valore 14, che ha la legatura (appare in entrambi i campioni) nelle posizioni 8 e 9, gli viene assegnato il range medio 8.5 = (8 + 9) / 2.
Successivamente, i dati per la regione A e B vengono nuovamente separati, ma ora i loro intervalli corrispondenti vengono assegnati loro in un'altra riga:
Gli intervalli Ra e Rb sono ottenuti dalle somme degli elementi della seconda riga per ogni caso o regione.
Vengono calcolati i rispettivi valori Ua e Ub:
Ua = 10 × 5 + 10 (10 + 1) / 2-86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2-34 = 31
Valore sperimentale U = min (19, 31) = 19
Si assume che la U teorica segua una distribuzione normale N con parametri dati esclusivamente dalla dimensione dei campioni:
N ((na⋅nb) / 2, √ [na nb (na + nb +1) / 12])
Per confrontare la variabile U ottenuta sperimentalmente, con la U teorica è necessario cambiare la variabile. Si passa dalla variabile sperimentale U al suo valore tipizzato, che verrà chiamato Z, per poter fare il confronto con quello di una distribuzione normale standardizzata.
Il cambio di variabile è il seguente:
Z = (U - nd.nb / 2) / √ [nd. nb (na + nb + 1) / 12]
Si noti che per il cambio di variabile sono stati utilizzati i parametri della distribuzione teorica per U. Quindi la nuova variabile Z, che è un ibrido tra U teorica e U sperimentale, viene contrapposta a una distribuzione normale standardizzata N (0 , 1).
Se Z ≤ Zα ⇒ l'ipotesi nulla H0 è accettata
Se Z> Zα ⇒ l'ipotesi nulla H0 viene rifiutata
I valori critici Zα standardizzati dipendono dal livello di fiducia richiesto, ad esempio, per un livello di confidenza α = 0,95 = 95%, che è il più comune, il valore critico Zα = 1,96.
Per i dati qui riportati:
Z = (U - nd nb / 2) / √ [nd nb (nd + nb + 1) / 12] = -0,73
Che è al di sotto del valore critico 1,96.
Quindi la conclusione finale è che l'ipotesi nulla H0 è accettata:
Non c'è differenza nel consumo di bevande analcoliche tra le regioni A e B.
Esistono programmi specifici per i calcoli statistici, tra cui SPSS e MINITAB, ma questi programmi sono a pagamento e il loro utilizzo non è sempre facile. Ciò è dovuto al fatto che offrono così tante opzioni, che praticamente il loro utilizzo è riservato agli esperti in Statistica..
Fortunatamente, ci sono diversi programmi online molto precisi, gratuiti e facili da usare che ti consentono di eseguire il test U Mann-Whitney, tra gli altri..
Questi programmi sono:
-Social Science Statistics (socscistatistics.com), che ha sia il test U Mann-Whitney che il test Wilcoxon per il caso di campioni bilanciati o accoppiati.
-AI Therapy Statistics (ai-therapy.com), che ha molti dei soliti test di statistica descrittiva.
-Statistica da usare (physics.csbsju.edu/stats), una delle più vecchie, quindi la sua interfaccia potrebbe sembrare datata, sebbene sia comunque un programma gratuito molto efficiente.
Nessun utente ha ancora commentato questo articolo.