In questo appunto vediamo in cosa consiste il  “one way anova test”. Si tratta di un particolare test dell’ipotesi utilizzato per determinare se esiste una differenza statistica significativa tra le medie di tre o più gruppi di dati continui rispetto ad una categoria che li differenzia. In questo tipo di situazioni la categoria che differenzia i gruppi di dati è la variabile indipendente mentre i dati continui rappresentano la variabile dipendente.

Il one way anova test utilizza l’analisi delle varianza (ANalaysis Of VAriances) per determinare eventuali differenze statistiche tra le medie di più gruppi di dati. In questo appunto procederemo con la descrizione del particolare test di ipotesi che questo metodo consente di verificare e poi delle condizioni che devono essere verificate affinché sia possibile utilizzare questo test.

Test di ipotesi di un “one way anova test”

L’one way anova test è un test di ipotesi che accetta o rigetta l’ipotesi nulla:

H0 : tutte le medie sono uguali o µ1= µ2= µ3=… µn

e dove l’ipotesi alternativa H1 le medie non sono tutte statisticamente uguali. Dato n gruppi di dati, il test di anova consente di determinare se almeno una delle n medie sia statisticamente differente dalle altre. Attenzione! Il test di anova non dice però quale delle medie sia diversa statisticamente dalle altre. Esso consente di determinare solo se tutte le medie sono uguali statisticamente oppure no.

Per capire quali sono le medie che sono statisticamente differenti dalle altre si potrebbe procedere con dei t test multipli. Tuttavia ciascun t-test porta con se una incertezza definita dagli errori di tipo 1 e di tipo 2 che possono verificarsi nel test di due medie. Nell’eseguire un certo numero di test consecutivi, la possibilità di errore si accumula rendendo il meccanismo di test multipli soggetto ad errori non trascurabili. Nel one way anova test, invece, pur confrontando più gruppi di dati contemporaneamente, l’errore del test si mantiene basso in base al livello di significatività α scelto.

Statistica alla base di un one way anova test

In questo appunto non vedremo a fondo la matematica di un one way anova test. Ci limitiremo a dire che esso utilizza la statistica F che si basa sull’omonima distribuzione.

Tale distribuzione introdotta da Fischer Snedecor è data dal rapporto di due distribuzioni chi quadro indipendenti tra loro e normalizzate rispetto al proprio numero di gradi di libertà. Nel caso specifico di un one way anova test, le due funzioni chi quadro esprimono rispettivamente la variabilità tra i gruppi di dati e la variabilità dell’intero insieme dei dati a disposizione. Tali variabilità sono espresse in termini di somme quadratiche SSB e SSW.

SSW e SSB

SSW (squared sum within groups) è la somma delle variazioni esistenti tra i singoli gruppi. Dati n gruppi di dati:

SSW = SS1 +SS2 +SS3 + —+SSn

Dove ciascuna somma quadratica SS è data da:

one way anova test: somma quadratica

Per cui SSW è data da:

one way anova test: somma quadratica all'interno dei gruppi

La SSW è una funzione indicativa di quanta variazione c’è all’interno dei gruppi di dati a disposizione. Una SSW troppo grande è indice di uno o più gruppi estremamente dispersi. Questa funzione è caratterizzata da un certo numero di gradi di libertà. Poiché sono confrontate N osservazioni su n valori medi il numero di gradi di libertà sarà dato da N-n. Se avessimo a che fare con n gruppi tutti della stessa dimensione m, allora il numero di gradi di libertà N-n coinciderebbe con n(m-1).

La SSB (squared sum between groups, somma quadratica tra i gruppi)  è invece la somma quadratica delle differenze della media di ciascun gruppo con la media delle medie dei gruppi. Essa è indicativa della dispersione delle medie dei gruppi rispetto alla media totale:

one way anova test: somma quadratica tra i gruppi

Per come è definita SSB, i suoi gradi di libertà sono n-1 dove n sono i gruppi a disposizione ed indipendenti tra di loro e 1 è la media totale.

SSB e SSW contribuiscono entrambe alla TSS (total sum of squared):

TSS = SSW + SSB

La TSS tiene conto quindi di entrambi i tipi di dispersione: dispersione tra i gruppi e dispersione all’interno del gruppo.

Funzione F in funzione di SSB e SSW

 Abbiamo detto che la F statistics si basa sul rapporto di due funzioni chi quadro e che una funzione chi quadro è data dal rapporto di una funzione quadratica come SSW e SSB rispetto ai propri gradi di libertà. Nel caso di un one way anova test, la variabile F sarà data da.

one way anova test: Statistica F

Dove:

one way anova test: medie quadratiche

S2B e s2W sono delle medie quadratiche (media quadratica tra i campioni e media quadratica nei campioni). La funzione F così definita è una funzione che aumenta il suo valore quando la variazione tra i gruppi è maggiore della variazione all’interno dei gruppi. Se nell’eseguire il test dell’ipotesi il valore della variabile F calcolata dal rapporto di S2B e s2W ad un determinato livello di confidenza supera i valori tabulati per quel livello di confidenza e per i gradi di libertà n(m-1) e n-1 allora l’ipotesi dovrà essere rigettata. Ciò avviene perché il p-value sarà minore del livello di significatività scelto e quindi la probabilità di ottenere una distribuzione di gruppi ancora più estrema di quella in studio è molto bassa.

Ad esempio immaginiamo di avere a disposizione 5 gruppi di dati ognuno caratterizzato da 6 dati. I gradi di libertà di SSB saranno 4 mentre i gradi di libertà di SSW saranno 29. La F distribution per tali gradi di libertà sarà:

one way anova test: funzione F

Oltre un valore di F maggiore di 2,8 l’ipotesi H0 dovrà essere rigettata in quanto la probabilità di avere una variabilità tra gruppi maggiore di quella osservata è minore del 5%.

Il one way anova test riporta tutte queste informazioni in una tabella finale:

Condizioni per applicare un one way anova test

Il test di Anova può essere utilizzato solo se si verificano determinate condizioni:

  • I gruppi di dati devono essere normalmente distribuiti. In realtà il test di anova riesce a sopportare anche piccoli scostamenti dalla normalità senza avere grossi effetti sulla possibilità di commettere errori di tipo 1. In caso i dati presentassero forti scostamenti da un andamento gaussiano o non dovesse essere possibile trasformarli come tali si deve utilizzare un test diverso come il Kruskal-Wallis H test.
  • I gruppi di dati devono essere indipendenti tra di loro. Questa condizione è necessaria per poter eseguire il test di ipotesi.
  • Omogeneità delle varianze dei gruppi sottoposti a test. Questo vuol dire che le varianze delle popolazioni a cui i gruppi appartengono devono essere uguali tra di loro. In caso di dubbi sulla possibilità che le varianze possano essere diverse tra di loro è possibile eseguire un test delle varianza (Levene’s test). Se le varianze sono diverse occorre utilizzare altri test per testare l’ipotesi nulla (Tukey HSD test).

 

One Way Anova Test
Tag:                                 
%d blogger hanno fatto clic su Mi Piace per questo: