In questo appunto vediamo quali sono i metodi statistici più utilizzati per confrontare più di due gruppi di dati continui. Se vuoi tornare indietro all’inizio del percorso di scelta del test statistico clicca il seguente link.

2 sample test: perché non è conveniente usarli

Prima di elencare i test più utilizzati per l’analisi di più di due gruppi di dati è opportuno  fare una precisazione. Non è conveniente eseguire un confronto tra più di due gruppi di dati continui utilizzando ripetutamente i 2 sample test elencati nel seguente articolo. Immaginiamo infatti di voler eseguire un confronto tra tre gruppi A,B e C mediante un t-test. In questo caso sarebbe necessario eseguire più confronti e rispettivamente tra:

gruppo A e B, A e C, B e C

quindi sarebbe necessario eseguire tre test. Se ogni test viene eseguito fissando un livello di significatività di 0,05 , la probabilità di commettere un errore di tipo 1 sull’ipotesi iniziale sarà data da 1-(0,95)*(0,95)*(0,95) = 1-0,85=0,15. Questo valore aumenta all’aumentare del numero di gruppi da confrontare. Si potrebbe pensare allora di diminuire il valore di alpha a 0,01. Ricordiamo però che diminuire il valore di alpha aumenta beta e quindi la probabilità di commettere un errore di tipo 2 (falso negativo) su ciascun test (vedi appunto test di ipotesi).

Vediamo nel paragrafo seguente quali sono i test più utilizzati per confrontare più di due gruppi di dati continui.

Metodi per confrontare più di due gruppi di dati continui

Confrontare contemporaneamente più di due gruppi di dati continui vuol eseguire un test dell’ipotesi dove l’ipotesi nulla H0 è definita da:

confrontare più di due gruppi di dati continui: test ipotesi

Vediamo nel seguito quali sono i metodi più utilizzati per confrontare più di due gruppi di dati continui:

  • One way anova test: si tratta di un metodo statistico molto simile al t-test ma che a differenza di questo consente di confrontare simultaneamente la media di più di due gruppi di dati continui. Questo tipo di test può essere utilizzato solo quando i gruppi da confrontare si distribuiscono normalmente o secondo una distribuzione che si discosta poco da una distribuzione normale. Un altro requisito è che i campioni siano totalmente casuali ed al contempo siano indipendenti tra di loro. La presenza di “one way” all’interno del nome del test indica che con questo test si possono confrontare diversi gruppi rispetto ad un singolo parametro. Ad esempio il one way anova test potrebbe essere usato per rispondere alla domanda: considerando il peso di n alunni di una scuola, la distribuzione di peso è diversa a seconda del quartiere di provenienza? La variabile dipendente del one way anova test è una variabile continua (peso) mentre la variabile indipendente è categorica (quartiere di provenienza):
confrontare più di due gruppi di dati continui: one way anova test
  • 2 way anova test. I requisiti per applicare questo metodo sono del tutto simili a quelli appena esposti per il one way anova test. La differenza sta nel fatto che il confronto tra i gruppi viene contemporaneamente eseguito per due categorie diverse. Es. sia a seconda del sesso che del quartiere di provenienza. Questo tipo di test consente non solo di verificare se le distribuzioni sono uguali per qualsiasi valore delle variabili categoriche, ma consente anche di capire se ci sono delle interazioni tra tali variabili.
  • Kruskal- Wallis test: Si tratta ancora di un test che consente di confrontare tre o più gruppi di dati continui mediante il confronto tra le mediane. A differenza dell’anova test questo viene utilizzato quando la distribuzione normale non approssima bene la distribuzione dei dati a nostra disposizione risultando in una deviazione importante dalla normale. Per eseguire questo test si esegue una classificazione dei dati in ranghi.
  • Q test di Cochran: utilizzato quando si hanno n campioni dipendenti

Se a seguito di tali test,  l’ipotesi H0 è confutata, allora almeno una delle medie è diversa dalle altre in modo significativo. Tuttavia i test sopra descritti non consentono di capire quale media sia diversa dalle altre. In questi casi si procede con test specifici (come il Tukey range test o HSD (Honesty Significance Difference).

Step 3: come confrontare più di due gruppi di dati continui
Tag:                             
%d blogger hanno fatto clic su Mi Piace per questo: