Un’altra interessante applicazione della distribuzione di densità di probabilità del chi quadro è il test di indipendenza. Si tratta di un test utilizzato per verificare se due classificazioni diverse di uno stesso set di dati siano indipendenti tra loro. L’ipotesi nulla Hda verificare è che la distribuzione del set di dati rispetto ad una delle classificazioni sia quindi indipendente rispetto al secondo criterio di classificazione:

  • Ipotesi H0: i due criteri di classificazione sono indipendenti tra loro
  • H1: I due criteri sono in relazione tra loro.

Dato un set di dati e due criteri di classificazione X e Z, si definisce tabella di contingenza una tabella riportante i valori delle frequenze dei valori del set di dati rispetto alle diverse classi dei criteri X e Z.

Tabella di contingenza

Dove:

  • x1, x2 … xj sono le classi con le quali il set di dati è stato suddiviso secondo il criterio X
  • y1, y2 … yk sono le classi con le quali il set di dati è stato suddiviso secondo il criterio Y
  • fjk rappresenta la frequenza nel campione di dati afferente sia alla classe xj che alla classe yk
  • fj0 è la frequenza totale della classe xj
  • f0k è la frequenza totale della classe yk

Se l’ipotesi di indipendenza H0 fosse vera, la probabilità che un dato appartenga contemporaneamente alla classe j e alla classe k è dato dal prodotto delle probabilità che un dato appartenga alla classe j per il prodotto che un dato appartenga alla classe k:

Probabilità di due eventi indipendenti

In termini di frequenze, se H0 fosse vera, varrebbe la relazione:

formula frequenze teoriche

Quest’ultima relazione può essere considerata una buona approssimazione della frequenza teorica prevista nel caso di indipendenza tra i due criteri di classificazione. Se Hfosse vera, varrebbe per ogni j e k la relazione:

Criterio di indipendenza

e:
Formula funzione Y

converge ad una distribuzione chi quadro con g=(s-1)*(t-1) gradi di libertà. Fissato il livello di significatività α, la Hè accettata se:

Criterio per non rigettare H0

Esempio

Vediamo di seguito con un esempio l’applicazione del test di indipendenza ad un caso concreto. Si vuole verificare che non ci sia una dipendenza tra le fasce di età di un campione (che indicheremo con criterio X) e la preferenza tra 4 canali TV (che indicheremo con criterio Z):

Tabella preferenze

Per ciascuna cella si calcola la frequenza teorica come riportato sopra:

Frequenze attese

e successivamente tutte le componenti della sommatoria:

Funzione Y

 

da cui risulta un valore della funzione Y pari a 68,172.

Scelto un livello di significatività pari a 0,95 si calcola il valore del chi quadro teorico corrispondente ad una distribuzione densità di probabilità con 9 gradi di libertà (calcolato in excel con la funzione CHISQ.INV(9;0,95)). Nell’esempio Y è maggiore del chi quadro teorico. Si può quindi rigettare l’ipotesi He affermare che con un livello di significatività del 95% che i due criteri di classificazione non possono essere considerati indipendenti.

Puoi scaricare il file esempio al seguente link: test indipendenza

Test chi quadro o test di Pearson: indipendenza di due variabili
Tag:                                 
%d blogger hanno fatto clic su Mi Piace per questo: