Il test del goodness of fit o test di Pearson fa uso della distribuzione chi quadro per verificare la bontà con la quale un set di dati è descritto da una distribuzione ipotizzata. Esso può ad esempio essere un’alternativa ai normality test per la distribuzione gaussiana. Il test consiste nel confrontare le frequenze osservate con le frequenze teoriche previste dalla distribuzione ipotizzata. Tale confronto è effettuato utilizzando il quadrato degli scarti tra frequenze teoriche e osservate.

La funzione chi quadro è così definita:

goodness of fit: chi quadro

dove foi è la frequenza osservata, fis è la frequenza attesa dalla distribuzione ipotizzata per la i-esima classe.

Goodness of fit: variabili categoriche e continue

Generalmente il test del chi quadro per la goodness of fit viene utilizzato quando si ha a che fare con variabili categoriche (vedi ultimo paragrafo), ovvero variabili i cui valori sono suddivisi in classi mutualmente esclusive. Per variabili continue il test può essere eseguito dopo aver organizzato i dati in un istogramma delle frequenze. In quest’ultimo caso il risultato del test dipende fortemente dall’ampiezza degli intervalli ed è considerato rilevante se ogni gruppo ha almeno 5 dati o il numero di gruppi (o rettangoli) in cui i dati sono suddivisi è pari a 2n^(2/5) con n numero di dati.

Se nel generare l’istogramma, molti rettangoli contengono meno di 5 punti, solitamente si raggruppano in un unico rettangolo i dati alle code degli istogrammi fino a che questi raggiungono il numero di 5 punti.

La variabile chi quadro sopra definita segue una distribuzione di densità di probabilità chi quadro con ν-b gradi di libertà dove b è il numero di parametri conosciuti della distribuzione ipotizzata quali ad esempio la media, la deviazione standard o il parametro di forma.

Il test della goodness of fit utilizza un test di ipotesi per definire se i dati seguono la distribuzione teorica ipotizzata. Definita con H0 l’ipotesi che i dati campionati da una popolazione seguano una distribuzione (foi = fsi) e con H1 che ciò non sia vera e con p l’errore tollerato, H0 è rigettata se:

chi quadro teorico e calcolato

Facciamo un po’ di chiarezza con degli esempi di test di goodness of fit.

Test goodness of fit con variabili continue

Consideriamo il caso di un set di 9000 dati di un campione estratto da una popolazione. Per tale campione si ipotizza una variazione casuale dei dati rispetto alla media. L’ipotesi H0 consiste in una distribuzione normale con media 10 e deviazione standard pari a 1. Poiché i dati sono relativi ad una variabile continua occorre suddividere l’intero range di valori in intervalli. Nell’esempio che qui mostriamo, il test del chi quadro è stato eseguito 4 volte aumentando via via l’ampiezza degli intervalli e diminuendo il numero dei rettangoli. Di seguito i risultati ottenuti:

tabella riassuntiva chi quadro

nei 4 test eseguiti i gradi di libertà sono stati dimezzati di volta in volta fino ad arrivare ad un valore prossimo a 2n^(2/5) nel quarto test. In tutti e 4 i test il valore del chi quadro calcolato è minore del chi quadro teorico atteso per un livello di significatività dello 0,05. Inoltre, come prevedibile, in tutti e 4 i casi il valore del p-value è maggiore dell’errore tollerato. Per questo motivo l’ipotesi H0 non può essere rifiutata. Si ricordi che il p-value rappresenta la probabilità di ottenere un risultato uguale o più estremo a quello ottenuto ipotizzando l’ipotesi H0 vera. Un valore molto piccolo del p-value significa che è molto difficile ottenere una serie di dati più estrema di quella usata per eseguire il test di goodness of fit. Per questo motivo per valori del p-value minori dell’errore tollerato, l’ipotesi H0 è rigettata. nel caso del quarto test, la distribuzione teorica (normale) e quella ipotizzata hanno il seguente andamento:

goodness of fit: grafico confronto frequenze teoriche e frequenze osservate

Un valore inferiore di 2n^(2/5) classi, renderebbe meno significativo il test del chi quadro. Il valore del chi quadro infatti diminuisce al diminuire del numero di classi fino a giungere al valore limite di zero in caso in cui la classe sia unica. Si ricorda che in caso di variabili continue come nell’esempio sopra riportato, se la dimensione del campione non è sufficientemente grande, il test del chi quadro non può essere utilizzato.

Riassumiamo di seguito i passaggi del test goodness of fit:
  • Se la variabile è continua si divide l’intero range di dati, dal valore massimo al valore minimo, in intervalli uguali e mutualmente esclusivi. Ad ogni intervallo viene associato il numero di valori compresi nell’intervallo stesso. Se ci sono intervalli con meno di 5 dati si raggruppano gli intervalli alle code. Si suggerisce di usare la regola di 2n^(2/5) intervalli
  • Si ipotizza una distribuzione e si sceglie un livello di significatività del test (normalmente p=0,05).
  • Per ogni intervallo si calcola la frequenza teorica prevista dalla distribuzione ipotizzata
  • Si calcola il chi quadro osservato  secondo la formula riportata sopra
  • Il numero di gradi di libertà sarà dato dal numero di intervalli meno il numero di parametri conosciuti della distribuzione osservata. Nell’esempio riportato sopra sono stati usati 2 parametri (media 10 e st. dev. 1).
  • Il chi quadro teorico è calcolato utilizzando il parametro p scelto ed i gradi di libertà. In excel questo può essere fatto mediante la funzione CHISQ.INV(1-p; gradi di libertà)
  • Se il chi quadro calcolato è minore di quello teorico l’ipotesi H0 non può essere rigettata. Di conseguenza anche il p-value sarà maggiore dell’errore tollerato p. Il p-value è calcolato come l’area della distribuzione densità di probabilità per valori maggiori del chi quadro calcolato.



Di seguito il foglio di lavoro utilizzato per eseguire i calcoli chisquared example.

Test goodness of fit con variabili categoriche

L’uso più frequente del test del goodness of fit è con variabili nominali (o categoriche) indipendenti tra loro di cui si conosce la distribuzione di probabilità. Consideriamo ad esempio di lanciare 250 volte una moneta e di raccogliere i dati sulla faccia della moneta risultante a seguito del lancio. La distribuzione di probabilità (binomiale) per tale evento prevede che la probabilità che esca testa o che esca croce sia ugualmente del 50%. Per questo motivo la frequenza teorica a seguito di 250 lanci è di 125 eventi per la variabile testa e 125 per la variabile croce. In questo caso il test dell’ipotesi sarebbe:

H0: la moneta è equilibrata in quanto segue la probabilità attesa

H1: la moneta non è equilibrata.

Riportiamo in tabella i dati ottenuti:

Lancio moneta risultati.goodness of fit

Considerando un livello di significatività del 5% (p=0.05) si calcola il valore chi quadro dalla relativa distribuzione di densità di probabilità. In questo specifico caso il numero di gradi di libertà è dato dal numero totale di variabili nominali ( 2: testa o croce) meno 1. Questo accade perchè la probabilità teorica che esca croce non è indipendente dalla probabilità teorica che esca testa (pcroce = 1- ptesta).

Calcolo chi quadro

Poiché il chi quadro osservato è minore di quello teorico calcolato con un livello di significatività del 5% non è possibile rigettare l’ipotesi nulla H0.

Nel caso di variabili nominali se la dimensione del campione risulta molto piccola, il test del chi quadro potrebbe non fornire risultati attendibili. Nel caso come quello dell’esempio di un test di GOF con sole due variabili categoriche, si può utilizzare la correzione di Yates per eseguire il test.

 

Goodness of fit: test chi quadro o test di Pearson
Tag:                         
%d blogger hanno fatto clic su Mi Piace per questo: