Si continua la descrizione delle distribuzioni di densità di probabilità con la distribuzione della funzione χ2 (chi quadro). Si tratta di una distribuzione chiave in quanto molto utilizzata in analisi statistica (vedi test del chi quadro). Tale distribuzione descrive l’andamento della somma dei quadrati di ν variabili aleatorie indipendenti caratterizzate da una distribuzione di densità di probabilità normale standard con media 0 e varianza pari ad 1.

Prima di descrivere le caratteristiche di tale distribuzione nei paragrafi successivi si vedrà in che modo il grafico di tale distribuzione varia al variare del valore ν (numero di variabili aleatorie) detto anche numero di gradi di libertà della funzione. Nel prossimo paragrafo si estrae la distribuzione chi quadro per il caso più semplice in cui ν=1.

Caso 1 ν=1

Il caso più semplice è la distribuzione chi quadro con un solo grado di libertà ν=1. Essa è semplicemente definita come il quadrato di una variabile aleatoria x con distribuzione normale standard di densità di probabilità. Ciò significa che:

la funzione chi quadro con un grado di libertà risulta quindi una parabola. L’obiettivo è ottenere la distribuzione di densità di probabilità per la funzione chi quadro.

Si ricorda che la distribuzione di densità di probabilità della variabile x è una curva a campana:

Distribuzione gaussiana standars

Scelto un intervallo di valori per la variabile x, la probabilità che la variabile assuma un valore all’interno dell’intervallo è pari all’area sottesa dalla curva in quell’intervallo. Così ad esempio, la probabilità che la variabile x sia compresa tra 1 e 2 è pari all’area disegnata sotto:

Distribuzione gaussiana: probabilità

Ai valori di x compresi tra 1 e 2 corrisponderanno dei valori di xcompresi tra 1 e 4. La probabilità però che x2 assuma dei valori compresi tra 1 e 4 è in realtà doppia rispetto alla probabilità che x sia compreso tra 1 e 2 in quanto occorre considerare anche i valori di x compresi tra -2 e -1:

Distribuzione Gaussiana. Calcolo probabilità

 

Per ottenere la distribuzione di densità di probabilità della funzione chi quadro si passerà quindi per il concetto di probabilità cumulativa della sua funzione in quanto la prima è la derivata della seconda rispetto la variabile aleatoria.

In particolare, dato un valore y=x2 della funzione di chi quadro, la probabilità che la funzione χ2  assuma un valore minore di y sarà:

  • Se y è un numero negativo la probabilità sarà nulla
  • Se y è un numero positivo la probabilità f sarà due volte la probabilità g che la variabile aleatoria x assuma un valore inferiore alla radice di y:

per calcolare la distribuzione di densità di probabilità si deriva la funzione probabilità rispetto a y:

dove:

Si ricorda che la distribuzione densità di probabilità di x (e quindi di radi e di y) è una distribuzione di densità di probabilità normale. Allora P(y) sarà:

che è la distribuzione di densità di probabilità della funzione χ(1)2 a cui è associato il seguente grafico:

andamento funzione chi quadro con un grado di libertà

Caso 2 ν>1

Per gradi di libertà superiori a uno, l’estrazione della distribuzione di densità di probabilità del chi quadro risulta più complicata. La sua formula generale è:

dove y = χ2 (ν) e la funzione Gamma assume i seguenti valori a seconda che il valore del numero di gradi di libertà (ν) sia pari o dispari:

Definita in questo modo, l’andamento della distribuzione di densità di probabilità avrà i seguenti andamenti al variare del numero di gradi di libertà:

 

Densità di probabilità chi quadro al variare dei gradi di libertà

Come si evince dai grafici, la posizione del massimo della distribuzione di densità di probabilità si sposta verso destra all’aumentare del grado di libertà diminuendone il valore (da infinito per un solo grado di libertà a tendente a 0 per infiniti gradi di libertà).

Proprietà generali

  • Come visto nel paragrafo precedente la distribuzione di densità di probabilità dipende dai gradi di libertà
  • Il massimo della funzione diminuisce e si sposta verso destra all’aumentare dei gradi di libertà
  • La distribuzione è asimmetrica
  • L’area sottesa dalla distribuzione di densità di probabilità è pari a 1
  • La distribuzione è definita solo nel primo quadrante in quanto  χ2 assume solo valori positivi
  • La funzione χ2 è additiva. Ciò significa che date due funzioni χ2 con n ed m gradi di libertà, la loro somma sarà una funzione χ2 con m+n gradi di libertà. χ2(n)+χ2(m) = χ2 (n+m)

Utilizzo statistico

La distribuzione di densità di probabilità di χ2 è utilizzata per calcolare la probabilità che la variabile χ2(ν) assuma dei valori minori o maggiori di una certa soglia.

Ad esempio, consideriamo il caso di χ2(4):

Chi quadro(4): 95% della probabilità

il 95% della probabilità è racchiusa dalla curva per valori di χ2 minori di 9,488. Il restante 5% è nella coda (generalmente indicato con la lettera p) della distribuzione. I valori di χ2 per i quali la curva sottende dei valori critici di probabilità sono riportati nella seguente tabella:

https://en.wikibooks.org/wiki/Engineering_Tables/Chi-Squared_Distibution

Utilizzo statistico della distribuzione chi quadro: test del chi quadro

Il test del chi quadro è un test di significatività statistica utilizzato per rifiutare o accettare un’ipotesi sulla distribuzione di probabilità di una o più variabili aleatorie (ipotesi nulla H0).

La logica di tale test consiste nel confrontare le frequenze osservate di una variabile (o più variabili) aleatoria e le frequenze teoriche previste dalla distribuzione di probabilità ipotizzata. Definita con H0 l’ipotesi nulla e H1 la sua alternativa, il test del chi quadro consente di definire se le variazioni tra i dati osservati e quelli teorici siano dovute a oscillazioni casuali (Haccettata) oppure da altri fattori (H0 rifiutata a favore di H1). Il test del chi quadro è utilizzato sia per variabili discrete che per variabili continue. In quest’ultimo caso occorre applicare la correzione di Yates per la continuità che sarà descritta più tardi. Il test inoltre, può essere applicato se per ogni categoria è osservata una frequenza superiore a 5.

Tra i test maggiormente conosciuti che utilizzano la distribuzione chi quadro ci sono:

Distribuzione χ quadro
Tag:                                         
%d blogger hanno fatto clic su Mi Piace per questo: