Spesso al termine di un’analisi statistica viene generato un report con una serie di parametri. Tra questi vi è il p-value. Sul p-value si fa comunemente molta confusione. Non tutti ne conoscono il significato e spesso ci si riduce ad osservare se il suo valore è inferiore o superiore a 0,05. Questa confusione genera spesso errate interpretazioni. In questo breve articolo spieghiamo cosa è il p-value e quale indicazione utile può dare al termine di un’analisi statistica.

Test dell’ipotesi: breve introduzione

Il p-value è un parametro utilizzato per discriminare un test di ipotesi. Ma cosa si intende per test di ipotesi? Immaginiamo di avere due campioni di n misure ciascuno. Ci chiediamo se i due campioni appartengono alla stessa popolazione e se le due medie associate alle due distribuzioni dei campioni siano paragonabili oppure no. Per rispondere a tale domanda si utilizza il test dell’ipotesi. Esso consiste nell’ipotizzare un’affermazione (ipotesi nulla o H0) e mediante test statistici verificare se confermare l’ipotesi o se rigettarla a favore di un’ipotesi alternativa Ha.

 

Nel caso sopra descritto, si associa all’ipotesi nulla o H0 l’affermazione “i due campioni appartengono alla stessa popolazione e la differenza tra le medie campionarie è dovuta a variazioni randomiche” (il test statistico da utilizzare può essere quello della t di Student). L’ipotesi alternativa Ha di conseguenza sarà: “i due campioni appartengono a due popolazioni differenti”.

Significato del p-value nel test dell’ipotesi

L’output del test dell’ipotesi è proprio il p-value. Ma qual è il suo significato? Esso esprime la probabilità che la caratteristica oggetto dell’ipotesi H0 abbia un valore uguale o più estremo di quello osservato. Cerchiamo di spiegarlo meglio con l’esempio di sopra. Se i due campioni appartengono alla stessa popolazione allora la differenza tra le due medie è dovuta a variazioni randomiche. La distribuzione delle possibili differenze tra le medie sarà allora una distribuzione normale di media 0.

p-value distribuzione medie campionarie

 

La distribuzione normale ci dice che se la differenza tra le medie è dovuta a variazioni randomiche, è molto probabile che questa sia comunque prossima allo zero e poco probabile invece che la differenza sia molto elevata. Di conseguenza all’aumentare della differenza tra le due medie, aumenta la probabilità che i due campioni appartengano a popolazioni differenti, che H0 sia falsa e Ha sia vera.

Possiamo tradurre graficamente questa affermazione in questo modo:

p-value: test  ipotesi

Ma come possiamo definire il confine tra H0 e Ha? Questa scelta è a discrezione dello sperimentatore che prima di eseguire il test deve scegliere il livello di confidenza da associare al test basandosi sulla tipologia dei dati e sul tipo di esperimento. Di solito il livello di confidenza più comuni scelti sono il 95% ed il 99%. Si ricordi che all’aumentare del livello di confidenza bisogna avere valori sempre più estremi per poter rigettare l’ipotesi H0 a favore dell’ipotesi Ha. Il p-value limite per confermare o confutare l’ipotesi H0 è strettamente legato al livello di confidenza scelto. Infatti, se il livello di confidenza è 95%, il valore di p sarà 1-0,95 = 0,05. Se il p value osservato sarà maggiore del p-value limite allora H0 sarà confermata, se sarà minore allora H0 sarà rigettata in favore di Ha.

Immaginiamo di avere un valore di differenza tra le medie pari a Δμ pari a 1 e di aver scelto come livello di confidenza 95% e quindi p.-value limite 0,05:

p-value: buon caso

Il p – value osservato (zona colorata in rosso) è pari a 0,32 e quindi la probabilità di avere un caso uguale o più estremo con semplici variazioni randomiche non è trascurabile. Non ci sono elementi per confutare H0. La differenza tra le medie è completamente dovuta al caso . Si noti che in questo caso il p-value è stato calcolato su entrambe le code. In realtà non per tutti i test è così. Esso può essere calcolato anche solo a destra o a sinistra a seconda del tipo di variabile o di distribuzione che si sta considerando.

Consideriamo invece il caso:

p-value: caso negativo

in questo caso p è trascurabile (l’aria rossa in figura non si vede nemmeno) e molto minore di 0,05. Possiamo dire che la probabilità che H0 non sia vera è alta e che andrebbe considerata l’alternativa.

p-value: significato ed interpretazione in un’analisi statistica
Tag:                 
%d blogger hanno fatto clic su Mi Piace per questo: