Vediamo in questo appunto in cosa consiste il one sample t test e come eseguirlo. Abbiamo già fornito al seguente link una prima definizione di questo test e le sue differenze principali con altri dello stesso tipo. Per poter comprendere al meglio quanto riportato in questo appunto ti consigliamo di rivedere alcuni concetti chiave, come la distribuzione t di student, il test di ipotesi e la media campionaria.

In questo appunto avrai modi di conoscere:

Cosa è il one sample t test e perché dell’uso della variabile t

Il one sample t test è un test statistico parametrico per variabili continue come intervalli e rapporti. Abbiamo introdotto questo test quando abbiamo parlato dei test statistici one sample. Questo test, infatti, consente di confrontare con un certo livello di confidenza la media di un campione di dati con un valore noto. Tale valore noto può essere o la media della popolazione oppure un valore teorico. Esso è definito parametrico in quanto verifica l’ipotesi su di una distribuzione lavorando su un suo parametro, in questo caso la media.

Il one sample t test è usato quando o si ha a che fare con un campione di dati esiguo (<30) o non si conosce la deviazione standard associata al valore noto (media della popolazione). L’impossibilità di non poter lavorare con la deviazione standard della popolazione comporta l’utilizzo della distribuzione t di Student. Cerchiamo nel seguito di spiegare meglio questo passaggio cruciale.

Si ricordi che quando i campioni sono normalmente distribuiti, la distribuzione della media campionaria (distribuzione delle medie di campioni di dimensione n) è una distribuzione normale avente come media la media della popolazione e come varianza la varianza della popolazione divisa la dimensione del campione (vedi teorema del limite centrale):

one sample t test: media campionaria

Poiché la deviazione standard della distribuzione della media campionaria è inversamente proporzionale alla dimensione del campionamento n, la distribuzione della media campionaria risulta più stretta e appuntita della distribuzione della popolazione.

one sample t test: distribuzione media campionaria

Adesso, distinguiamo due casistiche:

  • Caso 1: la deviazione standard della popolazione è conosciuta. In questo caso è possibile conoscere la distribuzione della media campionaria della popolazione per un qualsiasi campionamento pari a n. Per cui, si utilizza la distribuzione della media campionaria per confrontare la media della popolazione con la media del campione. Il test è detto one sample z test in quanto usufruisce le tavole della distribuzione normale standardizzata (media 0 e deviazione standard 1). Se le due medie sono paragonabili allora la loro differenza sarà prossima a zero. L’ipotesi μpop = μcamp viene sostituita dall’Ipotesi μpop – μcamp = 0 attraverso la trasformazione:
    one sample t test: z test
  • Caso 2: deviazione standard della popolazione non conosciuta. In questo caso non è possibile ricavare la distribuzione della media campionaria. Si tratta della casistica più frequente. In questo caso si supera il problema cercando di stimare la deviazione standard della popolazione con la deviazione standard del campione. Quando il campionamento n è esiguo (n<30), la stima della deviazione standard è molto incerta. La variabile z vista prima non può essere utilizzata in quanto la distribuzione della media campionaria assume una più generica distribuzione t di Student con gradi di libertà n-1. Anche in questo caso si trasforma la distribuzione in una distribuzione di media 0 e si usa ancora l’ipotesi μpop – μcamp = 0. La trasformazione utilizzata è: 
    one sample t test: trasformazione
    Le tavole da utilizzare sono quindi le tavole t di student che forniscono valori in dipendenza del numero di gradi di libertà (n-1) e del livello di significatività scelto all’inizio del test. Anche quando n>30 sarebbe ancora corretto utilizzare la distribuzione t di student. Tuttavia all’aumentare del campionamento n e quindi dei gradi di libertà, la distribuzione t di student può essere approssimata dalla distribuzione normale ed il t test e lo z test forniscono quasi gli stessi risultati. Poiché lo z test è più semplice da calcolare (indipendente dai gradi di libertà), è preferibile utilizzarlo in questi casi, pur non essendo un test esatto per il tipo di problema in studio.

one sample t test: test di ipotesi

Assunzioni necessarie per poter utilizzare il one sample t test

Ma è sempre possibile utilizzare un one sample t test? La risposta è no. Il one sample t test, infatti, può essere utilizzato solo se sono vere le seguenti affermazioni:

  • I dati devono essere indipendenti tra di loro. Ovvero non deve esserci alcuna correlazione tra un dato ed un altro. Generalmente questo è ottenuto mediante un campionamento casuale di ogni elemento e senza reinserimento dello stesso nella popolazione dopo il campionamento
  • Pur non conoscendo la deviazione standard della popolazione, la distribuzione della variabile dipendente deve essere approssimativamente una distribuzione normale. Per verificare se il set di dati non abbia deviazioni importanti dalla normalità, è possibile eseguire prima un normality test
  • I dati non devono contenere outlier. E’ necessario allora pulire i dati prima di eseguire il test quando gli outlier hanno poco senso statistico e possono derivare da un’errata misura e non da una semplice deviazione.
Test di ipotesi

Abbiamo detto che il one sample di test consente di verificare se la media di un campione caratterizzato da una sua deviazione standard sia paragonabile con la media dell’intera popolazione. Come si traduce questo confronto in termini di testi di ipotesi?

Scelto il livello di significatività α del test, si pone come ipotesi nulla H0 l’uguaglianza della media della popolazione con la media del campione:

H0: μpop = μcamp oppure μpop – μcamp = 0

L’obiettivo del test è verificare se è possibile confutare questa ipotesi con un certo livello di confidenza a favore di una ipotesi alternativa Ha. In un test di questo tipo possono esserci tre tipi di ipotesi alternative:

  • μpop ≠ μcamp : Si utilizza questa ipotesi alternativa quando si pensa che la media del campione possa essere significativamente sia minore che maggiore della media della popolazione. Quando il test presenta tale ipotesi alternativa, allora è definito two tailed
  •  μcamp > μpopμcamp < μpop sono le altre due ipotesi possibili. In questo caso il test viene definito one tailed in quanto si considera che la media del campione possa deviare significativamente solo in una direzione rispetto alla popolazione. In questo caso, a pari livello di significatività alfa, un one tail t test è molto più efficace nel determinare differenze tra la media della popolazione e la media del campione e a favorire l’ipotesi alternativa.
    one sample t test: one and two tailed test

Procedura per eseguire un one sample t test

Vediamo in questo paragrafo quali sono i passaggi chiave per l’esecuzione di un one sample t test:

  • Definire l’ipotesi e scegliere il livello di significatività α:  Il primo step consiste nel definire il tipo di test di ipotesi (two tailed or one tailed) che si vuole utilizzare, le ipotesi (nulla H0 ed alternativa Ha) ed il livello di significatività. In un normale test di ipotesi bisognerebbe definire insieme al livello di significatività anche la potenza del test beta. Questi due parametri infatti, determinano la capacità del test di ipotesi di rifiutare un’ipotesi nulla e di individuare l’ipotesi alternativa. Ricordiamo però che beta dipende dalla numerosità del campione. In genere, si utilizza il one sample t test quando non è possibile aumentare la dimensione del campione a piacimento (n<30). Per maggiori informazioni su alfa e beta ti rimandiamo a questo appunto.
  • Definire la media e la deviazione standard del campione
  • Calcolare il numero di gradi di libertà del campione. Ricordiamo che i gradi di libertà sono pari al numero di dati indipendenti conosciuti. Poiché conosciamo la media del campione, il numero di dati indipendenti è pari a n-1. L’informazione dell’n-simo dato può essere infatti ricavata conoscendo gli n-1 precedenti e la media
  • Calcolare il valore t limite. Ricordiamo che la distribuzione t di studente è una distribuzione che dipende dal numero di gradi di libertà. Quindi il valore del t limite, ovvero il valore oltre il quale, con il livello di significatività scelto, può essere rigettata l’ipotesi H0, dipende dal numero di gradi di libertà. Il calcolo della variabile t limite viene fatto mediante l’utilizzo delle tavole t (si trovano facilmente in rete). Vediamo un esempio calcolando il valore t limite per un test di ipotesi con 15 gradi di libertà e con un livello di significatività dello 0,05 per un one tailed t test:

     

     

    one sample t test: tavole t
    fonte: https://www.webtutordimatematica.it/images/pdf_vari/tavola-t-student-completa.pdf

     

    il t limite risulta essere 1,753. Se la variabile t di Student calcolata dal nostro set di dati, dovesse risultare maggiore di tale limite, allora si potrà rigettare l’ipotesi H0.

  • Calcolare la variabile t di student del nostro campione -> basta utilizzare la formula sopra mostrata:
  • Rigettare o no l’ipotesi nulla H0: la variabile t di student, assume un valore oltre il t limite? Allora l’ipotesi H0 può essere rigettata. In caso contrario, non è possibile rigettare l’ipotesi H0

 

One sample t test
Tag:                             
%d blogger hanno fatto clic su Mi Piace per questo: