Alcune semplici tecniche grafiche possono essere molto utili per confrontare la distribuzione dei dati di un campione con una distribuzione teorica (utilizzo q-q plot in normality test in fondo all’articolo) o con quella di un secondo campione. Diversamente dai test parametrici, tali rappresentazioni grafiche forniscono un approccio visivo e quindi più intuitivo nel confronto di due distribuzioni.

In particolare tali rappresentazioni consentono di:

  • Verificare che i dati sperimentali seguano l’andamento di una distribuzione teorica o di un secondo campione
  • Fornire informazioni su deviazioni da tale andamento (es. presenza di outlier o di code più larghe)
  • Nel caso che si confronti il campione con una distribuzione teorica, consente di stimare i parametri che la distribuzione teorica deve possedere per descrivere meglio l’andamento del campione (es. deviazione standard e media)

In questo articolo verrà descritto in maggior dettaglio il q-q plot o quantile quantile plot. Altre rappresentazioni grafiche come il boxplot saranno invece descritte in altri articoli.

Q-Q plot o quantile quantile plot

Il Q-Q plot è la rappresentazione grafica dei quantili di una distribuzione (generalmente il campione) versus i quantili di una seconda distribuzione (distribuzione teorica o secondo campione).

Per ennesimo quantile si intende il valore della distribuzione tale che l’ennesima percentuale dei suoi dati cade al di sotto di tale valore e la restante percentuale al di sopra di tale valore. Ad esempio per calcolare il primo decile di una distribuzione occorre ordinare i dati in modo crescente e individuare il valore per il quale il 10% dei dati giace al di sotto di esso.

Insieme al Q-Q plot viene disegnata anche la retta y=x che identifica il caso ideale di due distribuzioni identiche per le quali i quantili sono tutti identici. Le deviazioni del Q-Q plot rispetto tale retta permettono di identificare le deviazioni della prima distribuzione rispetto la seconda. Di seguito consideriamo alcuni esempi di Q- Q plot in modo tale da fornire con una panoramica dei diversi casi possibili una logica di interpretazione dei dati.

Caso 1: campioni con distribuzioni identiche

Se due campioni provengono dalla medesima popolazione, essi saranno descritti dalla medesima distribuzione di probabilità. Consideriamo quindi due campioni con distribuzione gaussiana con media 9 e standard deviation pari a 1:

gaussiane identiche

Le due distribuzioni sono praticamente identiche. Il loro Q-Q plot sarà:

q-q plot gaussiane identiche

Come si evince dalla figura il q-qplot (quadrati blu) si dispone esattamente lungo la retta y=x dimostrando che le due distribuzioni sono praticamente identiche.

Caso 2: un campione ha una dispersione maggiore

Come secondo caso si considera quello di due campioni aventi entrambi una distribuzione gaussiana ma con dispersione differente. Nel grafico sotto, infatti, la curva blu ha una standard deviation maggiore di quella mostrata dalla curva in rosso:

gaussiane sigma diverse

In questo caso il q-q plot sarà:

q-q plot gaussiane diversa varianza

Il plot in questo caso non coincide con la retta. Le due distribuzioni, pur essendo della stessa famiglia (gaussiane), sono diverse. La pendenza elevata del plot indica che la prima distribuzione è  più larga della seconda. I suoi percentili si estendono infatti da 8 a 16 mentre i percentili della seconda distribuzione si estendono in un range più corto, da 9 a 14. In generale per individuare quale delle due distribuzioni ha una o entrambe le code più larghe si guarda la pendenza del grafico alle due estremità. Se ad esempio la pendenza dell’estremità a destra è più elevata della retta, allora sarà la distribuzione delle ordinate ad avere una coda più larga. Stessa cosa per l’estremità sinistra.

Caso 3: distribuzioni diverse

Si veda l’esempio di un q-q plot in cui si confrontano due distribuzioni molto diverse tra loro. Le due distribuzioni sono una gaussiana ed una distribuzione chi quadro traslata:

 

gaussiana vs chi quadro

La distribuzione gaussiana (blu) è sempre in anticipo rispetto alla distribuzione chi quadro ed ha una coda leggermente più larga per valori più bassi di x e molto più stretta per valori molto alti. Il grafico q-q plot è quindi:

q-q plot code diverse

Il fatto che la gaussiana sia sempre in “anticipo” si traduce in punti sempre più alti rispetto la retta y=x. Poichè la gaussiana ha una coda più larga per valori molto di x fino alla media 10, il q-q plot si avvicina alla retta y=x per poi divergere per valori più grandi di 10 a causa di una coda più stretta rispetto la distribuzione chi quadro.

Caso 4: distribuzione bimodale vs gaussiana semplice

Infine, si riporta il caso del q-q plot che si avrebbe confrontando un campione con distribuzione bimodale gaussiana con un campione monomodale a distribuzione gaussiana.

bimodale

In questo caso il q/q plot avrà una caratteristica forma ad “S”:

q-q plot bimodale

 

Considerazioni generali sull’interpretazione di un q-q plot

Alla luce di quanto visto sopra si possono riassumere le seguenti considerazioni:

  • Se il q-q plot giace sulla rett y=x (pendenza 45°) allora le due distribuzioni sono esattamente le stesse (caso 1)
  • Se la pendenza è di 45 ° ma il plot si trova traslato su o giù rispetto alla retta y=x allora le due distribuzioni sono uguali ma con media diversa
  • Qualsiasi convergenza/divergenza nei punti estremi va interpretata come diversità nella skewness delle distribuzioni (vedi caso 3)
  • Se il q-q plot è una retta con pendenza diversa da 45° (caso 2) allora le due distribuzioni hanno deviazione standard diversa
  • Se il grafico non è una retta allora le due distribuzioni sono diverse (edi casi 3 e 4)

 

Come creare un grafico q-qplot in excel

Nel caso non si avessero a disposizione dei sofware dedicati per la creazione di un grafico q-q plot, è possibile realizzarlo in excel in pochi semplici passaggi. Di seguito l’elenco delle operazioni da eseguire per confrontare due set di dati:

  • Scegliere il numero di percentili (punti sul grafico) da mostrare.
    • Se i due campioni sono molto popolosi si possono plottare 50 punti riportando i percentili con un passo del 2%. Accanto alle colonne con i dati dei due campioni si riporta quindi una colonna con i valori 0,02; 0,04 ; 0,06; 0,08; 0,2 ….. 0,98
    • Se i campioni sono poco popolosi (meno di 50 punti) il numero di percentili sarà pari al numero di dati del campione meno popoloso. Se ad esempio il campione meno popoloso ha n dati, si sceglierà di plottare n punti. Il passo dei quantili sarà dato da 1/n.
  • Associare ad ogni % del punto 1 i percentili delle due distribuzioni (utilizzare funzione percentile):

Calcolo quantili

  • Eseguire uno scatterplot plottando i valori dei quantili del campione 1 vs quelli del campione 2
  • Inserire nel grafico la retta y=x

Q-Q plot per normality test in excel

In quest’ultimo paragrafo si vedrà quali sono i passaggi da eseguire in excel per poter ottenere un q-q plot in excel con l’intento di verificare che la distribuzione dei dati possa essere descritta da una gaussiana teorica. Come detto nei paragrafi precedenti si tratta del confronto del nostro campione con una distribuzione teorica. Ma cosa succede se non sappiamo con quale tipo di gaussiana confrontare i nostri dati? La risposta è semplice: si utilizza la distribuzione normale (gaussiana con media 0 e varianza 1).

Di seguito le operazioni per eseguire il q-q plot per normality test:

  • Distribuire i dati del campione in ordine crescente (colonna A del nostro esempio)
  • Inserire una colonna detta rango in cui si riporta il numero d’ordine del dato rispetto alla totalità del campione
  • Calcolare media e deviazione standard del campione
  • Normalizzare la distribuzione del campione mediante la formula:

  • Diversamente da quanto fatto detto nel paragrafo precedente, invece di assegnare delle % dalle quali calcolare i percentili del campione, si calcolano i valori delle percentuale ai quali corrispondono percentili pari ai valore del campione normalizzato. In altri termini, considerato il primo valore del nostro campione ci si chiede: a quale percentile corrisponde tale valore? Nel caso di un campione con 100 dati al dato più piccolo dovrebbe essere associato il valore 1%. In realtà solitamente si utilizza la formula di Hazen (colonna F del nostro esempio):

  • Il punto precedente ci dice che i percentili del campione sono proprio i valori del nostro campione normalizzato. A questo punto andrebbero calcolati i percentili della distribuzione normale standard (in altri articoli tali valori sono detti z-score). Questo viene eseguito mediante la formula NORM.S.INV
  • Eseguiti i punti precedenti si otterrà una tabella del tipo:

calcoli normality test

A questo punto si riportano in grafico i dati della colonna verde vs i dati della colonna rossa:

 

qq plot normale

 

Il q-q plot si dispone sulla retta y=x ergo il campione ha una distribuzione gaussiana con media 6,4 e st.deviation 1,1.

 

Q-Q plot ed uso in normality test: esempi e procedure per excel
Tag:                                         
%d blogger hanno fatto clic su Mi Piace per questo: