Una rappresentazione grafica intuitiva dei dati di un campione può aiutare ad individuare delle informazioni chiave per l’analisi statistica. Inoltre essa rende più immediata la comunicazione anche a persone impiegate in settori diversi dal nostro. In questo breve articolo si presenteranno alcune comuni rappresentazioni grafiche, utili per eseguire analisi di primo livello, con allegate delle cartelle di lavoro excel: Il diagramma Pareto e il Boxplot.

BOXPLOT

Il diagramma boxplot è una rappresentazione grafica di una o più distribuzioni e di alcuni parametri chiave quali la mediana* e i quartili.

Realizzare un bloxplot in programmi quali JMP e MINITAB è abbastanza semplice in quanto esistono delle funzionalità apposite. In excel, invece, non è un’operazione immediata poiché occorre calcolare i valori chiave della distribuzione (la mediana, il valore massimo, il valore minimo, le differenze tra i quartili) e successivamente processarli graficamente. Le istruzioni per realizzare un boxplot in excel sono al seguente link.

Quali informazioni è possibile ottenere da un boxplot?:

    • Mediana di una distribuzione di dati (rispetto alla media aritmetica risulta più efficace se la distribuzione presenta degli outliers, ovvero dei valori eccezionalmente alti o bassi, in quanto risente meno di questi dati). La mediana è la linea che divide in due box di colore diverso il rettangolo principale.
    • Dispersione di una distribuzione di dati (maggiore è la larghezza del boxplot e maggiore è la dispersione dei dati)
    • Valore adiacente superiore (VAS, limite superiore della stanghetta in alto o del baffo superiore). Esso è dato da:
                                          VAS = min {max(distribuzione); Q3 + 1,5 IQR}.
      dove IQR è l’intervallo interquartilico ed è dato da Q3-Q1. In breve Si sceglie di utilizzare il valore massimo della distribuzione se questo è più piccolo del valore Q3+1,5IQR. In caso contrario il limite del baffo superiore è dato proprio dal valore Q3+1,5IQR e tutti valori oltre tale limite sono detti “outliers” e sono definiti anomali.
    • Valore adiacente inferiore (VAI, limite inferiore del baffo inferiore). Esso  è dato da:
                                            VAI = max{min(distribuzione); Q1 – 1,5IQR}.
      Si sceglie di utilizzare il valore minimo se questo è superiore al valore Q1 – 1,5 IQR. In caso contrario il limite del baffo è proprio dato da Q1  – 1,5 IQR. In quest’ultimo caso tutti i valori della distribuzione che cadono al di sotto di tale valore sono detti anomali.
    • Simmetria di una distribuzione di dati (quanto più i due box colorati e le due stanghette sono ugualmente alti tanto più la distribuzione è simmetrica)

Un boxplot in excel avrà il seguente aspetto:

 

Esempio Grafico Boxplot

 

Dall’analisi dei boxplots in figura si possono ricavare informazioni circa 3 percorsi (per ognuno sono state eseguite 10 prove). Per il primo percorso i 10 risultati sono molto vicini tra di loro. Poiché la distribuzione è molto più stretta rispetto agli altri due, esso risulta più vantaggioso in termini di costanza. La sua mediana tuttavia è 66 minuti risultando la più alta tra i percorsi. Il terzo invece, presenta la mediana più bassa risultando quindi il percorso mediamente più veloce. La sua distribuzione  risulta però più larga. La seconda distribuzione non risulta invece vantaggiosa né per velocità media ne per stabilità.

PARETO

Il diagramma Pareto è un grafico molto utilizzato nelle attività di problem solving per rappresentare in maniera ordinata il peso di ciascun fattore sulla manifestazione di un evento.

Per fare un esempio si consideri l’inefficienza di un macchinario di produzione a causa di diversi fermi linea. Ogni fermo può essere dovuto a motivazioni diverse. Saper quali sono i fattori maggiormente responsabili permette di definire attività di problem solving  o preventive.

La logica di Pareto (da Vilfredo Pareto) nasce dal fatto che in molti sistemi complessi si osserva empiricamente che il 20% delle cause provoca l’80% degli effetti.

Un esempio di diagramma Pareto si presenta come in figura:

Esempio Diagramma Pareto

Il Pareto in figura riporta due importanti informazioni. La prima attraverso un istogramma ordinato in cui le colonne rappresentano la percentuale di contributo di ciascuna causa al problema fermo linea. La percentuale cumulativa, rappresentata dalla linea rossa, da informazioni relative alla percentuale di fermi linea che si riuscirebbe ad eliminare risolvendo tutte le cause dalla principale a quella presa in considerazione. Quindi nel caso in figura, se si eliminassero le prime 2 cause, i fermi linea si ridurrebbero dell’ 83%.


Di seguito i link per dei file esempio:
Esempio Boxplots

Esempio pareto

*Mediana

La mediana di una successione ordinata di dati rappresenta il valore centrale di tale successione rispetto agli estremi. I quartili invece rappresentano quei valori di una successione ordinata che si trovano in posizioni tali da dividere la successione in quattro parti uguali.

Prendiamo come esempio la seguente successione di dati:

1 1 1 4 5 6 7 8 9 10 10 11 12

Nel caso di questa successione la mediana è il numero 7 (si trova esattamente al centro della successione) mentre, trattandosi di una successione di 13 elementi i suoi quartili saranno:

  • primo quartile 4 (elemento numero 4)
  • secondo quartile 7 (elemento numero 7 e coincide con la mediana)
  • terzo quartile 10 (elemento numero 9)
  • quarto ed ultimo quartile 12 (ultimo numero della successione).

 

Boxplot e Diagrammi Pareto
Tag: