Media, moda e mediana sono tre indici statistici molto utilizzati nella descrizione di un set di dati. Per come sono definiti, tali indici tendono ad essere posizionati sempre nell’area centrale della distribuzione di dati. Per questo motivo si dice che tali indici aiutano a definire la tendenza centrale del set di dati.

In questo articolo definiremo singolarmente media, moda e mediana e successivamente mostreremo alcuni casi limite nei quali l’utilizzo di un indice specifico può essere più indicato rispetto agli altri.

Vedremo che non esiste un indice migliore degli altri. Essi semplicemente forniscono un informazione basandosi su definizioni diverse e l’adozione di un indice o di un altro è una decisione a carico del buon senso di chi esegue l’analisi statica.

Media aritmetica

La media aritmetica è sicuramente l’indice di posizione più comunemente utilizzato. Essa è data dalla somma di tutti i valori a disposizione divisi per il numero stesso di valori

media, moda e mediana: formula media

Considerando dunque la seguente serie di 15 valori:

4,5,4,6,8,9,11,2,4,7,2,6,4,5,7

la media aritmetica sarà data da:

media, moda e mediana: calcolo della media

Normalmente la media non è un dato appartenente alla successione di valori in studio. Ad esempio la media calcolata qui (5,6) è un numero decimale a fronte di una successione di numeri interi su cui è calcolata.

Spesso quando si ha a che fare con distribuzioni di probabilità, la formula utilizzata per la media aritmetica può sembrare più complicata di quella proposta. In questi casi infatti, poiché si ha a che fare con una mole di dati più impegnativa, il numeratore è della formula sopra è calcolato come somma dei prodotti di ciascuna valore per quante volte è ripetuto.

media, moda e mediana: media con frequenze

La media aritmetica è un indice di posizione che può essere utilizzato solo con valori numerici e non può essere utilizzato quando i dati sono caratterizzati da categorie. Ad esempio non può essere utilizzata per capire la tendenza nello studio dei colori delle auto vendute in un anno.

La mediana

Il calcolo della mediana richiede che i dati siano organizzati secondo una successione ordinata crescente dei valori. Considerando l’insieme dei valori utilizzati nel paragrafo precedente, la successione ordinata crescente dei valori sarà:

4,5,4,6,8,9,11,2,4,7,2,6,4,5,7 → 2,2,4,4,4,4,5,5,6,6,7,7,8,9,11

La mediana rappresenta il valore centrale di tale successione rispetto agli estremi. Nel caso mostrato essa sarà pari a 5 in quanto rispetto a tale valore ci sono tanti numeri più piccoli e tanti numeri più grandi di tale valore.

2,2,4,4,4,4,5,5,6,6,7,7,8,9,11

Come la media, la mediana non può essere utilizzata nel caso in cui si sta studiando una distribuzione di categorie. Se il numero di dati a disposizione è dispari, la mediana è esattamente il valore centrale e corrisponde ad un valore della distribuzione di dati. Se il numero di dati è pari invece, non sarà possibile definire un numero al centro della successione. Allora la mediana sarà la media aritmetica tra i due numeri più centrali

La moda

La moda di un insieme di dati o valori, altro non è che il valore che più frequentemente si osserva nell’insieme. Differentemente dagli altri due indici, la moda è un valore dell’insieme e non è mai calcolato. Inoltre è l’unico indice che può essere utilizzato con dati non numerici (categorie).

Consideriamo la serie di 15 valori utilizzata anche per gli altri due indici e riportiamo i valori in una tabella delle frequenze con il numero di volte in cui questi si ripetono:

media, moda e mediana: tabella delle frequenze

Come si vede dalla tabella, il valore più frequente è il 4. Esso è quindi la moda di quell’insieme di dati.

Vediamo adesso come nella serie di dati riportata sia differente la posizione di media, moda e mediana e quindi il modo di rappresentare la tendenza centrale.

posizione degli indici
Media, moda e mediana: applicazioni pratiche

Nei paragrafi precedenti abbiamo definito la media, la moda e la mediana. In questo paragrafo mostreremo le differenze tra questi indici su diverse distribuzioni di dati. Come detto nel primo paragrafo, nessuno dei 3 indici è migliore dell’altro. Semplicemente l’utilizzo di uno o dell’altro dipende dal tipo di distribuzione in studio.

Nel caso teorico di una distribuzione normale media, moda e mediana coincidono. Infatti la distribuzione normale è una curva simmetrica rispetto alla sua media (che coincide per questo con la mediana), con il massimo proprio nel punto centrale (coincidendo per questo con la moda).

media, moda e mediana:: caso gaussiana

Nella realtà, piccoli spostamenti dalla distribuzione normale eliminano tale coincidenza:

casi pratici

Come si vede in questa ultima immagine, la posizione di questi indici dipende molto da come i dati si distribuiscono. La media è l’indice che risente maggiormente degli effetti di coda. Nei casi sopra riportati tutte e 3 gli indici possono essere utilizzati per descrivere la tendenza centrale del set di dati. In altri casi, può accadere che l’utilizzo di un indice possa non avere senso statistico.

Media, moda e mediana: quando preferire cosa

Consideriamo il seguente set di 15 misure:

0,4;0,6;0,3;0,2;0,5;0,4;0,3;0,7;0,1;5;0,4;0,2;0,1;0,3;0,4

la cui distribuzione è:

quando non usare la media

la media di tale set di misure è 0,66. Tale valore però è fuori rispetto alla tendenza centrale reale del set di dati che invece mostrano una maggiore densità nell’intervallo 0,3-0,5. La media in questo caso non è quindi rappresentativa della tendenza centrale e non andrebbe utilizzata. Nei casi in cui un singolo dato è molto più estremo degli altri, la mediana risulta più adatta come indica di posizione rispetto alla media. In generale, dei 3 indici, la media è quella che risente di più di distribuzioni fortemente asimmetriche o della presenza di valori limite nel set di dati.

Se la distribuzione di dati presenta una molteciplità di dati estremi probabilmente dovuti ad effetti secondari, anche la mediana non risulta un buon indice per descriverne la tendenza centrale.

quando non usare la mediana

Come si vede dall’esempio, la moda è sicuramente più indicativa.

Tuttavia se la distribuzione di dati ha un picco ampio e rumoroso, la moda non è adatta a descriverne la tendenza centrale. In questo caso media e mediana saranno più adatti:

quando non usare la moda

Quest’ultima immagine ci consente di concludere con una piccola parentesi sul concetto di distribuzione multimodale. Nell’immagine è riportata come moda il picco più alto della distribuzione. In realtà, se il fenomeno in studio, presenta effetti secondari e terziari (che possono essere studiati singolarmente) è possibili riconoscere, come in figura, diverse mode. Questo è il caso delle distribuzioni multimodali.

Indici di posizione: media, moda e mediana
Tag:                             
%d blogger hanno fatto clic su Mi Piace per questo: