In questo articolo ti mostreremo come realizzare un istogramma delle frequenze in excel di un set di dati. Al termine dell’articolo sarai in grado di realizzare un grafico del tipo:

istogramma delle frequenze con gaussiana

L’articolo si svilupperà nei seguenti paragrafi:

  • Definizione di un istogramma delle frequenze
  • Come definire il numero di classi necessarie per eseguire un istogramma delle frequenze
  • Il processo per realizzare un grafico delle frequenze in excel
  • Sovrapporre una funzione gaussiana nel caso di dati distribuiti normalmente

Definizione di un’istogramma delle frequenze.

Un istogramma delle frequenze è un grafico a colonne usato in statistica descrittiva per mostrare come si distribuiscono le frequenze, o il numero di accadimenti, dei possibili esiti o categorie di un set di dati continui. Cerchiamo di spiegarci meglio con un esempio. Un sito web riceve 1200 visite in un giorno. Ci si chiede quale sia l’andamento per fascia oraria. Si decide di dividere l’intera giornata in 4 fasce orarie: 0-6; 6-12; 12-18 e 18-24 e di spalmare le 1200 visite nelle 4 fasce orarie:

esempio istogramma

Il grafico ottenuto è un’istogramma che ha delle caratteristiche ben definite:

  • L’asse delle ordinate rappresenta la densità di frequenza o del numero di accadimenti di un esito o categoria. La densità di frequenza è calcolata come rapporto della frequenza o numero di accadimenti con l’ampiezza della categoria o classe. La frequenza della classe sarà allora rappresentata dall’area della colonna di quella categoria. Per questo motivo l’istogramma è un tipo di areogramma. La somma delle aree sarà quindi la somma delle frequenze per ogni singola classe. E’ importante capire il motivo per il quale l’altezza non rappresenta la frequenza ma la densità di frequenza. Non sempre è comodo avere a che fare con classi della stessa ampiezza. Rappresentare la frequenza sull’asse delle ordinate in questi casi sarebbe errato. Infatti in questi casi le altezze delle colonne non rappresenterebbero la reale distribuzione delle frequenze. (esempio).Spesso, se le classi sono tutte uguali tra loro, si è portati a rappresentare la frequenza sull’asse delle ordinate. In questo particolare caso avremmo una distribuzione di dati proporzionale alla distribuzione delle frequenze che però non è un’istogramma! Nell’istogramma solo l’area rappresenta la frequenza.
  • L’area di una colonna rappresenta la frequenza. Spesso però può risultare rappresentare una frequenza relativa. Ad esempio si potrebbe fare in modo che le aree delle colonne rappresentino la percentuale della frequenza di quella specifica classe rispetto al totale degli accadimenti o alla somma di tutte le frequenze.
  • Nell’istogramma le colonne sono unite tra loro. Nessuna spaziatura è consentita per rendere esplicito il fatto che si rappresenta la frequenza di dati continui
  • L’asse delle ascisse riporta le classi o le categorie nelle quali i dati continui sono stati suddivisi. L’asse avrà una sua unità di misura (tempo, lunghezza, velocità, etc..)

Come definire il numero di classi adeguato per eseguire un istogramma delle frequenze

Una delle scelte meno banali per realizzare un istogramma delle frequenze riguarda l’ampiezza delle classi e quindi il numero di queste. Vediamo con un esempio concreto. Generiamo un set di 1000 dati che seguono una distribuzione nota (gaussiana). Scegliamo una distribuzione normale con media 5 e deviazione standard 0,5 e rappresentiamo 4 istogrammi delle frequenze con ampiezza delle classi diverse tra loro.

Istogramma 150 dati e 50 classi

150 dati e 50 classi

Nell’istogramma sopra, i 150 dati sono stati suddivisi in 50 categorie. La distribuzione gaussiana è percettibile ma ci sono diverse classi prive di dati. Questa discontinuità dei dati non favorisce la leggibilità del grafico e dei dati.

Istogramma 150 dati e 30 classi

150 dati 30 classi

Riducendo il numero delle classi, aumenta la percezione della distribuzione gaussiana. Si perde ancora però di continuità nella distribuzione dei dati.

Istogramma 150 dati 15 classi

150 dati 15 classi

Migliora sensibilmente la continuità dei dati, la gaussiana è percettibile anche se sembra assumere un aspetto leggermente più triangolare.

Istogramma 150 dati 4 classi

150 dati 4 classi

4 classi risultano troppo poche. Si perde sia di continuità che di definizione della gaussiana.

Come si è visto negli esempi sopra non è facile trovare un compromesso. Il terzo istogramma delle frequenze è forse quello che mostra un compromesso migliore. La scelta del numero di classi/categorie è quindi fondamentale per poter osservare che distribuzione seguano le frequenze.

Poiché non è sostenibile eseguire diverse prove con diversi numeri di classi e poi scegliere l’istogramma, si utilizza una regola empirica che funziona abbastanza bene. Se n è il numero dei dati, il numero di classi in cui clusterizzare i dati è dato da 2*n^(2/5). Nel caso di n=150 il numero delle classi sarà quindi a 14,84 ≈ 15.

Come realizzare un istogramma delle frequenze in excel

Vediamo passo passo come si realizza un’istogramma delle frequenze in excel:

  • Riportare in una colonna il set di dati a disposizione. Da qui in poi per noi sarà la colonna A e i nostri dati esempio saranno distribuiti da A2 a A1001
  • Riportare in una cella il numero totale di dati (qui cella C2).
  • Individuare il valore massimo del set di dati. Utilizzare la funzione =max(A2:A1001)
  • Individuare il valore minimo del set di dati. Utilizzare la funzione =min(A2:A1001)
  • Calcolare il numero delle categorie da utilizzare per l’istogramma. Usare la funzione: =2*C2^(2/5). Nel nostro caso essendo mille dati tale valore corrisponderà a 31.
  • Ampiezza categorie: si calcola rapportando la differenza tra il massimo ed il minimo con il numero delle categorie. Se il max=10 ed il min=6, l’ampiezza sarà data da:

  • Categorie: ogni categoria dovrà essere rappresentata dal suo valore centrale. Il primo valore sarà dato dal valore minimo meno il valore della semiampiezza delle categorie (nel nostro caso 6-0,135). La seconda categoria sarà data dal valore della prima categoria più l’ampiezza delle categorie. La terza categoria sarà data dal valore della seconda categoria più l’ampiezza delle categorie. Così via si continua fino a superare il valore massimo.
  • Adesso bisogna calcolare le frequenze o il numero di conteggi per ciascuna categoria. Per eseguire questo calcolo ci viene in aiuto la formula di excel frequenza(). Vediamo con un esempio l’utilizzo di tale formula. Si immagini di voler tra i dati distribuiti nelle celle A2:A1001 quanti di questi sono minori del valore 15. La formula dovrà essere scritta nel seguente modo: =frequenza(A2:A1001;15). In alternativa si potrà utilizzare la formula CONTASE(A2:A1001;”<”&15). Nel caso dei rettangoli di un’istogramma, il conteggio di interesse è quello dei dati compresi tra il valore minimo e massimo del rettangolo (calcolabili rispettivamente dal valore centrale più e meno il valore della semiampiezza dei rettangoli. Immaginando un rettangolo con valore centrale uguale a 15 e semiampiezza pari a 1, le formule di excel da utilizzare saranno:

=frequenza(A2:A1001;16) – frequenza(A2:A1001;14)

=CONTAPIUSE( A2:A1001;”<”&16; A2:A1001;”>=”&14)

  • infine, poiché l’istogramma è un aerogramma, sarà l’area del rettangolino di ciascuna categoria a rappresentarne la frequenza. L’altezza di ciascun rettangolo sarà dunque data dal rapporto del numero di conteggi per quella categoria diviso l’ampiezza del rettangolo. Le due formule di excel, nel caso dell’esempio di ampiezza pari a 2 diventano:

=(frequenza(A2:A1001;16) – frequenza(A2:A1001;14))/2

=CONTAPIUSE( A2:A1001;”<”&16; A2:A1001;”>=”&14)/2

  • A questo punto per ottenere l’istogramma basterà selezionare la colonna delle categorie con quella del rapporto delle frequenze con l’ampiezza del rettangolo ed inserire un grafico a collonna 2-D impostando le categorie sell’asse orizzontale e la serie di valori calcolati nel punto precedente sull’asse delle ordinate.
  • Infine, facendo doppio click su uno dei rettangoli, comparirà la finestra delle opzioni della serie dei dell’istogramma. Impostare il valore di separazione dei due rettangoli a 0% in modo da avere un grafico continuo.

In questo modo avete ottenuto il vostro istogramma delle frequenze.

Sovrapporre una funzione gaussiana nel caso di dati distribuiti normalmente

Se hai un set di dati distribuito normalmente ed hai visto la prima immagine di questo articolo sarai stato sicuramente colpito dalla possibilità di sovrapporre il grafico della funzione gaussiana corrispondente. Scorrendo la rete non ho trovato questa informazione da nessuna parte. Molti utenti in rete affermano che provandoci ottengono una gaussiana o più alta o più bassa rispetto ai rettangoli dell’istogramma.

Per capire la logica per aggiungere il grafico di una curva a campana dobbiamo partire da un concetto fondamentale. La funzione di Gauss rappresenta una densità di probabilità per cui è l’area sottesa in un intervallo a rappresentare la probabilità o la frequenza con la quale possono verificarsi i valori compresi in tale intervallo. Se quindi rappresentassimo la funzione di Gauss utilizzando i valori che essa avrebbe rispetto al valore centrale delle classi, otterremmo un grafico con un’altezza diversa rispetto ai rettangoli dell’istogramma. Il risultato finale non è quindi visivamente semplice da interpretare e fuorviante,

Poichè l’istogramma è un’areogramma, occorre anche in questo caso ragionare per aree. In particolare ad ogni categoria/classe dovrà essere associato il valore dell’area della funzione di Gauss compresa nell’intervallo definito dal valore minimo e massimo di quella categoria. Per farlo in excel procederemo nel seguente modo:

  • Calcolare media e deviazione standard del nostro set di dati. Immaginiamo media 20 e deviazione standard 3
  • Identificare per ogni categoria il valore più alto e più basso (valore centrale più o meno il valore delle semiampiezze)
  • Calcolare l’area di una distribuzione normale compresa tra tali valori per ogni categoria. Nell’esempio di una categoria con valore centrale 15 e semiampiezza 1, l’area è calcolata utilizzando la formula:

DISTRIB.NORM.N(16;20;3;vero) – DISTRIB.NORM.N (14;20;3;vero)

  • Si noti che l’ultimo argomento è impostato su vero. Questo perché stiamo utilizzando la funzione cumulativa di cui troverai una spiegazione approfondita nel seguente articolo

  • Se il nostro istogramma non è normalizzato (ovvero i dati delle frequenze non sono stati divisi per il numero dei dati complessivi) la funzione avrà ancora un’altezza diversa da quella dei rettangoli. Questo perché stiamo utilizzando una funzione gauss normalizzata (area totale 1) sovrapposta ad un istogramma non normalizzato. Per renderla comparabile occorre moltiplicare i valori calcolati nel punto precedente per il numero dei dati totali e dividere per l’ampiezza delle classi. Se nel caso precedente abbiamo 1000 dati e l’ampiezza delle classi è pari a 2, la formula sarà aggiornata a:

(DISTRIB.NORM.N (16;20;3;vero) – DISTRIB.NORM.N (14;20;3;vero))*1000/2

In generale sarà:

formula generale

  • Tale valore dovrà essere calcolato per ciascuna classe del nostro istogramma.
  • A questo punto porsi sull’istogramma e con il tasto destro del mouse selezionare dal menù la voce “seleziona dati”. Nella finestra che appare selezionare “aggiungi serie” e selezionare sul foglio excel l’intervallo dei dati calcolati nel precedente punto.
  • Otterremo un grafico con due istogrammi, uno con i dati reali e l’altro con i dati derivanti dalla funzione di gauss.
  • Selezionare il nuovo istogramma e cambiare il tipo di grafico in grafico a linee. Per farlo andare su Progettazione → cambia tipo di grafico → grafico a linee
  • Otterrai così il tuo istogramma con una curva a campana.

Se hai trovato utile questo articolo condividilo. Ci aiuterai a farci conoscere.

Come realizzare un’istogramma delle frequenze con gaussiana in excel
Tag: