Abbiamo visto nel seguente articolo che esistono diverse distribuzioni di probabilità e che esse si distinguono in distribuzioni per variabili discrete e per variabili continue. In questo articolo vedremo una delle distribuzioni più conosciute per variabili discrete: la distribuzione binomiale.

Distribuzione binomiale

Eseguendo il lancio di una moneta sappiamo che la probabilità che possa uscire testa o croce è del 50%.  Lanciando una seconda volta, le probabilità rimangono invariate. Un tale evento, descritto da una variabile binaria (anche detta dicotomica) dove le probabilità di successo/insuccesso sono indipendenti dagli eventi temporalmente precedenti è detto evento di Bernoulli.

In alcuni casi però può essere utile chiedersi qual è la probabilità che su n di questi eventi k abbiano un determinato esito. Per esempio ci si può chiedere: “qual è la probabilità che lanciando la moneta 5 volte possa uscire testa in 2 occasioni?”. In questo caso, è necessario descrivere probabilisticamente non il singolo evento ma la serie dei 5 eventi. Una serie di eventi di Bernoulli di questo tipo è conosciuta come processo di Bernoulli ed è descritta da una distribuzione di probabilità per variabili discrete detta binomiale.

Tale distribuzione descrive non solo eventi come il lancio della moneta in cui i due esiti hanno pari probabilità di accadere. Prendiamo ad esempio il caso del lancio di un dado. Se siamo esclusivamente interessati al numero 6, sappiamo che la probabilità che esso esca è p=1/6 mentre la probabilità che non esca è q=1-p=5/6. Un evento con 6 possibili esiti è stato modificato in un evento a soli due esiti grazie all’interesse esclusivo verso il numero 6 (esce, non esce). In questo caso la distribuzione potrebbe essere usata per calcolare la probabilità che il numero 6 possa uscire 3 volte su 5 lanci. Nel paragrafo successivo deriveremo dall’esempio fatto sopra la distribuzione binomiale

Derivazione della distribuzione binomiale

Partiamo dall’evento lancio del dado e dalla variabile dicotomica coni seguenti valori: “6” e “diverso da 6”. Con un lancio singolo le probabilità sono rispettivamente 1/6 e 5/6. Lanciando tre volte il dado potremmo avere i seguenti esiti:

distribuzione binomiale: tabella

Dalla tabella si evincono due cose:

1) ad ogni esito si associa una probabilità pari a:

distribuzione binomiale: probabilità

Dove p è probabilità che esca 6, k il numero di volte che esce 6 ed n è pari a 3 numeri di lanci.

2) se ci poniamo il quesito: “qual è la probabilità che esca il 6 una sola volta”, questa sarà data dalla somma delle probabilità dei singoli esiti in cui il 6 è estratto una volta (casi 2 , 3 e 4).

Rispondere a quesiti come quello al punto 2 è lo scopo della distribuzione binomiale. Essa ci dice che dato un evento di Bernoulli e:

  • n numero di eventi
  • p probabilità di successo
  • q probabilità di insuccesso

La probabilità che k eventi su n abbiano successo è data dalla seguente formula:

distribuzione binomiale: formula

Differentemente dalla formula del punto uno (probabilità congiunta eventi indipendenti), quella sopra presenta un termine aggiuntivo:

distribuzione binomiale: fattoriale

detto coefficiente binomiale. Esso consente di calcolare il numero dei singoli casi favorevoli. Ad esempio, abbiamo visto che la probabilità che lanciando il dado 3 volte esca 1 solo 6 è data dalla somma dei casi 2,3 e 4. Verifichiamo se il coefficiente binomiale ci fornisce la stessa indicazione:

distribuzione binomiale: coefficiente binomiale

Anche il coefficiente binomiale ci dice che sono 3 i casi favorevoli.

Nel prossimo paragrafo vedremo come si ottiene il coefficiente binomiale. A questo seguirà una descrizione delle proprietà della distribuzione binomiale. Se non sei interessato alla derivazione del coefficiente binomiale ti consigliamo di saltare il prossimo paragrafo e di continuare con le proprietà della distribuzione binomiale.

Coefficiente binomiale

Per i curiosi in questo paragrafo cercheremo di capire perché il numero di casi favorevoli è dato dal coefficiente binomiale. Lo faremo considerando l’esempio di sopra aumentando il numero dei lanci a 4 e studiando il caso di 1 lanci con esito 6 e 3 lanci con esito non 6. Vogliamo conoscere quanti eventi corrispondono a tale eventualità. Prima però studiamo un caso generale. i tratta del caso di 4 oggetti indicati com le lettere A, B, C e D e vogliamo calcolare il numero delle possibili permutazioni in 4 caselle. Il calcolo è eseguito in questo modo:

distribuzione binomiale: permutazioni

  • occupiamo la prima casella. Il numero di possibilità è pari a 4. Qualunque oggetto può finirvi dentro.
  •  per la seconda casella il numero di possibilità si riduce a 3 perché un oggetto è finito nella prima casella. Il numero di combinazioni per le due caselle è allora dato da 4×3
  • terza casella. Solo 2 possibilità, possibili permutazioni delle tre caselle  sono 4x3x2
  • quarta casella, 1 solo oggetto rimasto, le permutazioni sono le stesse dell’ultimo caso ma le indichiamo con 4x3x2x1 = 4!.

Il numero di permutazioni è quindi 4! (In generale n!). Queste permutazioni sono:

distribuzione binomiale: permutazioni

 

Facciamo adesso delle sostituzioni. Ovvero sostituiamo alle lettere A,B,C e D  i valori del nostro esempio (1 volta esce 6 e 3 volte non 6). La tabella diventa:

distribuzione binomiale: spiegazione coefficiente binomiale

 

Nella nuova tabella abbiamo riportato nello stesso colore i casi identici. Abbiamo quindi solo 4 combinazioni possibili di disporre un 6 e tre non 6 in 4 caselle (questo accade perché alcuni oggetti sono identici). Ma come è possibile calcolare sistematicamente tale numero senza far ricorso allo stratagemma dei colori sopra? Banalmente potremmo usare la formula:

distribuzione binomiale: combinazioni

ma come si calcola il numero di combinazioni identiche? Vediamo come esempio quante volte è possibile disporre 1 6 e 3 non 6 nel seguente ordine:

non 6| 6 | non 6| non 6

Dalla regola dell n! vista sopra possiamo dire che:

  • Possibili combinazioni di disporre 3 “non 6” in 3 caselle: 3!
  • Possibili combinazioni di disporre un “6” in una casella: 1!

Il numero di possibilità di disporre 3 “non 6” ed 1 “6” in 4 caselle è allora dato dal prodotto 3!1!. In generale si può dire che su n caselle il numero di possibili combinazioni in cui disporre k elementi di un tipo ed n-k elementi di un altro tipo è data da: k! (n-k)!

Il numero di combinazioni è dato allora da:

che è proprio il coefficiente binomiale!

Proprietà della distribuzione binomiale

La distribuzione binomiale:

distribuzione binomiale: formula

dipende da 3 fattori: n,k e p. In questo paragrafo vedremo come la distribuzione varia al variare dei suoi 3 parametri e come calcolare alcune sue statistiche (media e varianza) . Attenzione: In tutti i grafici che riporteremo, le curve saranno indicate da un tratto continuo. Questo è formalmente sbagliato in quanto si tratta di una funzione discreta. La scelta di utilizzare un tratto continuo è dettata semplicemente dall’esigenza di semplificare al lettore la lettura delle curve.

p costante e n variabile

Riportiamo nel seguente grafico l’andamento della distribuzione binomiale P(k) in funzione del numero di successi k parametrizzando n e assumendo costante p.

distribuzione binomiale: al variare di n

Come si evince dal grafico, all’aumentare del numero n di prove il picco della distribuzione si abbassa e si sposta a valori di k più elevati. Inoltre la distribuzione si allarga. L’utilizzo, che sottolineiamo non corretto, del tratto continuo consente di osservare che la distribuzione binomiale ha un andamento a campana con code asimmetriche.

n costante e p variabile

Riportiamo nel seguente grafico l’andamento della distribuzione binomiale P(k) in funzione del numero di successi k al variare del valore p e assumendo costante n.

distribuzione binomiale: al variare di p

 

All’aumentare della probabilità p, la distribuzione si stringe ed il suo picco aumenta in intensità a valori più bassi di k.

Caratteristiche statistiche di una distribuzione binomiale

La media e la deviazione standard di una distribuzione binomiale sono date dalle seguenti formule:

distribuzione binomiale: media

distribuzione binomiale: varianza deviazione standard

vediamo di ricavare il valore della media direttamente dalla funzione distribuzione di probabilità. La media di una funzione di probabilità può essere definita come:

poiché la nostra distribuzione è in funzione di k:

distribuzione binomiale

A questo punto è possibile tirar fuori dalla sommatoria il fattore np:

il primo termine della sommatoria, quello con k=0, è nullo (si ricordi che 0! =1):

poiché il primo termine è nullo:

ai termini con n-ki aggiungiamo e sottraiamo 1:

semplificando ki al numeratore e denominatore, si può riscrivere:

definendo c= k-1 e m = n-1 otteniamo:

poiché dal teorema binomiale:

allora potremmo riscrivere:

 

facendo entrare q elevato ad m all’interno della parentesi otterremo (q+p) elevato a m. Ma q+p=1. Quindi:

la media di una distribuzione binomiale è data dal numero di prove per la probabilità di un successo. Per quanto riguarda la varianza, si può dimostrare, ma non lo faremo, che:

Funzione di ripartizione

Come per altre distribuzioni di probabilità, può accadere di non essere interessati alla probabilità che k eventi abbiano un determinato esito, quanto alla probabilità che ci siano un numero di successi maggiore o minore di un valore k. In questo caso si ricorre al concetto di probabilità cumulata. Nel caso di una distribuzione discreta come la binomiale essa sarà banalmente data dalla somma di tutte le probabilità dei valori minori o maggiori di un valore k.

Cerchiamo di fare un esempio concreto. Ammettiamo che in una linea di produzione sappiamo che in media abbiamo uno scarto di due componenti ogni 100 prodotti. Possiamo ammettere, per inferenza statistica, che la probabilità che un componente sia difettoso è dello 0,02 (la nostra p). Ci chiediamo adesso: su una produzione di 1000 pezzi, qual è la probabilità di avere più di 20 componenti difettosi? Basterebbe allora calcolare dalla distribuzione binomiale i valori della probabilità per k=21; k=22; k=23…. k=1000 e sommare tali valori. In alternativa si può sottrarre ad 1(certezza) la somma delle probabilità per k=0, k=1 … k=20.

Per non eseguire calcoli così iterativi, viene definita la funzione di ripartizione:

che nel caso di una funzione binomiale diventa:

Di seguito si riporta l’andamento di tale funzione rispetto a k al variare del numero di prove n ed assumendo p=0,5.

distribuzione binomialementre in funzione della probabilità p essa diventa:

distribuzione binomiale: ripartizione

Approssimazione con distribuzione normale

Per valori sufficientemente elevati di n ed un valore di p prossimo a 0,5 la distribuzione binomiale ha un andamento molto simile a quello di una gaussiana. Vediamo nel grafico seguente la sovrapposizione di una distribuzione binomiale con n=100 e p=0,5 ed una gaussiana avente come media np e varianza np(1-p):

 

 

distribuzione binomiale: approssimazione gaussiana

Per valori più piccoli di n e p, la distribuzione binomiale perde l’andamento a campana e può essere invece meglio caratterizzata da una distribuzione di Poisson.

E’ bene però precisare che la distribuzione normale esprime una densità di probabilità (caratteristica di variabili continue) mentre la distribuzione binomiale rappresenta la probabilità (caratteristica di variabili discrete). Per superare questo problema occorre effettuare una  correzione di continuità. Questa correzione viene eseguita nel momento in cui si vuole calcolare la probabilità binomiale dalla normale. Invece di calcolare la probabilità puntuale (es. punto c) si calcola la probabilità di un intervallo compreso tra c-1/2 e c+ 1/2:

Distribuzione di probabilità binomiale
Tag: