In questo articolo vedremo quali metodi possono essere utilizzati per definire la distribuzione di un set di dati continui.  Se vuoi tornare allo Step 2 del tuo percorso per dati continui seleziona il seguente link. Se vuoi invece tornare alla pagina principale di questo percorso clicca qui.

In generale, teorizzare un fenomeno di qualsiasi natura che dipende da variabili aleatorie richiede l’introduzione del concetto di distribuzioni di probabilità. Una distribuzione di probabilità è un modello matematico che mette in relazione dei valori con la probabilità che la variabile aleatoria possa assumerli.

Per questo motivo, spesso a seguito di una raccolta dati o nell’analisi di un campione è necessario eseguire un’analisi delle frequenze per definire quale distribuzione descriva meglio il fenomeno in studio.

In genere per conoscere quale distribuzione descriva meglio un fenomeno si possono percorrere due strade:

  • arrivarci per via teorica
  • Eseguire un fitting dei dati. Ovvero verificare che una distribuzione descriva correttamente l’andamento dei nostri dati.

distribuzione di dati continui

Nel prossimo paragrafo vedremo quali metodi di fitting sono più utilizzati per definire la distribuzione di un set di dati continui.

Metodi per definire la distribuzione di un campione di dati continui

Riportiamo di seguito l’elenco dei metodi di fitting più utilizzati per definire la distribuzione di un set di dati continui. Tali metodi si basano sul confronto del nostro set di dati con una distribuzione ipotizzata per esso.

Metodi grafici

 

Test statistici di Goodness of fit test (GOF) e metodi per la stima dei parametri statistici di una distribuzione di un set di dati continui
  • Test Kolmogorov-Smirnov (generalmente usato per campioni superiori a 2000 dati) (GOF)
  • Test Shapiro-Wilk (usato in alternativa al primo per campioni inferiori a 2000 dati)(GOF)
  • Lilliefors test for normality(GOF)
  • Test chi quadro o di Pearson di Goodness of fit(GOF)
  • Anderson-Darling(GOF)
  • Metodi per la stima dei parametri di una distribuzione:
    • Maximum likelihood
    • Ordinary least square

 

Step 3: Definire la distribuzione di un set di dati continui
Tag:                                         
%d blogger hanno fatto clic su Mi Piace per questo: