In questo appunto vediamo quali sono i metodi statistici più comunemente utilizzati per eseguire una previsione con dati continui. Se vuoi tornare alla home del cammino di scelta della statistica più adatta clicca il seguente link.

Predire un comportamento o un dato futuro è una delle richieste più comuni che possono essere fatte ad un data scientist. Alcuni esempi potrebbero essere: lo studio sulla domanda futura di un prodotto nel mercato; l’andamento nei prossimi mesi delle dimissioni in una grossa azienda; l’andamento dei prezzi di chiusura o apertura delle azioni di una particolare azienda. Proprio le attività di trading azionario si basano fortemente su metodi statistici che consentono di eseguire delle previsioni.

Tutte queste tecniche si basano su operazioni che consentono di ipotizzare un valore futuro partendo dall’analisi di dati già in possesso. È superfluo dire che le previsioni non sono mai certe. Esse hanno un grado di accuratezza che può essere espresso mediante degli indici di errore. La casualità dei dati o variazioni temporanee inattese possono far saltare qualsiasi previsione.

Prima di vedere quali sono i metodi statistici più utilizzati per eseguire delle previsioni con dati continui vediamo in che modo i vari metodi possono essere clusterizzati.

Tipologie di metodi di previsione con dati continui

Fare una previsione può richiedere l’utilizzo di tecniche statistiche più o meno complesse. La scelta del tipo di tecnica da utilizzare dipende molto dal tipo di problema affrontato e dal grado di confidenza desiderato.

In genere è possibile individuare tre tipi di metodologie predittive.

  • Metodi basati su esperienza od opinioni: si tratta di metodi che si basano su opinioni di esperti in un campo o su dati raccolti in survey. (non tratteremo in questo appunto tali metodi)
  • Metodi  relativi a dati esprimibili in sequenze temporali: si tratta di metodi di previsione con dati continui che spesso vengono utilizzati quando una caratteristica y è monitorata nel tempo (pensiamo al caso delle run chart o control chart). Questi metodi verificano l’eventuale presenza di trend, cicli, stagionalità o variazioni particolari dei dati
  • Metodi di previsione causali. A differenza dei precedenti, i metodi causali non si basano sull’andamento temporale dei dati.  In tali metodi si cerca una relazione della caratteristica y in funzione di altre variabili indipendenti. Una volta costruito il modello è possibile eseguire una previsione su un particolare valore o valori della o delle variabili indipendenti. Tale previsione può essere ad esempio eseguita sia mediante estrapolazione che interpolazione.

Vediamo nei prossimi paragrafi quali sono le principali tecniche per ogni tipo di metodologia di previsione.

Metodi di previsione con dati continui in presenza di sequenze temporali

Vediamo come eseguire una previsione con dati continui quando la caratteristica di interesse è monitorata nel tempo.  Queste tecniche sono più attendibili nel caso di previsioni a breve termine. Man mano che il periodo di previsione si allunga è più probabile che si perda parte della correlazione tra il presente ed il futuro

  • Metodo Naive: si tratta del metodo più semplice per eseguire una previsione. In questo caso la previsione sul futuro è praticamente identica all’ultimo periodo disponibile. Ciò significa che la previsione delle vendita della prossima settimana è uguale alle vendite della settimana in corso e che quelle di questa estate saranno identiche a quelle della scorsa estate.
  • Moving average method: si tratta di un metodo nel quale l’andamento temporale originale è sostituito da un andamento in cui ogni punto è pari alla media di n punti della chart originale. Per capire meglio, nel grafico sotto, il primo punto della curva blu è dato dalla media dei 3 punti precedenti della curva nera.
previsione con dati continui: average methodQuesta particolare tecnica di smoothing addolcisce i punti di maggiore asperità grazie al calcolo della media. Infatti, la media consente di eliminare o attenuare l’effetto degli spike o delle stagionalità nei dati originali. Maggiore è n (numero di dati da mediare) e più dolce sarà la curva.
  • Weighted average methods: si tratta ancora di una tecnica di smoothing usata per eseguire previsione con dati continui. In questo caso, ogni punto è la media pesata di n punti della chart originale. In questo caso, però, i punti più recenti hanno maggior peso nella media dei punti meno recenti
  • Smoothing esponenziale: Si tratta di un particolare tipo di weighted average method. In questo caso il peso con cui vengono mediati i vari valori è dato da una funzione esponenziale.
  • Linear or multiple regression: vedremo nel prossimo paragrafo che i metodi di  regressione sono  utilizzati anche per modelli causali. Nel caso di sequenze temporali, ad esempio la linear regression è utilizzata quando i dati mostrano un trend. In questi casi si vuole prevedere a quali valore questo trend porterà nel futuro
  • Modello lineare autoregressivo: si tratta ancora di un modello lineare in cui però i valori della caratteristica in esame dipendono linearmente dai che lo precedono nel tempo:
previsione con dati continui: modello lineare autoregressivo
Metodi causali di previsione con dati continui

Si tratta di metodi in cui la caratteristica di interesse è dipendente secondo un rapporto causa effetto da altre variabili indipendenti misurabili.

Vediamo quali sono i metodi più utilizzati:

  • Linear regression: questa tecnica viene utilizzata quando le variabili y ed x mostrano una relazione lineare. Con tale tecnica si individua la retta che meglio approssima i dati mediante tecniche di minimizzazione dell’errore (es. metodo dei minimi quadrati). Da tale retta si calcola il valore della variabile y ad un desiderato valore di x. Se il calcolo viene effettuato per un valore di x al di fuori dell’intervallo su cui è stata calcolata la retta si parla di estrapolazione del dato. Se invece è effettuata all’interno dell’intervallo si parla di interpolazione
  • Multiple linear regression: questa tecnica è utilizzata quando una variabile y dipende linearmente da n variabili x. Ciò significa che la variabile y dipende dalle variabili x secondo una relazione del tipo:
previsione con dati continui: multiple linear regressionOvvero se si fissa un valore per xn-1 variabili, la relazione tra y e la xn variabile è esprimibile con una semplice retta. I modelli di regressione multipla possono tenere in considerazione anche casi in cui alcune variabili dipendenti interagiscono tra loro:
previsione con dati continui : interazione variabiliAnche nel caso della multiple linear regression si utilizzano dei metodi per individuare quale funzione ad n variabili approssima meglio i dati a disposizione.  Una volta individuato il modello è importante definire quanto questo sia adatto mediante test quali goodness of fit.
  • Linearizzare modelli non lineari: per facilitare l’analisi di dati che mostrando andamenti non lineari ma definibili da polinomi a più gradi del tipo:
previsione con dati continui: come linearizzare un andamento non linearein tali casi, se invece di valutare la relazione della variabile indipendente y con le variabili dipendenti x1, x2, x3… lo si facesse con i logaritmi di tali variabili si avrebbe:
previsione con dati continui: dipendenza logaritmicache di fatto esprime una relazione lineare. È tuttavia importante non confondersi nella interpretazione di eventuali risultati di analisi.
  • Stepwise regression models: si tratta di metodi automatici con i quali è possibile costruire un modello di regressione. Esso si basa sul concetto di costruire il modello individuando step by step (passo dopo passo) le variabili predittive che hanno maggiore significatività. Ci sono modelli che partono da 0 ed aggiungono volta per volta le variabili predittive che hanno più significatività (step-up methods). Il processo è iterativo fino ad arrivare ad un punto nel quale l’aggiunta di un’ulteriore variabile non aumenta ulteriormente la significatività del modello. Altri metodi invece considerano tutte le possibili variabili predittive e poi eliminano quelle meno significative. Il processo termina quando non è più possibile eliminare variabili poco significative.
Step 3: metodi statistici di previsione con dati continui
Tag:                                 
%d blogger hanno fatto clic su Mi Piace per questo: