Il materiale è reso disponibile sulla pagina Moodle del corso.
Indicazioni su fonti che utilizzano R per la Data Science vengono forniti durante il corso.
Obiettivi Formativi
Fornire conoscenze e competenze di base nell'ambito della Data Science. Le sessioni di laboratorio con R mirano ad applicare alcune delle metodologie presentate a lezione ed evidenziare le problematiche operative legate alle applicazioni sui dati.
Prerequisiti
Familiarità con la statistica descrittiva e la statistica inferenziale di base (argomenti trattati nel corso B018993-STATISTICA); familiarità con gli strumenti base di econometria (argomenti trattati nel corso B018990-INTRODUZIONE ALL'ECONOMETRIA)
Metodi Didattici
Lezioni frontali e sessioni di laboratorio.
Altre Informazioni
Per accedere alla pagina Moodle del corso è necessario chiedere alla docente di essere autenticati, scrivendo una e-mail dal proprio indirizzo istituzionale UNIFI.
Modalità di verifica apprendimento
L'esame è orale. Le domande riguardano l'intero programma. Vengono valutati: il livello di comprensione dei vari argomenti, le capacità di presentazione e la padronanza del linguaggio tecnico relativo al contesto di interesse.
Prima dell'orale lo studente predispone un report sull'analisi di dati reali (mediante gli strumenti presentati nel corso) da completare entro una settimana prima dell'orale.
Programma del corso
Introduzione alla data science; variabili categoriche vs continue.
Setup tecnico; previsione e modellazione; variabili outcome e feature; dati original e live; errore di previsione e scomposizione dell'errore; funzioni di perdita, perdite medie, perdite attese; scomposizione dell'errore quadratico medio (MSE) e complessità del modello; approcci generali per trovare la migliore complessità del modello (penalizzazione, suddivisione del campione, cross-valiidation CV).
Introduzione a R; R per data science.
Previsione di variabili continue:
- Regressione lineare; regressione lineare stepwise; regressione lineare regolarizzata (Ridge, Lasso, Elastic Net), selezione dell'iperparametro di penalità; previsione; pro e contro.
- Recursive partitioning (rpart); algoritmo di base; albero e i suoi elementi; parametro di complessità e tabella cp; trattamento dei valori mancanti, variabili surrogate; algoritmo completo; previsione; pro e contro.
- Bagging; algoritmo; vantaggi rispetto ad rpart; selezione del numero di repliche.
- Random forests; observation bagging vs feature bagging; vantaggi rispetto al bagging; selezione dell'iperparametro mtry; previsione; pro e contro.
- Gradient boosting machine (GBM); bagging vs boosting; algoritmo; GBM stocastico; tasso di apprendimento; iperparametri e selezione degli iperparametri; previsione; pro e contro.
Previsione di variabili categoriche:
- Setup tecnico; previsione di probabilità e classificazione; matrice di confusione e statistiche derivate; curva ROC;
- Regressione logistica; regressione logistica stepwise; regressione logistica regolarizzata (Ridge, Lasso, Elastic Net), selezione dell'iperparametro di penalità.
- Recursive partitioning per classificazione; albero e suoi elementi; control settings; funzione di impurity.
- Bagging per classificazione.
- Random forests per classificazione.
- Gradient boosting machine (GBM) per classificazione.