B030012 - DATA SCIENCE FOR ECONOMICS

English Version

Principali informazioni

Lingua Insegnamento

Contenuto del corso

Libri di testo consigliati

Obiettivi Formativi

Prerequisiti

Metodi Didattici

Altre Informazioni

Modalità di verifica apprendimento

Programma del corso

Il corso utilizza in parte materiali e risorse online

Anno Accademico 2023-24

Coorte 2021 - Laurea Triennale (DM 270/04) in ECONOMIA E COMMERCIO

Anno di corso

Terzo Anno - Secondo Semestre

Dipartimento di Afferenza

Scienze per l'Economia e l'Impresa

Tipo insegnamento

Attività formativa monodisciplinare

Settore Scientifico disciplinare

SECS-S/03 - STATISTICA ECONOMICA

Crediti Formativi

Ore Didattica

Periodo didattico

19/02/2024 ⇒ 31/05/2024

Frequenza Obbligatoria

Tipo Valutazione

Voto Finale

Contenuto del corso

mostra

Programma del corso

mostra

Docenza

CIPOLLINI FABRIZIO

Lingua Insegnamento

Inglese

Contenuto del corso

Il corso presenta strumenti statistici, di machine learning e di programmazione in R che sono alla base della Data Science.

Libri di testo consigliati (Cerca nel catalogo della biblioteca)

Il materiale è reso disponibile sulla pagina Moodle del corso.
Indicazioni su fonti che utilizzano R per la Data Science vengono forniti durante il corso.

Obiettivi Formativi

Fornire conoscenze e competenze di base nell'ambito della Data Science. Le sessioni di laboratorio con R mirano ad applicare alcune delle metodologie presentate a lezione ed evidenziare le problematiche operative legate alle applicazioni sui dati.

Prerequisiti

Familiarità con la statistica descrittiva e la statistica inferenziale di base (argomenti trattati nel corso B018993-STATISTICA); familiarità con gli strumenti base di econometria (argomenti trattati nel corso B018990-INTRODUZIONE ALL'ECONOMETRIA)

Metodi Didattici

Lezioni frontali e sessioni di laboratorio.

Altre Informazioni

Per accedere alla pagina Moodle del corso è necessario chiedere alla docente di essere autenticati, scrivendo una e-mail dal proprio indirizzo istituzionale UNIFI.

Modalità di verifica apprendimento

L'esame è orale. Le domande riguardano l'intero programma. Vengono valutati: il livello di comprensione dei vari argomenti, le capacità di presentazione e la padronanza del linguaggio tecnico relativo al contesto di interesse.
Prima dell'orale lo studente predispone un report sull'analisi di dati reali (mediante gli strumenti presentati nel corso) da completare entro una settimana prima dell'orale.

Programma del corso

Introduzione alla data science; variabili categoriche vs continue.

Setup tecnico; previsione e modellazione; variabili outcome e feature; dati original e live; errore di previsione e scomposizione dell'errore; funzioni di perdita, perdite medie, perdite attese; scomposizione dell'errore quadratico medio (MSE) e complessità del modello; approcci generali per trovare la migliore complessità del modello (penalizzazione, suddivisione del campione, cross-valiidation CV).

Introduzione a R; R per data science.

Previsione di variabili continue:
- Regressione lineare; regressione lineare stepwise; regressione lineare regolarizzata (Ridge, Lasso, Elastic Net), selezione dell'iperparametro di penalità; previsione; pro e contro.
- Recursive partitioning (rpart); algoritmo di base; albero e i suoi elementi; parametro di complessità e tabella cp; trattamento dei valori mancanti, variabili surrogate; algoritmo completo; previsione; pro e contro.
- Bagging; algoritmo; vantaggi rispetto ad rpart; selezione del numero di repliche.
- Random forests; observation bagging vs feature bagging; vantaggi rispetto al bagging; selezione dell'iperparametro mtry; previsione; pro e contro.
- Gradient boosting machine (GBM); bagging vs boosting; algoritmo; GBM stocastico; tasso di apprendimento; iperparametri e selezione degli iperparametri; previsione; pro e contro.

Previsione di variabili categoriche:
- Setup tecnico; previsione di probabilità e classificazione; matrice di confusione e statistiche derivate; curva ROC;
- Regressione logistica; regressione logistica stepwise; regressione logistica regolarizzata (Ridge, Lasso, Elastic Net), selezione dell'iperparametro di penalità.
- Recursive partitioning per classificazione; albero e suoi elementi; control settings; funzione di impurity.
- Bagging per classificazione.
- Random forests per classificazione.
- Gradient boosting machine (GBM) per classificazione.