Questi sono i contenuti dei corsi di probabilità e statistica per chi si iscrive per la prima volta al primo anno a partire dall'a.a. 2014/2015.
ATTIVITÀ FORMATIVA | CONTENUTI / OBIETTIVI SPECIFICI |
---|---|
STATISTICA DESCRITTIVA
|
Obiettivi: Fornire i principali concetti e metodologie per l'analisi dei dati univariati e multivariati da un punto di vista descrittivo. Prerequisiti: Nozioni di base della scuola secondaria superiore. Nozioni di Algebra lineare e geometria analitica. Propedeuticità: nessuna Programma: Statistica univariata e bivariata Variabili qualitative. Frequenze assolute e relative, legge di una variabile, legge congiunta e leggi marginali di due variabili, leggi condizionate (profili riga e profili colonna), indipendenza; rappresentazioni grafiche. Variabili quantitative. Funzioni di distribuzione, di distribuzione cumulata e dei quantili e loro rappresentazioni grafiche; indici di centralità e dispersione basati sui momenti e sui quantili e loro proprietà legati alle metriche L1 e L2. Covarianza e correlazione tra due variabili quantitative. Interpretazione geometrica di varianza, covarianza, correlazione Statistica multivariata Cluster analysis. Aggregazione gerarchica secondo la distanza e secondo l’inerzia. Indici di aggregazione e dendogramma. Ultrametrica. Aggregazione non gerarchica (centri mobili e k-means, termine del processo di aggregazione, scelta dei punti iniziali, raggruppamenti stabili). Aggregazione delle variabili. Analisi in componenti principali. Rappresentazione di n dati quantitativi multivariati (punti riga della matrice dei dati, in Rp) in uno spazio vettoriale di dimensione ridotta e fedeltà della rappresentazione. Cambio di base (autovettori della matrice di correlazione). Proprietà delle nuove variabili. Altra interpretazione geometrica della correlazione fra variabili e corrispondente rappresentazione grafica. Regressione multipla. Spazio vettoriale generato dalle variabili esplicative (punti colonna della matrice dei dati, in Rn). Minimi quadrati lineari e significato geometrico della minimizzazione dei residui. Significato geometrico della decomposizione della varianza della variabile risposta (in Rn). Bontà del modello: grafico dei residui e indice R-sq (e sua interpretazione geometrica). Esercitazioni al calcolatore con il software R Testi consigliati: Rapallo, Rogantin (2004). Statistica multivariata. CLUT Torino Consultare le integrazioni e gli esercizi sul sito del corso Per la parte di Analisi della varianza consultare le dispense a questo link pagine 39-45 (escluso il test) Modalità di esame: scritto - orale - laboratorio Maggiori dettagli sulla pagina web dell'insegnamento su Aulaweb dell'anno accademico in corso. |
PROBABILITÀCrediti: 8 Ore: 84 Anno: Semestre: Titolare: Esercitatori: |
Obiettivi: Fornire i concetti di base per poter costruire un modello probabilistico. Prerequisiti: Argomenti svolti in Analisi Matematica I (successioni, serie numeriche, teoria dell’integrazione) Programma: 1) Modelli Probabilistici: Spazio campionari, eventi, misure di probabilità; Spazi di probabilitaà finiti; Probabilità condizionata, probabilità totale e regola di Bayes; Indipendenza stocastica 2) Variabili casuali discrete: Legge di una variabile; Funzioni di variabili casuali; Leggi notevoli (uniforme, di Bernoulli, binomiale, di Poisson, geometrica, ipergeometrica), Condizionamento, indipendenza; Distribuzione di probabilità congiunta; Speranza matematica, varianza, disuguaglianza di Chebycev, disuguaglianza di Jensen g) Covarianza e correlazione 3) Variabili casuali arbitrarie: Variabili casuali con densità, funzione di distribuzione cumulativa; Densità notevoli (uniforme, esponenziale, normale); Speranza matematica, varianza, disuguaglianza di Cauchy-Schwarz 4) Vettori casuali: Legge di una vettore casuale, funzioni di ripartizione e di densità congiunte e marginali; Condizionamento, indipendenza; distribuzione condizionata e speranza condizionata; vettori gaussiani; trasformazioni vettori, metodo della funzione di ripartizione, somma di v.a. e integrale di convoluzione, metodo dello Jacobiano per trasformazioni vettoriali. Trasformazioni lineari vettoriali; Funzioni caratteristiche. Definizione e proprietà. Teorema di inversione e criteri per lÕindipendenza. Teorema di Paul Levy. 5) Teoremi limite: Legge (debole) dei grandi numeri; Il teorema limite centrale; Somme di variabili aleatorie indipendenti Testi consigliati: Dispense a cura dei docenti (disponibili su Aulaweb). P. Baldi (1998) Calcolo delle Probabilità e Statistica Matematica. 2 edizione McGraw Hill Italia Modalità di esame: scritto - orale - laboratorio (relazioni svolte durante l'anno). Maggiori dettagli sulla pagina web dell'insegnamento su Aulaweb dell'anno accademico in corso. |
STATISTICA INFERENZIALECrediti: 8 Ore: 64 Anno: Semestre: Titolare: Esercitatore: |
Obiettivi: Fornire i principali concetti e metodologie tipici dell’inferenza statistica, che permettono di passare da informazioni relative ad un campione a considerazioni sull'intero fenomeno e di valutare in termini probabilistici gli errori che si commettono nell’effettuare tale passaggio. Prerequisiti: Analisi matematica: funzioni di una variabile, calcolo integrale. Algebra: elementi di algebra vettoriale e matriciale. Calcolo delle probabilità: probabilità elementare, variabili aleatorie discrete e continue, legge dei grandi numeri e teorema del limite centrale. Propedeuticità: nessuna Programma: Campionamento e stima. Popolazioni, campioni. Stimatori. Intervalli di confidenza. Campionamento da popolazione finita. Verifica di ipotesi (ipotesi, errori di prima e seconda specie, statistiche test, regione critica). Test per parametri di v.a. con legge normale, esponenziale, ... Test per grandi campioni. Test comparativi. Cenno ai test non parametrici. Statistiche e test per il modello lineare multiplo. Intervalli di confidenza per i parametri, i valori stimati e i residui, test di ipotesi sui singoli coefficienti e su un sottoinsieme di coefficienti. Previsione. Statistiche e test per l'analisi della varianza. A una via, a due vie senza interazione e con interazione (caso bilanciato). Testi consigliati: Rogantin M.P. (2004), Introduzione alla statistica, C.L.U.T., Torino Ross S.M. (2003), Probabilità e statistica per l’ingegneria e le scienze, Apogeo, Milano Modalità di esame: scritto - orale. Maggiori dettagli sulla pagina web dell'insegnamento su Aulaweb dell'anno accademico in corso. |
LABORATORIO DI PROGRAMMAZIONE PER LA STATISTICACrediti: 6 Ore: 56 Anno: Semestre: Titolare: Esercitatore: |
Obiettivi: Introduzione e approfondimenti del sistema SAS Prerequisiti: Nozioni di programmazione Propedeuticità: nessuna Programma: La programmazione in SAS: i passi di Data e i passi di Proc. Il passo di Data. Creazione di Data Set SAS (da Data Set SAS, da file di testo, con dati nel programma). Program Data Vector. Manipolazione di Data Set SAS (selezione di osservazioni e di variabili). Funzioni SAS. Istruzioni Retain e sum. Uso degli array. Istruzioni Set by e first. last.. Lettura e manipolazione di DataSetSas di tipo diverso (istruzioni set, merge, update, proc append). Vari tipi di lettura di dati grezzi e attributi delle variabili. Formati per dati quantitativi, carattere e date. Il passo di Proc. Procedure Print, Means, Sort, Freq, Univariate, Format, Transpose. La Proc Report. Alcune rappresentazioni grafiche. Le Proc Gplot e Proc Gchart. Istruzioni grafiche globali. Alcune procedure statistiche : proc reg e proc anova. Le MACRO in SAS. Testi consigliati: Rapallo F., Repetto I., Rogantin M. P. (2002) Note introduttive al sistema SAS, dispense del Dipartimento di Matematica dell'Università di Genova, 4 edizione. Modalità di esame: Una prova scritta. La costruzione di un programma SAS (non richiesta alcuna relazione scritta) Una prova orale dove esporre il lavoro fatto e rispondere a domande sul linguaggio. |
STATISTICA APPLICATA 1Crediti: 6 Ore: 48 Anno: Periodo didattico: secondo Titolare: Interviene: |
Obiettivi: Presentare alcune tecniche statistiche per specifiche applicazioni in ambito industriale. Prerequisiti: Statistica inferenziale. Propedeuticità: nessuna Programma: Campionamento da popolazione finita. Stimatori della media e loro varianze nel campionamento semplice senza ripetizione e nel campionamento stratificato; casi di allocazione proporzionale e allocazione ottima. Serie temporali. Analisi descrittive: stazionarietÌ in media, varianza e covarianza. Funzione di autocovarianza totale e parziale; funzione di autocorrelazione. Processi stazionari del secondo ordine e processi invertibili. Modelli SARIMA. Statistica Ufficiale. Statistica pubblica, fonti statistiche, dato ufficiale, SISTAN, normativa sulla statistica, codici della statistica. Testi consigliati: V. Barnett (2020). Sample Survey: Principles and Methods, John Wiley and Sons, Ltd. C. Chatfield (1980). The analysis of Time Series: an introduction, Chapman and Hall. D. Piccolo C. Vitale (1981) Metodi statistici per l'analisi economica, Il Mulino Dispense distribuite a lezione Modalità di esame: orale - laboratorio. Maggiori dettagli sulla pagina web dell'insegnamento su Aulaweb dell'anno accademico in corso. |
STATISTICA MATEMATICA
|
Obiettivi: Saper utilizzare i principali metodi di stima e verifica di ipotesi statistiche nell’ambito della statistica matematica e saper inquadrare i problemi di stima parametrica in un contesto rigoroso dal punto di vista matematico-probabilistico. Prerequisiti: Analisi Matematica I e 2. Calcolo delle Probabilità . Propedeuticità: Probabilità Programma: Richiami di Calcolo delle Probabilità: le principali variabili aleatorie discrete e continue. Densità condizionata: caso discreto e caso continuo. Il concetto di speranza condizionata. Modelli e statistiche. La verosimiglianza di un campione. Statistiche Sufficienti, minimali, ancillari e complete; il teorema di Neyman-Fisher. Stimatori e loro proprietà; teorema di Rao-Blackwell. Trovare stimatori puntuali: metodo dei momenti, metodo dei minimi quadrati, stima di massima verosimiglianza e sue proprietà. Stimatori UMVUE. Il modello esponenziale. Informazione di Fisher e teorema di Cramer-Rao. Verifica di ipotesi. Il teorema di Neyman-Pearson per ipotesi semplici. Il test del rapporto di verosimiglianza. Testi consigliati: Appunti distribuiti a lezione. G. Casella e R.L. Berger. Statistical Inference. Wadsworth & Brooks/Cole, California 1990. Modalità di esame: scritto - orale L'esame di "Statistica matematica" è unico per le due parti. |
STATISTICA MATEMATICA
|
Obiettivi: Approfondire lo studio dell’ampia classe dei modelli lineari usando i metodi della statistica matematica. Prerequisiti: Argomenti di Statistica inferenziale e della prima parte di Statistica Matematica (quest'ultima svolta in parallelo) con corrispondenti prerequisiti. Propedeuticità: Probabilità Programma: Modelli lineari generali. ANOVA: fattori crossed e nested; dati non bilanciati. Modello sovraparametrizzato: diverse riparametrizzazioni e inversa generalizzata: aspetti teorici e implicazioni pratiche. Modello di regressione lineare multivariata e per misure ripetute. Modelli lineari generalizzati. Modelli esponenziali. Link function. Modelli per dati categorici (binomiale, multinomiale e Poisson). Stime dei coefficienti con metodi iterativi: Newton-Raphson, scoring. Distribuzioni asintotiche per statistiche basate sulla verosimiglianza. Test e indici per la bontà del modello: devianza, chi-quadro. Residui. Test e intervalli di confidenza per i parametri del modello e loro sottoinsiemi. Odd ratio e log-odd ratio. Modelli per dati ordinali e per tabelle di contingenza. Esercitazioni al calcolatore con il software SAS. Testi consigliati: Dobson A. J. (2001). An Introduction to Generalized Linear Models 2nd Edition. Chapman and Hall. Rogantin M.P. (2010). Modelli lineari generali e generalizzati. In rete. Modalità di esame: scritto - orale - laboratorio (relazioni svolte durante l’anno) L'esame di "Statistica matematica" è unico per le due parti. Maggiori dettagli sulla pagina web dell'insegnamento. |
PROCESSI STOCASTICICrediti: 7 Ore: 60 Anno: Periodo didattico: Teoria: Esercitatore: | Obiettivi: Introdurre le catene di Markov e altri semplici processi stocastici per modellare e risolvere problemi reali di evoluzione stocastica. Prerequisiti: Argomenti svolti in Algebra, Calcolo delle Probabilità Propedeuticità: Calcolo delle Probabilità Programma: Catene di Markov a tempo discreto. Applicazioni: Passeggiate aleatorie, code di attesa. Classificazione di stati. Criteri per la transienza e la ricorrenza. Probabilità di assorbimento nelle classi ricorrenti. Leggi invarianti. Teoremi limite. Convergenza verso leggi invarianti. Algoritmo di Metropolis. Catene di Markov a tempo continuo. Tempo della prima uscita dalla catena, equazioni di Chapman-Kolmogorov, leggi invarianti, catena dei salti, catene di nascita e morte, processo di Poisson. Cenni alla teoria delle code. Testi consigliati: P. Baldi, (1998) Calcolo delle probabilità e Statistica. McGraw Hill Italia W. Feller, An introduction to Probability Theory and its Applications. S. Karlin, H. Taylor, (1975) A First Course in Stochastic Process. Academic Press Dispense Modalità di esame: scritto e orale. Maggiori dettagli sulla pagina web dell'insegnamento su Aulaweb dell'anno accademico in corso. |
METODI STATISTICI IN BIOMEDICINA 1Crediti: 7 Ore: 58 Anno: terzo Semestre: Titolare:
|
Obiettivi: Introdurre al ragionamento di causa-effetto in biomedicina attraverso lo studio dei principali disegni di indagine, fornire un ampio panorama dell'analisi dei dati in epidemiologia ambientale e clinica con specifiche applicazioni informatiche. Prerequisiti: Nozioni di Statistica inferenziale. Propedeuticità: nessuna Programma: Epidemiologia generale. Definizione e scopi dell'epidemiologia. Esposizione/trattamento ed esito sanitario. Esperimenti epidemiologici: disegni sperimentali e quasi-sperimentali. Osservazioni epidemiologiche. Studi descrittivi: epidemiologia geografica, indagine trasversale ambientale e clinica. Studi pianificati: disegno, conduzione ed analisi. Introduzione alle indagine di coorte e caso-controllo. Indici di frequenza degli esiti sanitari: tasso, rischio, proporzione e odds. Stima del rischio: metodo di densità, metodo attuariale, metodo del prodotto-limite. Prevalenza, incidenza, sopravvivenza, mortalità. Relazioni causali: fattori di rischio, fattori di confondimento, modificatori d'effetto. Rischio relativo: rapporto tra tassi, rischi, proporzioni e odds. Analisi delle tabelle di contingenza: Il test di Pearson, di Mantel-Haenszel, di Wald. Cenni sul test del rapporto di verosimiglianza. Dimensione della ricerca epidemiologica. Esercitazione - Stima del tasso e del rischio in uno studio di coorte. Analisi delle tabelle di contingenza in uno studio caso-controllo. Geografia sanitaria. Standardizzazione dei tassi: metodo diretto (CMF/CIF) e indiretto (SMR/SIR) Standardizzazione interna ed esterna Confronto tra indici standardizzati: test chi quadro per l'eterogeneità e il trend Rapporto tra indici standardizzati: rischio relativo Variabili ecologiche, individuali e miste: fallacia ecologica. Cluster di eventi sanitari: probabilità e test di Stone. Esercitazione - Mortalità femminile per cancro polmonare e indicatori di inquinamento ambientale. Incidenza di neoplasie emolinfopoietiche ed esposizione ambientale a benzene. Regressione multipla in epidemiologia. Concetti generali. Il modello normale (additivo) e log-normale (moltiplicativo): il parametro di regressione e il median ratio. Il predittore lineare e la sua composizione: R2 aggiustato e Cp di Mallows. Il principio gerarchico. Correlazione tra predittori: quasi-collinearità artificiale e naturale. Le variabili nested, i predittori categorici e gli indicatori dummy. Interazione e combinazione lineare di parametri. Analisi della relazione dose-risposta: test per il trend, termini polinomiali e periodici. La regressione a pezzi: spline lineare, quadratico e cubico. Cenni sullo smoothing non-parametrica (lowess). Analisi del cambiamento: il cambiamento assoluto e percentuale. Analisi della covarianza. Indicatori riassuntivi di misurazioni longitudinali: area sotto la curva, regressione individuale, valore di picco. Diagnostica di regressione. Analisi di influenza: residui, leverages, punti influenti. Analisi di sensibilità. Esercitazione - Contaminazione ambientale da piombo ed effetti ematologici. Valutazione del danno genetico (comet assay) in pazienti diabetici. Classificazione clinica. Segnale e rumore Probabilità condizionate e formula di Bayes: sensibilità, specificità, valori predittivi e prevalenza Costruzione e interpretazione di una curva receiver operating characteristic (ROC) Test sull'area sotto la curva ROC: U di Mann-Whitney e metodo di Hanley-McNeil. Confronto tra curve ROC e analisi stratificata Curva ROC e curva di Lorenz. Esercitazioni - Capacità discriminante di biomarker oncologici. Testi consigliati: Vinei P, Duca PG, Pasquini P: Manuale di Metodologia Epidemiologica. Suppl. a Epidemiologia & Prevenzione n.32-33, 1987 (distribuito gratuitamente come fotocopia autorizzata) Fontana V , Parodi S, Puntoni M, Tazzer C, Viarengo P. Dispensa del Corso di Metodi Statistici in Ambito Biomedico, Parte 1 e 2 (distribuita gratuitamente) Modalità di esame: scritto - orale |
DATA MININGCrediti: 6 Ore: 48 Anno: terzo Periodo didattico: primo CORSO A SCELTA Titolari: Fabrizio Malfanti
|
Obiettivi: Sviluppare la capacità di estrarre sapere e conoscenza da grandi quantità di dati. Prerequisiti: nessuno Propedeuticità: nessuna Programma: Prima parte: Introduzione a Data Mining, Data Science e Big Data Analytics. Tecniche di analisi principali ed avanzate. Utilizzo del software R. I dieci algoritmi piu' utilizzati in data mining. Introduzione al mondo delle frodi, fraud manager, nuova professione: skill necessari e opportunita'. La ricerca delle frodi come analisi matematica/statistica del comportamento dell'utenza. Ricerca di pattern o anomalie nel comportamento dell'utenza. Altre applicazioni, text mining. Seconda parte: Introduzione al Data Mining e Machine Learning Richiami di inferenza statistica e tassonomia dei problemi di Data Mining. Classificazione: Support Vector Machine lineare e non lineare Esercitazione di laboratorio Regressione: Support Vector Regression lineare e non lineare Esercitazione di laboratorio Clustering: K-Means (con estensione tramite kernel) e Spectral Clustering Esercitazione di laboratorio Alberi di decisione Il problema della selezione e validazione dei modelli: k-fold Cross Validation e Bootstrap Testi consigliati: Dispense Ian H. Witten, Eibe Frank, Mark A. Hall (2000). Data Mining: Practical Machine Learning Tools and Techniques (The Morgan Kaufmann Series in Data Management Systems) ISBN-13: 978-0123748560. Disponibile presso il CSB di Ingegneria 006.312 WIT Clifton Phua, Vincent Lee, Kate Smith and Ross Gayler (2005). A Comprehensive Survey of Data Mining-based Fraud Detection Research, Computing Research Repository, abs/1009.6119. Disponibile online. N. Cristianini, J. Shawe-Taylor, An introduction to support Vector Machine and other kernel-based learning methods, Cambridge University Press, 2006 T. Mitchell, Decision Tree Learning, McGraw-Hill, 1997. A. Ng, M. Jordan, Y. Weiss, On spectral clustering: Analysis and an algorithm, NIPS 2001. Modalità di esame: scritto-orale. Prenotazione obbligatoria. Maggiori dettagli sulla pagina web del corso. |
STATISTICA APPLICATA 2Crediti: 6 Ore: 48 Anno: terzo Periodo didattico: CORSO A SCELTA Titolari: Ennio Ottaviani
Intervengono:
Gianpiero
Dalla Zuanna |
Obiettivi: Fornire alcuni strumenti statistici legati a specifiche applicazioni tramite interventi di esperti. Prerequisiti: Statistica Applicata 1 Propedeuticità: nessuna Programma: Applicazioni statistiche. Interventi di docenti esterni al mondo accademico che espongono le tecniche statistiche che utilizzano nel loro lavoro illustrandone la applicazione tramite esempi concreti. Testi consigliati: Modalità di esame: scritto - orale - laboratorio L’attività formativa, avendo un carattere prevalentemente seminariale e prevedendo anche docenti esterni, è rivolta a quegli studenti che possono frequentare regolarmente le lezioni. |
METODI STATISTICI IN BIOMEDICINA 2(non attivato nel 2013/14) Crediti: 6 Anno: Semestre: CORSO A SCELTA Titolare: |
Obiettivi: |
Prerequisiti: Argomenti del corso di Statistica Matematica | |
Propedeuticità: Metodi statistici in biomedicina 1 | |
Programma: Introduzione ai principali disegni di studi epidemiologici, con particolare riferimento alle indagini osservazionali (studi di coorte, caso-controllo, trasversali ed ecologici). I principali stimatori di frequenza e di associazione negli studi epidemiologici. Il controllo del confondimento in Epidemiologia, con particolare riferimento all’applicazione dei modelli di regressione. Il modello di regressione lineare negli studi epidemiologici. Il modello di regressione di Poisson negli studi di coorte e nelle indagini ecologiche. La regressione logistica nelle indagini epidemiologiche, con particolare riferimento agli studi caso-controllo. Una breve introduzione al modello di regressione di Cox nell’analisi della sopravvivenza. Introduzione alla classificazione in Biomedicina: test diagnostici, prognostici e di screening; indici di accuratezza diagnostica: sensibilità, specificità, indice di Youden, valori predittivi. Elementi di analisi ROC. Curve ROC e modello logistico. | |
Testi consigliati: Dispense distribuite a lezione | |
Modalità di esame: scritto - orale | |
STATISTICA PER LA RICERCA SPERIMENTALECrediti: 7 Anno: Periodo didattico: non attivato Titolare: Esercitatore: |
Obiettivi: Presentare le applicazioni della statistica in differenti contesti operativi (biologia, economia, fisica, medicina) e stimolare la ricerca di soluzioni ottimali per il raggiungimento delle finalità prefissate. |
Prerequisiti: Conoscenza dell'informatica di base, dalla gestione di basi di dati, della statistica inferenziale e dei modelli statistici. | |
Propedeuticità: nessuna | |
Programma: Il corso presenterà alcuni differenti aspetti di applicazioni della statistica a contesti operativi come ad esempio la ricerca genetica in biologia, gli accordi transizionali in economia, la determinazione della vita media di particelle elementari in fisica, gli studi di sopravvivenza in medicina. I seminari introduttivi saranno tenuti da personale del mondo della ricerca e dell'industria. La ricerca di soluzioni ottimali per il raggiungimento delle finalità prefissate, guidate dai docenti, richiederanno un lavoro di acquisizione, validazione, certificazione dai dati e un'elaborazione statistica svolta in larga parte in laboratorio. Particolare evidenza sarà inoltre posta sulla pubblicizzazione dei risultati ottenuti, in modo da essere facilmente usufruibili da parte dei committenti. | |
Testi consigliati: Fotocopie delle presentazioni introduttive. | |
Modalità di esame: scritto - laboratorio - orale | |
STATISTICA BAYESIANACrediti: 7 Anno: Periodo didattico: non attivato Titolare: Esercitatore: |
Obiettivi: |
Prerequisiti: | |
Programma: Il condizionamento in probabilità. Modelli grafici. La simulazione e il metodo Montecarlo. A priori, verosimiglianza, a posteriori nel caso parametrico. Rivisitazione di problemi classici in chiave bayesiana. A priori improprie. Robustezza bayesiana. Modelli DAG. I simulatori di Gibbs e di Metropolis. Effetti casuali e complessità. Software per la statistica bayesiana. | |
Testi consigliati: | |
Modalità di esame: |