lettura e analisi statistiche dei dati e computer analysis lezioni per il corso di dottorato in...
TRANSCRIPT
![Page 1: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/1.jpg)
Lettura e analisi statistiche dei dati e computer analysis
Lezioni per il corso di dottorato in Economia Aziendale
Università Ca’ Foscari A.A. 2000/01
Francesca Parpinel
http://www.dst.unive.it/˜parpinel/dottorato
![Page 2: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/2.jpg)
Gli applicativi statistici
Motivi: Analisi di grandi masse di dati; analisi complesse; tecniche di analisi basate sulle simulazioni (tecniche bootstrap); ecc.
Applicativi: – Raccolta dei dati e analisi preliminari: fogli di
calcolo (tipo Excel).– Analisi statistiche ad hoc: Statgraphics, SAS, SPSS,
Minitab, Pcgive (serie storiche).– Programmazione statistica: S-plus, R.
![Page 3: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/3.jpg)
Scelta del programma R
Ambiente di programmazione con sviluppi per le applicazioni statistiche.
R è un programma di pubblico dominio per piattaforme Windows, Linux e Macintosh.
Informazioni nel sito: www.ci.tuwien.ac.at/R
Caratteristiche: Interattivo, facilità grafiche. Versione aggiornata: R1.2.0 (15-12-00).
![Page 4: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/4.jpg)
Qualche informazione su R R inizialmente viene scritto da Robert Gentleman e Ross Ihaka (Università di Auckland) e divulgato nel 1996. Dal 1997 la scrittura dei sorgenti di R è compito di un gruppo di studiosi. Inoltre R è disponibile per varie piattaforme di tipo UNIX e sistemi simili (ad esempio FreeBSD e Linux). Viene inoltre fornito per sistemi operativi quali Windows 9x/NT/2000 e Macintosh. Per questi ultimi sistemi è possibile ottenere dei file di installazione pre-compilati e quindi di più facile implementazione.
![Page 5: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/5.jpg)
R per WindowsLa versione di R per il sistema operativo Windows, attualmente curata da Guido Masarotto (Univ. di Padova) e Brian D. Ripley (Univ. di Oxford), si trova, navigando in un CRAN, nella directory bin/windows/windows-NT/ dove si trovano i file per la versione base (base/) e numerosi pacchetti (contrib/). Per installare la versione base attraverso Internet si consiglia un PC, dotato di sistema operativo Windows 95/98/2000 o Windows NT, con un'area libera di circa 20M sul disco fisso e il collegamento ad Internet. Tra i file disponibili vi è anche l'eseguibile rwin.exe che consente un'installazione automatica.
![Page 6: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/6.jpg)
Alcune informazioni Per cambiare directory di lavoro.
– La versione per Windows permette di cambiare facilmente directory intervenendo in linea comandi.
La sintassi dei comandi.– Tutti i comandi in R sono seguiti dalle parentesi rotonde,
ad esempio nella forma >help(). Omettendo le parentesi il programma risponde fornendo la codifica del comando.
Per uscire dal programma. – si digita il comando q()
Per caricare i programmi di dimostrazione: demo() Esempi.
![Page 7: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/7.jpg)
Documentazione Il programma R comprendi i seguenti manuali:
– di riferimento (refman.pdf, più di 850 p.), di descrizione di R (R-intro.pdf, 103 p.), per produrre estensioni di R (R-exts.pdf, 66 p.), per la lettura e scrittura di file di dati (R-data.pdf, 32 p.), per il linguaggio di programmazione (R-lang.pdf, 59 p.)
Aiuto in linea e in formato html. Testi su S-PLUS in combinazione con le FAQ di R
Alcune informazioni e moduli di auto-istruzione all’indirizzo
http://helios.unive.it/˜statcomp
![Page 8: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/8.jpg)
Analisi esplorativa dei dati
Simulazione di dati casuali: rnorm(n,m,s)
Istogrammi: hist(dati)
Sovrapposizioni di curve– teorica
– densità stimata
![Page 9: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/9.jpg)
Distribuzioni implementate in RDistribuzione Nome R Argomenti
opzionaliDistribuzione Nome R Argomenti
opzionali
Beta beta forma1,forma2, ncp
Log-normale lnorm Meanlog, sdlog
Binomiale binom size, prob Logistica logis location, scale
Cauchy cauchy location, scale Binomialenegativa
nbinom size, prob
chi-quadrato chisq df, ncp normale norm mean, sd
Esponenziale exp Rate Poisson pois Lambda
F di Snedecor f df1, df1, ncp Student's t t df, ncp
Gamma gamma shape, scale Uniforme unif min, max
Geometrica geom Prob Weibull weibull Shape, scale
Ipergeometrica hyper m, n, k Wilcoxon wilcox m, n
![Page 10: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/10.jpg)
Funzioni con le distribuzioni
Densità o probabilità:
Funzione di ripartizione:
Funzione dei quantili:
Generazione di numeri casuali:
![Page 11: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/11.jpg)
Analisi preliminari dei dati Lettura dei dati (ogni pacchetto ha il proprio
formato di lettura e la lettura di file ASCII). Matrice di dati:
– n righe: unità statistiche
– k colonne: variabili osservate Comandi R per la lettura di file di dati: read.table(); scan().
Principali indici di sintesi e presentazioni grafiche.
![Page 12: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/12.jpg)
Lettura di un file di dati grezzi organizzato come matrice e assegnazione:
dati1<-read.table(“a:dati2.txt”)
Lettura di un file di dati numerici con separatore dei decimali “,” e organizzati in matrice: dati2<-matrix(scan(“a:dati2.txt”,dec=”,”),30,2)
Lettura di dati da file
![Page 13: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/13.jpg)
Analisi esplorativa dei dati Sintesi: summary(dati1)fornisce informazioni su
Minimo, I Quartile, Mediana, Media, III Quartile, Massimo.
Indici di sintesi: mean(), sd(), var() cor() cov()
Rappresentazione scatola-baffi e ramo-fogliaboxplot() stem()
Diagrammi di dispersione a due variabili plot() Istogrammi hist() Diagrammi di dispersione a 3 tre dimensioni
scatterplot3d()
![Page 14: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/14.jpg)
Indagine sui frequentanti i corsi
I dati riguardanti 169 studenti di un corso di Statistica.
Analisi univariate:
![Page 15: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/15.jpg)
Altre indagini: la distribuzione
Distribuzione non normale evidentemente asimmetrica con coda a destra
![Page 16: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/16.jpg)
Altre indagini: la distribuzione
Consideriamo alcuni test sul tipo di distribuzione:
library(ctest)
shapiro.test(dati$ETA)
lam<-mean(dati$ETA)
ks.test(dati$ETA,
+pchisq,lam)
![Page 17: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/17.jpg)
Analisi esplorativa: dati bivariati
Scatter-plot modello di regressione analisi della regressione analisi dei residui Q-Q plot per l’analisi di
normalità dei residuiqqnorm(rdati1$resid)
qqline(rdati1$resid,
+ col=2)
![Page 18: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/18.jpg)
Descrizione del file di dati Descrizione dei dati:
Righe: uffici d’area
Variabili: Tempo totale per la transazione, numero di transazioni di tipo 1 e di tipo 2, numero di caso:– Time (in minuti, numerico)– T1 (numerico)– T2 (numerico)– Case.numbers (numerico)
L’obiettivo è modellare il tempo totale come funzione del numero di transazioni.
Fonte: Cunningham and Heathcote (1989), Estimating a non-Gaussian regression model with multicollinearity. Australian Journal of Statistics, 31,12-17.
I dati sono stati arrotondati.
![Page 19: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/19.jpg)
Matrice degli scatter-plot
![Page 20: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/20.jpg)
Rappresentazione a tre dimensioni
Per rappresentazioni grafiche più complesse si stanno creando dei pacchetti aggiuntivi ad esempio il pacchetto
scatterplot3d
che viene richiamato col comando
library(scatterplot3d)
![Page 21: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/21.jpg)
Modello di regressione
![Page 22: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/22.jpg)
La funzione summary.lm calcola e restituisce una serie di statistiche del modelli lineare adattato:
residuals: i residui pesati con la radice dei pesi specificati in lm coefficients: matrice px4 le cui colonne sono i coefficienti stimati, il loro errore
standard, la statistica t e il p-value a due code sigma: la radice della varianza dell’errore casuale stimata df: gradi di libertà, vettore a tre dimensioni (p, n-p, p*) fstatistic: vettore a 3 dimensioni con il valore della statistica F con i gradi di
libertà del suo numeratore e denominatore r.squared: R^2, la frazione di varianza spiegata dal modello adj.r.squared: la statistica R^2 aggiustata per valori alti di p. cov.unscaled: una matrice di covarianza pxp dei coef[j], j=1,...,p correlation: la matrice di correlazione se specificato
L’output del comando lm()
![Page 23: Lettura e analisi statistiche dei dati e computer analysis Lezioni per il corso di dottorato in Economia Aziendale Università Ca’ Foscari A.A. 2000/01](https://reader035.vdocuments.net/reader035/viewer/2022062702/5542eb74497959361e8dd7cb/html5/thumbnails/23.jpg)
Analisi delle serie storiche Modelli autoregressivi: library(ts) Esempio comando ar()ar(x, aic = TRUE, order.max = NULL, method=c("yule-
walker", "burg", "ols", "mle", "yw"), na.action, series, ...)
ar.burg(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series, var.method = 1)
ar.yw(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series)
ar.mle(x, aic = TRUE, order.max = NULL, na.action, demean = TRUE, series)
predict(ar.obj, newdata, n.ahead = 1, se.fit = TRUE)