sesion han 3
DESCRIPTION
dTRANSCRIPT
-
Curso Introduccin R: Sesin 3
David V. Conesa Guilln
Grup d'Estadstica Espacial i Temporal en Epidemiologia i Medi Ambient
Dept. d'Estadstica i Investigaci Operativa
Universitat de Valncia
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 1 / 33
Sesin 3: Descripcin numrica y grca de datos.
En esta sesin:
1.- Estadstica bsica.
2.- Distribuciones de Probabilidad. Generacin de variables aleatorias.
3.- Tablas de frecuencias.
4.- Medidas de localizacin, dispersin y forma.
5.- Descripcin grca de datos en R.
6.- Grcos para datos discretos.
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 2 / 33
-
Sesin 3: Descripcin numrica y grca de datos.
Tambin:
7.- Grcos para datos continuos.
8.- Representacin de datos multivariantes.
9.- Grcos para estudiar la distribucin de unos datos. Estimacin de
densidades.
10.- Parmetros grcos. Cambios permanentes: la funcin par().
11.- Exportando grcos. Dispositivos grcos (device drivers).
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 3 / 33
1.- Estadstica bsica.
Los datos obtenidos cuando realizamos cualquier experimento
presentan variabilidad:
Iel peso de un bebe al nacer vara
Ila cantidad de lluvia recogida en un dia en una determinada zona vara
Ila altura de una planta sometida a dos tipos de abono vara, etc.
La Estadstica es una disciplina que se ha desarrollado en respuesta a
los experimentadores cuyos datos exhiben variabilidad.
Los conceptos y mtodos de la estadstica nos permiten describir la
variabilidad, planicar la investigacin tenindola en cuenta y analizar
los datos para extraer el mximo de informacin de los mismos as
como determinar la abilidad de las conclusiones que podamos obtener
a partir de estos datos.
Ya sabemos que R es un lenguaje que permite implementar tcnicas
estadsticas.
En esta sesin vamos a ver cmo podemos utilizar R para analizar los
bancos de datos que habitualmente se nos presentan al trabajar.
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 4 / 33
-
1.- Estadstica bsica.
Variable Caracterstica de inters.Muestra Observada Conjunto de valores de la variable observadosobtenidos de manera homognea.
Tamao muestral Nmero de datos observados.La manera de describir la muestra (nuestros datos) depende del tipo
de atributo:
ICualitativo Intrnsecamente no tiene carcter numrico(categrica)
FNominal (sin orden entre los valores): Sexo
FOrdinal (con valores ordenados): Nivel de estudios
ICuantitativo Intrnsecamente numrico
FDiscreto (cantidad nita o numerable de valores): Nmero de hijos
FContinuo (valores en toda la recta real): Altura
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 5 / 33
2.- Distribuciones de Probabilidad.
R tiene las distribuciones de probabilidad ms comunes implementadas
en la librera BASE. En otras libreras disponemos de otras tantas.
Para cada una de ellas (distrib), disponemos de 4 versiones:
generador de numeros aleatorios rdistrib
funcin densidad/probabilidad ddistrib
funcin distribucin pdistrib
funcin inversa distribucin (cuantiles) qdistrib
Ejemplo
x.norm
-
Distribuciones de probabilidad en la librera BASE.
Funcin Utilidad
Normal rnorm(n, mean=0, sd=1)
exponencial rexp(n, rate=1)
gamma rgamma(n, shape, scale=1)
Poisson rpois(n, lambda)
Weibull rweibull(n, shape, scale=1)
Cauchy rcauchy(n, location=0, scale=1)
beta rbeta(n, shape1, shape2)
t de Student rt(n, df)
F (Snedecor) rf(n, df1, df2)
Pearson 2 rchisq(n, df)binomial rbinom(n, size, prob)
geomtrica rgeom(n, prob)
hypergeomtrica rhyper(nn, m, n, k)
logstica rlogis(n, location=0, scale=1)
lognormal rlnorm(n, meanlog=0, sdlog=1)
binomial negativa rnbinom(n, size, prob)
uniforme runif(n, min=0, max=1)
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 7 / 33
3.- Tablas de frecuencias para variables categricas.
Hemos visto un factor es un vector utilizado para especicar una
clasicacin discreta de los elementos de otro vector de igual longitud,
y que en R existen dos tipos de factores (variables categricas):
INominales: No existe jerarqua entre ellos (p.e., colores)
IOrdinales: Existe jerarqua entre ellos (p.e., grupos de edad)
Del mismo modo, dos factores denen una tabla de doble entrada, y
as sucesivamente.
La funcin table() calcula tablas de frecuencias a partir de factores
de igual longitud.
Si existen k argumentos categricos, el resultado sera una variable
k-indexada, que contiene la tabla de frecuencias.
Ejemplo
x
-
4.- Medidas de localizacin, dispersin y forma para
variables cuantitativas continuas.
La forma ms sencilla de empezar a describir unos datos cuantitativos
es realizar un resumen estadstico.
En la pgina siguiente tenemos un listado de las ms habituales para
describir la localizacin y la dispersin.
Para analizar la curtosis y la asimetra de unos datos podemos utilizar
dos funciones de la librera e1071: skewness() y kurtosis().
Ejemplo
x
-
Ejemplo
library(e1071)
x
-
Grcas en R
R tiene dos sistemas de producir grcos:
IEl tradicional, que es el que veremos principalmente
IGrcos Trellis (paquete Lattice) del que veremos algunos ejemplos
Podemos dividir los comandos para efectuar las grcas en tres grupos:
IFunciones para crear grcas de alto nivel, es decir ya programadas y
que admiten diferentes posibilidades.
IFunciones de bajo nivel, que permiten un control ms no del dibujo y
permiten crear grcas a medida.
IFunciones para el uso interactivo, para extraer informacin de una
grca o una modicacin mediante el ratn.
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 13 / 33
Funcin plot()
El procedimiento grco de alto nivel ms habitual para dibujar datos es
plot().
Ejemplo
x
-
Opciones de la funcin plot()
Algunas de las ms tiles
main: Cambia el ttulo del grco
sub: Cambia el subttulo del grco
type: Tipo de grco (puntos, lneas, etc.)
xlab, ylab: Cambia las etiquetas de los ejes
xlim, ylim: Cambia el rango de valores de los ejes
lty: Cambia el tipo de lnea; lwd: Cambia el grosor de lnea
col: Color con el que dibuja
Ejemplo
plot(x, y, main="Seno", type="l")
plot(x, z, main="Coseno", lty=2, col="red", type="l")
plot(x, z, main="Coseno", lty=3, col="blue", type="l",
xlim=c(0, 2), ylab="cos(x)")
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 15 / 33
Procedimientos de bajo nivel
Hay una serie de funciones que permiten dibujar sobre una grca ya
creada.
Los ms habituales
points(x, y, ...): Dibuja una nube de puntos
lines(x, y, ...): Dibuja una lnea que une todos los puntos
ablines(): Dibuja una lnea recta dada la interc. y pendiente
polygons(x, y, ...): Dibuja un polgono cerrado
text(x, y, labels, ...): Escribe texto en unas coordenadas
Ejemplo
plot(x, y, main="Funciones seno y coseno", type="l")
lines(x, z, col="blue", lty=2) # col=4 es equivalente
text(x=c(0.5, 0.5), y=c(0, 1), labels=c("sin(x)", "cos(x)"),
col=c("black", "blue"))
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 16 / 33
-
Leyendas
Descripcin
La funcin legend(x, y, legend, ...) permite aadir leyendas a un
grco:
x,y : Esquina sup. izda. de la leyenda
legend: Texto de la leyenda
bty: Tipo de borde (n para omitir)
Ejemplo
plot(x, y, main="Funciones seno y coseno", type="l")
lines(x, z, col="blue", lty=2)
legend(x=3, y=1, legend=c("sin(x)", "cos(x)"), lty=c(1,2),
col=c("black", "blue"))
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 17 / 33
Funciones grcas interactivas.
En R existen una serie de funciones que permiten completar los grcos de
manera interactiva por parte del usuario
Descripcin
identify(x, y, etiquetas) identica los puntos con el ratn y
escribe la correspondiente etiqueta.
locator() devuelve las coordenadas de los puntos.
Ejemplo
plot(x, y, main="Funciones seno y coseno", type="l")
lines(x, z, col=2, lty=2)
legend(locator(1),legend=c("sin(x)","cos(x)"),lty=c(1,2),col=c(1,2))
x
-
6.- Grcos para datos discretos.
Los ms habituales
Para representar variables categricas o cuantitativas discretas (con pocas
clases):
Diagramas de puntos: dotplot()
Diagramas de barras: barplot()
Diagramas de quesos: pie()
Ejemplo
library(lattice)
x
-
8.- Representacin de datos multivariantes.
Cuando queremos representar varias variables conjuntamente para detectar
relaciones entre ellas, disponemos de diversos tipos de grcos:
Los ms habituales
Grcos de tendencias para tablas de contingencia: dotchart()
Grcos de dispersin: plot() y pairs()
Grcos condicionados: coplot().
Ejemplo
# Grficos de tendencias para tablas de contingencia
data(VADeaths)
dotchart(VADeaths, main = "Death Rates in Virginia - 1940")
# Grficos condicionados
data(quakes)
coplot(latlong | depth, data = quakes)
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 21 / 33
Ejemplo
# Grficos de dispersin para revisar relaciones entre variables
X
-
9.- Grcos para estudiar la distribucin de unos datos.
Cuando queremos estudiar cual es la posible distribucin de unos datos
disponemos de diferentes funciones:
Los ms habituales
Histogramas: hist()
Grcos qq: qqplot(), qqnorm() y qqline(). Dos posibles usos:
IComparacin de cuantiles empricos versus cuantiles tericos: para
comprobar si los datos se parecen a una determinada distribucin
IComparacin de dos distribuciones empricas entre s
Estimacin de la funcin de distribucin emprica: ecdf()
Estimacin kernel de la funcin de densidad: density()
Ejemplo
# Histogramas
y
-
Funcin de distribucin emprica.
Ejemplo
x
-
Representacin en 3D.
Cuando queremos representar una funcin bivariante disponemos de
diversos tipos de grcos:
Los ms habituales
Grcos en tres dimensiones: image()
Grcos de contorno: contour(). Permite aadir lneas de nivel.
Las libreras MASS y ks tienen funciones para estimar kernels
bivariantes.
Ejemplo
x
-
Funcionamiento de la funcin par().
Sin argumentos devuelve una lista con los parmetros y sus valores en
activo.
Ejemplo
par()
Con un argumento, vector de caracteres, con los nombres de algunos
parmetros, devuelve una lista con los parmetros y sus valores en
activo.
Ejemplo
par(c("col","lty")
Con nombres de parmetros = valor, establece los nuevos valores
Ejemplo
par(col=4,lty=2)
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 29 / 33
Ejemplos de parmetros grcos
Colocar varias grcas en una ventana
Los siguientes parmetros permiten disear el nmero de grcas en cada
dispositivo grco
mfrow: N
o
de las y columnas en la ventana. Los huecos se rellenan
por las.
mfcol: dem pero se rellena por columnas.
Ejemplo
x
-
11.- Dispositivos grcos (device drivers).
Por defecto, cuando realizamos la primera grca, R abre un
dispositivo grco.
Ponemos abrir nuevas ventanas grcas llamando a la funcin
windows(). Con ello tendremos varios dispositivos donde dibujar.
Para cerrar un dispositivo abierto utilizamos dev.off(). Si no
tenemos claro cual cerrar, la funcin dev.list() nos puede ayudar a
saber qu dispositivos hay abiertos y que numeracin tienen.
Siempre hay uno activo, podemos saber cul es con dev.cur(). Si
queremos activar otro podemos utilizar dev.set().
Con la opcin histrico grabando activa R nos permite disponer de
todos los grcos e ir accediendo al resto con Av.Pg. y Re.Pg.
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 31 / 33
Exportando grcos.
Para guardar una grca, podemos copiar y pegar desde la ventana
grca a un tratamiento de textos que los permita.
Desde el men Archivo -> Guardar como podemos guardar la
grca como un chero metale, pdf, png, bmp, postscript, tif o jpg.
Sin embargo esta opcin no es la mejor ya que no tenemos control
sobre la propia grca y como queda guardada. Sobre todo a nivel de
escala.
Lo mejor es enviar directamente la grca a un dispositivo (pdf,
postscript, etc.) utilizando funciones como pdf() o postscript().
Ejemplo
pdf("prueba.pdf", paper="special", width=13, height=7)
hist(x
-
Licencia de este material
Ms info: http://creativecommons.org/licenses/by-sa/3.0/es/
Usted es libre de:
copiar, distribuir y comunicar pblicamente la obra
hacer obras derivadas
Bajo las condiciones siguientes:
Reconocimiento. Debe reconocer los crditos de la obra de la mane-
ra especicada por el autor o el licenciador (pero no de una manera
que sugiera que tiene su apoyo o apoyan el uso que hace de su
obra).
Compartir bajo la misma licencia. Si transforma o modica esta
obra para crear una obra derivada, slo puede distribuir la obra
resultante bajo la misma licencia, una similar o una compatible.
David Conesa, GEe
i
tEma (UV) Introduccin a R: Sesin 3 33 / 33