clase graficos univariados

7
Gr´ aficos univariados Claudio Bustos 18 de abril de 2014 ´ Indice 1. Gr´ aficos para variables nominales 1 2. Gr´ aficos para variables ordinales 3 3. Gr´ aficos para variables num´ ericas 4 4. Referencias 6 Referencias 6 Los gr´ aficos tienen una importante funci´ on en estad´ ıstica, ya que permi- ten representar mucho informaci´ on de una manera comprensible. La divisi´ on tradicional de uso de los gr´ aficos es En estad´ ıstica exploratoria, los gr´ aficos son la herramienta principal para identificar las caracter´ ısticas principal de las variables estudiadas, as´ ı como posibles patrones de los datos, que pueden ser susceptibles de ser estudia- dos con m´ etodos num´ ericos. Se suelen utilizar mecanismos de visualizaci´ on que pueden ser complejos, pero que portan mucho informaci´ on con ellos. En estad´ ıstica descriptiva, los gr´ aficos permiten presentar informaci´ on de una manera f´ acil de entender y atractiva para los usuarios. Se deben usar formas de representaci´ on sencillas, lo m´ as familiares posibles para los usua- rios de la informaci´ on Es muy importante no olvidar la distinci´ on en el uso de gr´ aficos, ya que con una mayor sofisticaci´ on en su uso, especialmente de tipo exploratorio, lleva aparejada la tentaci´ on de usar los gr´ aficos de tipo m´ as avanzado con los usuarios, siendo que puede que ellos no est´ en preparados para ellos. Al igual que en el caso de los estad´ ısticos descriptivos, podemos clasificar a los gr´ aficos de acuerdo a su uso en los diversos niveles de medici´ on. 1. Gr´ aficos para variables nominales Los dos gr´ aficos m´ as conocidos para las variables nominales son el gr´ afico de barras y el gr´ afico de torta. 1

Upload: timothy-barlow

Post on 19-Jan-2016

26 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clase Graficos Univariados

Graficos univariados

Claudio Bustos

18 de abril de 2014

Indice

1. Graficos para variables nominales 1

2. Graficos para variables ordinales 3

3. Graficos para variables numericas 4

4. Referencias 6

Referencias 6Los graficos tienen una importante funcion en estadıstica, ya que permi-

ten representar mucho informacion de una manera comprensible. La divisiontradicional de uso de los graficos es

En estadıstica exploratoria, los graficos son la herramienta principal paraidentificar las caracterısticas principal de las variables estudiadas, ası comoposibles patrones de los datos, que pueden ser susceptibles de ser estudia-dos con metodos numericos. Se suelen utilizar mecanismos de visualizacionque pueden ser complejos, pero que portan mucho informacion con ellos.

En estadıstica descriptiva, los graficos permiten presentar informacion deuna manera facil de entender y atractiva para los usuarios. Se deben usarformas de representacion sencillas, lo mas familiares posibles para los usua-rios de la informacion

Es muy importante no olvidar la distincion en el uso de graficos, ya quecon una mayor sofisticacion en su uso, especialmente de tipo exploratorio, llevaaparejada la tentacion de usar los graficos de tipo mas avanzado con los usuarios,siendo que puede que ellos no esten preparados para ellos.

Al igual que en el caso de los estadısticos descriptivos, podemos clasificar alos graficos de acuerdo a su uso en los diversos niveles de medicion.

1. Graficos para variables nominales

Los dos graficos mas conocidos para las variables nominales son el grafico debarras y el grafico de torta.

1

Page 2: Clase Graficos Univariados

El grafico de barras se caracteriza por presentar las distintas categorıas comobarras, ordenadas de forma horizontal o vertical, siendo la frecuencia represen-tada como su altura o largo, respectivamente. Este grafico, en sus distintasvariedades, es muy util ya que permite representar multiples categorıas sin pro-blemas, ademas de ser facil de entender para la mayorıa de los usuarios.

En el caso de realizar un grafico de barras hecho a mano, se debe recordarque siempre el origen de las barras debe representar la frecuencia 0 y que lasbarras no se tocan.

Figura 1: Grafico de barras de las carreras

Una variante del grafico de barras que puede ser util cuando se presentanmuchas categorıas es el grafico de puntos. En este, en uno de los ejes se representala escala de frecuencia y en el otro las categorıas; se ubica un cırculo en elpunto de interseccion de la categorıa con su frecuencia. Puede ser muy util pararepresentar las frecuencias de dos o mas variables nominales, agrupadas unas enotros. En el ejemplo, se representa la cantidad de estudiantes en cada carrerapor carrera.

El otro grafico apto para variables nominales es el grafico de torta, en el cualel area de un cırculo se divide en tajadas de tamano proporcional a la frecuenciade cada categorıa.

Tal como senala el manual de R, los graficos de torta son muy malos pararepresentar informacion, especialmente cuando hay mas de dos categorıas, yaque somos buenos calculando las diferencias entre el largo de diversos objetos,como ocurre en el grafico de barras, pero no calculando diferencias relativas enareas, como ocurre en el grafico de torta.

2

Page 3: Clase Graficos Univariados

Figura 2: Grafico de puntos de las carreras

Figura 3: Grafico de torta de las carreras

2. Graficos para variables ordinales

Para las variables ordinales, se utilizan generalmente graficos de barras, don-de siempre las categorıas deben aparecer ordenadas.

Bajo ninguna circunstancia se debe usar un grafico de torta, ya que no existea priori una posicion de inicio desde la cual visualizar las categorıas

3

Page 4: Clase Graficos Univariados

Figura 4: Grafico de barras para categorıas de edad (nivel nominal)

3. Graficos para variables numericas

El grafico por excelencia para las variables numericas es el histograma. Essimilar al grafico de barras, pero se debe ser cuidadoso en la forma de construirlo.

El histograma como funcion tiene como parametros el vector de la muestra xcon n elementos y un vector ordernadol , correspondientes a los lımites de cadatajada o bin. Devuelve un vector ordenado de k − 1 tajadas, donde el elementoj corresponde al numero de elementos de la muestra que se encuentra en elintervalo [lj , lj+1). En terminos mas formales, si definimos la funcion indicadoraI como

I(x, v1, v2) =

{1 siv1 ≤ x < v2

0 e.o.c

La funcion histograma es

histograma(j|x, l) =

n∑i=1

I(xi, lj , lj+1)

Generalmente los lımites son equidistantes, es decir, cada tajada tiene elmismo tamano y se utiliza el rango de la distribucion (como par ordenado) paradefinir el lımite inferior y superior. Como el lımite superior excluye el valormaximo, se suele restar al mınimo y sumar al maximo un mismo valor mınimo,para asegurarse que todos los valores se encuentren incluidos en el histograma.Por ejemplo, si tenemos el vector x = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)T y utilizamos

4

Page 5: Clase Graficos Univariados

como lımites el vector l = (1, 5, 10)T , el valor 10 queda fuera de la ultima tajada.Por tanto, se podrıan definir los lımites como l = (0, 5,5, 11)T , para asegurarque todos los valores fuesen incluidos y las tajadas fuesen proporcionales.

La mayorıa de los softwares de grafica definen automaticamente el numero detajadas, pero es bueno conocer las opciones para definirlas de manera manual,para que el histograma represente de la mejor manera posible los datos

Por ejemplo, se puede observar los histogramas para la variable cl, corres-pondiente al numero de respuestas correctas en un test de comprension lectora,con lımites cada 10, 5, 2,5 y 1,25 puntos. El histograma en el que mejor se vi-sualiza la forma de la distribucion es el que cuenta con tajadas de 2,5 puntos.

Figura 5: Comparacion entre distintos tamanos de tajadas para un histograma

Cuando no se tiene el espacio para incorporar el histograma o se quieren com-parar muchas distribuciones a la vez, puede ser util el grafico llamado diagramade caja o box-plot, como se dice en ingles.

El diagrama de caja se construye en un plano cartesiano donde se ubica enun eje las frecuencias y en el otro las categorıas, de forma similar a un graficode barras. La forma de construccion del diagrama de caja es la siguiente, si enel eje horizontal se ubican las categorıas y en el vertical las frecuencias

5

Page 6: Clase Graficos Univariados

El eje vertical se construye de tal manera que, a lo menos, cuente comovalores mınimo y maximo los valores mınimo y maximo de la variable

Se dibuja una lınea gruesa horizontal de ancho a en el valor correspondientea la mediana

Se dibujan dos lıneas delgadas, tambien horizontales, de ancho a en losvalores correspondientes al primer y tercer cuartil

Se trazan dos lıneas verticales que unan los puntos extremos de las lıneasde los cuartiles. Esto forma una caja que representa el RIC

Se trazan dos lıneas delgadas horizontales, llamadas “bigotes” (whiskers)a la altura del valor mınimo y mınimo, siempre y cuando estos esten a 1.5RIC (como valor) de C1 y C3, respectivamente. Si el rango sobrepasa aestos valores, se traza una lınea a 1.5 RIC del cuartil respectivo.

Se trazan dos lıneas verticales delgadas, al centro del espacio asignado ala variable, que unan las lıneas de los cuartiles con los bigotes

Si hay valores que sean mas bajos que el bigote inferior, se marcan conun sımbolo, generalmente un cırculo o una cruz. Lo mismo con los valoresque sean mas altos que el bigote superior.

La gran ventaja del diagrama de caja es que en poco espacio permite entregarmucha informacion de la distribucion, como la mediana, RIC, rango y valoresextremos o outliers. Incluso, se puede agregar dentro de la caja del RIC unalınea mas delgada o un signo que represente a la media, pero puede confundir ala gente no entrenada.

La variable cl ahora se representa como un diagrama de caja. Como se puedeobservar, la mediana esta cercana a 30, el RIC serıa aproximadamente (28, 32).La diferencia entre el valor maximo y la mediana no supera a 1,5 RIC, ası quese representa por el bigote. En cambio, en la seccion inferior el valor mas bajo,20, se encuentra a mas de 1,5 RIC de C1, ası que el bigote se traza en el esteultimo valor y se representa el valor extremo como un cırculo.

4. Referencias

Referencias

6

Page 7: Clase Graficos Univariados

Figura 6: Diagrama de caja de la variable cl

7