clase graficos univariados
TRANSCRIPT
![Page 1: Clase Graficos Univariados](https://reader036.vdocuments.net/reader036/viewer/2022081811/55cf94c4550346f57ba43e08/html5/thumbnails/1.jpg)
Graficos univariados
Claudio Bustos
18 de abril de 2014
Indice
1. Graficos para variables nominales 1
2. Graficos para variables ordinales 3
3. Graficos para variables numericas 4
4. Referencias 6
Referencias 6Los graficos tienen una importante funcion en estadıstica, ya que permi-
ten representar mucho informacion de una manera comprensible. La divisiontradicional de uso de los graficos es
En estadıstica exploratoria, los graficos son la herramienta principal paraidentificar las caracterısticas principal de las variables estudiadas, ası comoposibles patrones de los datos, que pueden ser susceptibles de ser estudia-dos con metodos numericos. Se suelen utilizar mecanismos de visualizacionque pueden ser complejos, pero que portan mucho informacion con ellos.
En estadıstica descriptiva, los graficos permiten presentar informacion deuna manera facil de entender y atractiva para los usuarios. Se deben usarformas de representacion sencillas, lo mas familiares posibles para los usua-rios de la informacion
Es muy importante no olvidar la distincion en el uso de graficos, ya quecon una mayor sofisticacion en su uso, especialmente de tipo exploratorio, llevaaparejada la tentacion de usar los graficos de tipo mas avanzado con los usuarios,siendo que puede que ellos no esten preparados para ellos.
Al igual que en el caso de los estadısticos descriptivos, podemos clasificar alos graficos de acuerdo a su uso en los diversos niveles de medicion.
1. Graficos para variables nominales
Los dos graficos mas conocidos para las variables nominales son el grafico debarras y el grafico de torta.
1
![Page 2: Clase Graficos Univariados](https://reader036.vdocuments.net/reader036/viewer/2022081811/55cf94c4550346f57ba43e08/html5/thumbnails/2.jpg)
El grafico de barras se caracteriza por presentar las distintas categorıas comobarras, ordenadas de forma horizontal o vertical, siendo la frecuencia represen-tada como su altura o largo, respectivamente. Este grafico, en sus distintasvariedades, es muy util ya que permite representar multiples categorıas sin pro-blemas, ademas de ser facil de entender para la mayorıa de los usuarios.
En el caso de realizar un grafico de barras hecho a mano, se debe recordarque siempre el origen de las barras debe representar la frecuencia 0 y que lasbarras no se tocan.
Figura 1: Grafico de barras de las carreras
Una variante del grafico de barras que puede ser util cuando se presentanmuchas categorıas es el grafico de puntos. En este, en uno de los ejes se representala escala de frecuencia y en el otro las categorıas; se ubica un cırculo en elpunto de interseccion de la categorıa con su frecuencia. Puede ser muy util pararepresentar las frecuencias de dos o mas variables nominales, agrupadas unas enotros. En el ejemplo, se representa la cantidad de estudiantes en cada carrerapor carrera.
El otro grafico apto para variables nominales es el grafico de torta, en el cualel area de un cırculo se divide en tajadas de tamano proporcional a la frecuenciade cada categorıa.
Tal como senala el manual de R, los graficos de torta son muy malos pararepresentar informacion, especialmente cuando hay mas de dos categorıas, yaque somos buenos calculando las diferencias entre el largo de diversos objetos,como ocurre en el grafico de barras, pero no calculando diferencias relativas enareas, como ocurre en el grafico de torta.
2
![Page 3: Clase Graficos Univariados](https://reader036.vdocuments.net/reader036/viewer/2022081811/55cf94c4550346f57ba43e08/html5/thumbnails/3.jpg)
Figura 2: Grafico de puntos de las carreras
Figura 3: Grafico de torta de las carreras
2. Graficos para variables ordinales
Para las variables ordinales, se utilizan generalmente graficos de barras, don-de siempre las categorıas deben aparecer ordenadas.
Bajo ninguna circunstancia se debe usar un grafico de torta, ya que no existea priori una posicion de inicio desde la cual visualizar las categorıas
3
![Page 4: Clase Graficos Univariados](https://reader036.vdocuments.net/reader036/viewer/2022081811/55cf94c4550346f57ba43e08/html5/thumbnails/4.jpg)
Figura 4: Grafico de barras para categorıas de edad (nivel nominal)
3. Graficos para variables numericas
El grafico por excelencia para las variables numericas es el histograma. Essimilar al grafico de barras, pero se debe ser cuidadoso en la forma de construirlo.
El histograma como funcion tiene como parametros el vector de la muestra xcon n elementos y un vector ordernadol , correspondientes a los lımites de cadatajada o bin. Devuelve un vector ordenado de k − 1 tajadas, donde el elementoj corresponde al numero de elementos de la muestra que se encuentra en elintervalo [lj , lj+1). En terminos mas formales, si definimos la funcion indicadoraI como
I(x, v1, v2) =
{1 siv1 ≤ x < v2
0 e.o.c
La funcion histograma es
histograma(j|x, l) =
n∑i=1
I(xi, lj , lj+1)
Generalmente los lımites son equidistantes, es decir, cada tajada tiene elmismo tamano y se utiliza el rango de la distribucion (como par ordenado) paradefinir el lımite inferior y superior. Como el lımite superior excluye el valormaximo, se suele restar al mınimo y sumar al maximo un mismo valor mınimo,para asegurarse que todos los valores se encuentren incluidos en el histograma.Por ejemplo, si tenemos el vector x = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)T y utilizamos
4
![Page 5: Clase Graficos Univariados](https://reader036.vdocuments.net/reader036/viewer/2022081811/55cf94c4550346f57ba43e08/html5/thumbnails/5.jpg)
como lımites el vector l = (1, 5, 10)T , el valor 10 queda fuera de la ultima tajada.Por tanto, se podrıan definir los lımites como l = (0, 5,5, 11)T , para asegurarque todos los valores fuesen incluidos y las tajadas fuesen proporcionales.
La mayorıa de los softwares de grafica definen automaticamente el numero detajadas, pero es bueno conocer las opciones para definirlas de manera manual,para que el histograma represente de la mejor manera posible los datos
Por ejemplo, se puede observar los histogramas para la variable cl, corres-pondiente al numero de respuestas correctas en un test de comprension lectora,con lımites cada 10, 5, 2,5 y 1,25 puntos. El histograma en el que mejor se vi-sualiza la forma de la distribucion es el que cuenta con tajadas de 2,5 puntos.
Figura 5: Comparacion entre distintos tamanos de tajadas para un histograma
Cuando no se tiene el espacio para incorporar el histograma o se quieren com-parar muchas distribuciones a la vez, puede ser util el grafico llamado diagramade caja o box-plot, como se dice en ingles.
El diagrama de caja se construye en un plano cartesiano donde se ubica enun eje las frecuencias y en el otro las categorıas, de forma similar a un graficode barras. La forma de construccion del diagrama de caja es la siguiente, si enel eje horizontal se ubican las categorıas y en el vertical las frecuencias
5
![Page 6: Clase Graficos Univariados](https://reader036.vdocuments.net/reader036/viewer/2022081811/55cf94c4550346f57ba43e08/html5/thumbnails/6.jpg)
El eje vertical se construye de tal manera que, a lo menos, cuente comovalores mınimo y maximo los valores mınimo y maximo de la variable
Se dibuja una lınea gruesa horizontal de ancho a en el valor correspondientea la mediana
Se dibujan dos lıneas delgadas, tambien horizontales, de ancho a en losvalores correspondientes al primer y tercer cuartil
Se trazan dos lıneas verticales que unan los puntos extremos de las lıneasde los cuartiles. Esto forma una caja que representa el RIC
Se trazan dos lıneas delgadas horizontales, llamadas “bigotes” (whiskers)a la altura del valor mınimo y mınimo, siempre y cuando estos esten a 1.5RIC (como valor) de C1 y C3, respectivamente. Si el rango sobrepasa aestos valores, se traza una lınea a 1.5 RIC del cuartil respectivo.
Se trazan dos lıneas verticales delgadas, al centro del espacio asignado ala variable, que unan las lıneas de los cuartiles con los bigotes
Si hay valores que sean mas bajos que el bigote inferior, se marcan conun sımbolo, generalmente un cırculo o una cruz. Lo mismo con los valoresque sean mas altos que el bigote superior.
La gran ventaja del diagrama de caja es que en poco espacio permite entregarmucha informacion de la distribucion, como la mediana, RIC, rango y valoresextremos o outliers. Incluso, se puede agregar dentro de la caja del RIC unalınea mas delgada o un signo que represente a la media, pero puede confundir ala gente no entrenada.
La variable cl ahora se representa como un diagrama de caja. Como se puedeobservar, la mediana esta cercana a 30, el RIC serıa aproximadamente (28, 32).La diferencia entre el valor maximo y la mediana no supera a 1,5 RIC, ası quese representa por el bigote. En cambio, en la seccion inferior el valor mas bajo,20, se encuentra a mas de 1,5 RIC de C1, ası que el bigote se traza en el esteultimo valor y se representa el valor extremo como un cırculo.
4. Referencias
Referencias
6
![Page 7: Clase Graficos Univariados](https://reader036.vdocuments.net/reader036/viewer/2022081811/55cf94c4550346f57ba43e08/html5/thumbnails/7.jpg)
Figura 6: Diagrama de caja de la variable cl
7