manual del r commander

85
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO FACULTAD DE INFORMÁTICA Y ELECTRÓNICA ESCUELA DE INGENIERÍA ELECTRÓNICA TELECOMUNICACIONES Y REDES PROBABILIDAD Y ESTADÍSTICA MANUAL R COMMANDER CUARTO “A” JOSÉ RECALDE 340 FECHA DE ENTREGA: 15-01-2013 SEPTIEMBRE 2013 – FEBRERO 2014

Upload: jose-recalde

Post on 23-Jun-2015

187 views

Category:

Investor Relations


0 download

TRANSCRIPT

  • 1. ESCUELA SUPERIOR POLITCNICA DE CHIMBORAZO FACULTAD DE INFORMTICA Y ELECTRNICA ESCUELA DE INGENIERA ELECTRNICA TELECOMUNICACIONES Y REDESPROBABILIDAD Y ESTADSTICAMANUAL R COMMANDER CUARTO AJOS RECALDE 340FECHA DE ENTREGA: 15-01-2013SEPTIEMBRE 2013 FEBRERO 2014

2. Manual del R-Commander 1. Introduccin Antes de profundizar en el conocimiento del lenguaje R, es til empezar motivndose mediante una interfaz que nos ofrezca la realizacin de las tareas, al menos de las ms sencillas. Para ello, R-Commander es una interfaz ideal que, adems de permitirnos interactuar con R para realizar anlisis estadsticos bsicos, presenta el cdigo en lenguaje R que corresponde a las acciones solicitadas. Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta suficiente para todos los anlisis estadsticos que tengan que abordar. Quienes encuentren R-Commander insuficiente, una vez superado el respeto inicial hacia R tendrn que manejarse directamente con la consola de R, creando y editando instrucciones a mano, lo que puede resultar ms engorroso, pero que permite un control total sobre los procedimientos que en cada momento se van a aplicar. 2. Primeros pasos Segn la version de R y R-Commander que se eligi instalar, hay distintas formas de abrir R-Commander: Si instal RExcel, Si instal R-UCA, abriendo Rterm automticamente se abrir tambin el RCommander. Si instal directamente R. Desde la consola de R, seleccione Paquetes y despus Cargar paquete... como se muestra en la figura. 3. Figura: Cargar paquetes en RSe visualizar una lista de paquetes; baje hasta encontrar Rcmdr y seleccinelo. Se abrir la ventana del programa R-Commander, que tendra que parecerse a la figura. 4. Figura: R-Commander 5. 3. Aspecto Una vez abierto el R-Commander como se explica en la seccin precedente, aparecer una ventana parecida a la figura. 6. Figura: Aspecto de R-CommanderLa ventana consta de las siguientes partes: 7. barra de mens; barra de elementos activos (conjuntos de datos y modelos); rea de instrucciones; rea de resultados; rea de mensajes. 4. Los datos En las secciones que seguirn, se usar una base de datos elaborada a partir de una encuesta realizada entre los turistas que pernoctan en Asturias. Los datos son de distinta naturaleza: hay datos numricos (por ejemplo los gastos) y datos categricos (por ejemplo el sexo). El tamao de la base de datos es de 2565 unidades. Se muestra una tabla de ejemplo en la figura. 8. Figura: Base de datos sobre turismo en AsturiasPor cada entrevistado, se recogen los siguientes datos: Cdigo del cuestionario (codcue); Zona geogrfica (p1) 1. Occidente 2. Centro 3. Oriente 9. Periodo de recogida datos (p2) 1. Enero - Mayo 2. Junio - Septiembre 3. Octubre - Diciembre Motivos de su visita (p3) 1. Ocio - Vacaciones 2. Trabajo 3. Otro Qu personas lo acompaan en este viaje? (p4) 1. Viaja solo 2. En pareja 3. En familia 4. Amigos - Grupo 5. Compaeros de trabajo Medio de transporte de llegada (p5) 1. Coche - Moto propios 2. Coche de alquiler 3. Autobs contratado 4. Autobs de lnea regular 5. Tren 6. Avin Tipo de establecimiento en que se aloja (p6) 10. 1. Hotel 2. Turismo Rural 3. Camping Procedencia de la persona entrevistada (p7) 1. Asturiano 2. Nacional 3. Extranjero Cuntas noches pernoctar en Asturias? (p8) La estancia, incluye fin de semana? (p9) 1. S 2. No Gasto en comidas en el alojamiento (p10) Gasto en comidas fuera del alojamiento (p11) Gasto en bebidas en bares y cafeteras (p12) Gasto en diversin en pubes y discotecas (p13) Gasto en alojamiento (p14) Gasto en actividades (p15) Gasto en transporte (p16) Gasto en compras varias (p17) Sexo de la persona entrevistada (p18) 1. Femenino 2. Masculino Gasto total diario por persona (gasdia) Gasto total en el viaje por persona (gastotal) 5. Datos (I) A continuacin se explicarn los comandos bsicos para abrir una base con R-Commander. Los datos que usaremos en los ejemplos son los mismos de la seccin precedente. 11. El men que contiene los comandos de esta seccin est representado en la figura.Figura: Men datos (primera parte)5.1. Nuevo conjunto de datosEste comando permite crear a mano y activar un nuevo conjunto de datos. Una vez asignado un nombre al nuevo conjunto de datos se abrir una tabla vaca, que el usuario tendr que rellenar con sus propios datos, como se muestra en la figura.. 12. Figura: Crear conjunto de datos5.2. Cargar conjunto de datos 13. Este comando permite abrir un conjunto de datos ya existente, guardado en un fichero con el formato nativo de R (.rda). En la figura se representa el procedimiento para abrir la base de datos Turisguay, que seguiremos utilizando a lo largo de los prximos captulos.Figura: Cargar datos 14. 5.3. Importar datosEl programa R y el paquete R-Commander no solo permiten crear y trabajar sobre datos con formato nativo, sino que permiten tambin utilizar ficheros provenientes de otros programas. Los formatos de fichero soportados por R-Commander son texto puro (en fichero, portapapeles o direccin URL); SPSS; Minitab; STATA; Excel; Access. Como ejemplo, abramos el conjunto de datos dataexcel.xlsx creado en Excel, siguendo las instrucciones de la figura. 15. Figura: Importar datos desde Excel5.4. Cambiar conjunto de datos 16. Con R-Commander es posible trabajar con varios conjuntos de datos cargados al mismo tiempo. Sin embargo, solo uno estar activo, y su nombre aparece en la barra de elementos activos a la derecha de Conjunto de datos, como se ilustra en la figura.Figura: Conjunto de datos activoPara visualizar todos los conjuntos de datos disponibles, haga doble clic en el recuadro de figura, y aparecer una ventanita con la lista de los nombres de los conjuntos de datos que estn cargados.Figura: Lista de conjuntos de datos disponiblesDesde la consola de R-Commander es posible cambiar el conjunto de datos activo usando el men de figura. En este ejemplo se ilustra cmo pasar desde el conjunto de datos Turisguay al conjunto de datos Jovenguay. 17. Figura: Cambiar conjunto de datos activoTodos los anlisis y los estadsticos que se calculan en R-Commander se realizan sola y exclusivamente sobre la base de datos activa, as que tenga cuidado cuando maneje varios conjuntos de datos a la vez: asegrese de trabajar sobre el conjunto apropriado! Es fcil despistarse al crear nuevos conjuntos de datos mediante filtros u otras modificaciones. 6. Estadsticos A continuacin se explicar, con tablas y ejemplos, el funcionamiento de los principales comandos disponibles en R-Commander para el clculo de estadsticos. Los comandos de esta seccin se encuentran en el men de la figura. 18. Figura: Men de estadsticos 6.1. ResmenesEste men contiene los estadsticos bsicos para resumir el conjunto de datos activo. Los comandos contenidos en este men aparecen en la figura, y se explicarn en los prximos epgrafes.Figura 46: Men de resmenesConjunto de datos activos Segn la naturaleza de la variable (cuantitativa o cualitativa), tendremos (figura ): Resmenes numricos para variables cuantitativas: o mnimo y mximo o media y mediana 19. oprimer y tercer cuartilEs decir, los cinco cuartiles ms la media. Frecuencias absolutas para variables cualitativas (categricas, factores).Figura: Resmenes del conjunto de datos activoResmenes numricos Este comando hace el resumen de una variable numrica (o varias). Frente al resumen descrito antes, ofrece adems la desviacin tpica. Si, por ejemplo, queremos el resumen de la variable numrica Cuntas noches pernoctar en Asturias? (p8), seguiremos las instrucciones de la figura. 20. Figura: Resmenes numricos de Cuntas noches pernoctar en Asturias? (p8)Tambin se pueden calcular los resmenes de una variable numrica, segmentando los resultados con respecto a una variable categrica. Si por ejemplo queremos conocer los estadsticos de la variable Gasto total diario por persona (gasdia) con respecto a Procedencia de la persona entrevistada (p7), seguiremos los pasos que se muestran en la figura. 21. Figura: Resmenes numricos segmentadosLa salida ser una tabla parecida a la que aparece en la figura.Figura: Descripcin del gasto segn procedenciaDistribucin de frecuencias Se usa para calcular las frecuencias de los casos observados en una variable categrica. Si por ejemplo estamos interesados a conocer la frecuencia de turistas asturianos, nacionales y extranjeros (Procedencia de la persona entrevistada (p7)), haremos como se ilustra en la figura. 22. Figura: Procedencia de los turistas: frecuenciasNmero de observaciones ausentes Este comando genera una tabla donde por cada variable se muestra el nmero de observaciones ausentes. Para el conjunto de datos Turisguay, la ejecucin del comando genera la tabla de la figura.Figura: Nmero de ausentes 23. Tablas de estadsticos Se pueden hacer tablas con los estadsticos (media, mediana o desviacin tpica) para comparar varias variables. Si por ejemplo queremos saber cul es el Gasto total en el viaje por persona (gastotal) medio de los turistas, segn sean hombres o mujeres (Sexo de la persona entrevistada (p18)) y segn la Procedencia de la persona entrevistada (p7), haremos como se ilustra en la figura.Figura: Tablas de estadsticosLa salida ser una tabla parecida a la que se muestra en la figura.Figura: Gasto medio segn sexo y procedenciaMatriz de correlaciones Calcula las matrices de correlaciones de Pearson o de Spearman entre las variables seleccionadas. Test de correlacin Contraste para la asociacin entre variables emparejadas. Se pueden calcular distintos coeficientes (Pearson, Tau de Kendall y Rho de Spearman). 24. Test de normalidad de Shapiro-Wilk Realiza el contraste de normalidad de Shapiro-Wilk. La salida ser el valor del estadstico y el correspondiente P-valor. 6.2. TablasTablas de contingencia Permite hallar las frecuencias de la distribucin conjunta de dos variables categricas, es decir, el nmero de casos en que se manifiestan simultneamente cada combinacin de valores de cada variable. Si por ejemplo queremos contar cuntos encuestados se quedarn durante el fin de semana (La estancia, incluye fin de semana? (p9)), en funcin del Periodo de recogida datos (p2), haremos como se muestra en la figura. Tambin se puede calcular el estadstico ji cuadrado del contraste de independencia u homogeneidad.Figura: Existe una relacin significativa entre periodo de visita y estancia en fin de semanaTablas de entradas mltiples Este men permite construir tablas para la distribucin conjunta de tres, cuatro o ms variables. Si por ejemplo queremos hacer una tabla donde 25. aparezcan las frecuencias de las variable Periodo de recogida datos (p2) y Procedencia de la persona entrevistada (p7), agrupadas segn la variable Sexo de la persona entrevistada (p18), marcaremos en la primera columna p2, en la segunda p7 y en la tercera p18. La salida se muestra en la figura.Figura: Tablas de triple entrada: salidaPara el caso de ms de tres variables, obsrvese la figura; en la pantalla de construccin de la tabla se marcarn las variables de inters, una en la primera lista, una en la segunda y una o ms en la tercera. Si por ejemplo queremos conocer cuntos casos hay por cada posible valor de las cuatro variables Periodo de recogida datos (p2), Procedencia de la persona entrevistada (p7), La estancia, incluye fin de semana? (p9) y Sexo de la persona entrevistada (p18), elegiremos como en la figura tabla entrada mltiple, cuya salida ser una lista de tablas (figura tabla entrada mltiple salida). 26. Figura: Tablas de entrada mltiple 27. Figura: Tablas de entrada mltiple: salida6.3. MediasTest t para una muestra Sirve para hacer contrastes de hiptesis para la media de una variable cuantitativa con distribucin normal. En la pantalla de construccin del contraste se pueden elegir: tipo de contraste bilateral (igualdad), unilaterales (menor o mayor); valor de la media bajo la hiptesis nula; nivel de confianza para el intervalo de estimacin. Por ejemplo, si queremos averiguar si la media del Gasto total en el viaje por persona (gastotal) es mayor que 300, haremos como se muestra en la figura 1, cuya salida aparece en la figura 2. 28. Figura 1: Contraste t para una mediaFigura 2: No se rechaza que el gasto total sea igual a 300 euros al 95 por ciento de confianzaTest t para muestras independientes Realiza un contraste de hiptesis de igualdad de medias entre dos muestras. Se necesita por un lado una variable cuantitativa y, por otro, una variable dicotmica (cualitativa o factor, con slo dos modalidades) que indique los dos grupos (por ejemplo, el sexo). En el ejemplo de la figura3 , se muestra cmo realizar un contraste para averiguar si el Gasto total en el viaje por persona (gastotal) promedio es mayor para las mujeres que para los hombres, con un nivel de confianza del 95% y suponiendo que la dos muestras tengan la misma varianza. La salida aparece en la figura 4. 29. Figura 3: Contraste t para muestras independientesFigura 4: El gasto medio es igual para hombres y mujeresComo otro ejemplo, queremos averiguar si en el Gasto total en el viaje por persona (gastotal) medio influye la variable dicotmica La estancia, incluye fin de semana? (p9) (figura 5). 30. Figura 5: El gasto medio es significativamente distinto si la estancia incluye fin de semanaTest t para datos emparejados Se utiliza para contrastar dos variables en que los datos se suponen relacionados, como al comparar dos variables observadas sobre los mismos individuos. Por ejemplo, si queremos averiguar si el gasto medio en Gasto en bebidas en bares y cafeteras (p12) es igual al gasto medio en Gasto en diversin en pubes y discotecas (p13), haremos como se muestra en la figura 6, cuya salida aparece en la figura 7.Figura 6: Contraste t para datos emparejados 31. Figura 7: La diferencia entre los gastos medios es significativaANOVA de un factor Este comando permite contrastar la igualdad de medias en varias muestras independientes, mediante un anlisis de varianza. Si por ejemplo queremos comprobar si el Gasto total en el viaje por persona (gastotal) medio es igual independientemente del valor de Zona geogrfica (p1), haremos como se muestra en la figura 8, marcando la variable gastotal en la columna izquierda y p1 en la derecha; si queremos ver si depende del sexo, marcaremos gastotal a la izquierda y p18 a la derecha. La salida est representada en la figura 9.Figura 8: Anlisis de varianza con un solo factor 32. Figura 9: En el gasto medio influye la zona pero no el sexo6.4. VarianzasTest F para 2 varianzas La resolucin del contraste t para comparar medias de muestras independientes depende de la homoscedasticidad (igualdad de varianzas) en las dos muestras. Mediante el comando que nos ocupa se puede realizar un contraste F para comparar la varianza de dos muestras, suponiendo que la variable sigue una distribucin normal. Como ejemplo, pensemos en el Gasto en diversin en pubes y discotecas (p13), en funcin de si el encuestado se queda o no el fin de semana (La estancia, incluye fin de semana? (p9)). Para probar si las dos muestras tienen la misma varianza seguimos los comandos que se muestran en la figura 1. La salida es el resultado del contraste de hiptesis con su P-valor (figura 2). 33. Figura 1: Contraste F de igualdad de dos varianzasFigura 2: Las varianzas son significativamente distintas, por lo que hay que ser prudente al contrastar la igualdad de mediasTest de Bartlett Una de las hiptesis del anlisis de varianza es la homoscedasticidad entre las muestras independientes. El contraste de Bartlett es similar al contraste del epgrafe anterior, pero permite contrastar ms de dos muestras independientes. Las figuras 3 y 4 representan el mismo ejemplo del epgrafe anterior, considerando las mismas variables, pero con el contraste de Bartlett en vez del contraste F . 34. Figura 5: Contraste de Bartlett: entradaFigura 6: Contraste de Bartlett: salida6.5. Test no paramtricosTest de Wilcoxon para dos muestras Contraste no paramtrico correspondiente al contraste t de medias. Si por ejemplo queremos averiguar si el Gasto en diversin en pubes y discotecas (p13) es distinto respecto a si el turista encuestado se queda durante el fin de semana, podemos realizar el contraste como en se muestra en la figura 7. La salida est representada en la figura 8. 35. Figura 7: Contraste de Wilcoxon para dos muestras: entradaFigura 8: Contraste de Wilcoxon para dos muestras: salidaTest de Kruskall-Wallis Es un contraste no paramtrico correspondiente al contraste de igualdad de medias de dos o ms poblaciones. Considerando por ejemplo el Gasto total en el viaje por persona (gastotal) en las tres distintas temporadas en que se recogieron los datos (Periodo de recogida datos (p2)), podemos preguntarnos si las tres muestras provienen de la misma poblacin. Para realizar la prueba en R-Commander, sganse las instrucciones de la figura 9, y se obtendr la salida de la figura 10. 36. Figura 9: Contraste de Kruskall-Wallis: entradaFigura 10: Contraste de Kruskall-Wallis: salida6.6. Anlisis dimensionalAgrupacin jerrquica Este comando permite hacer agrupacines jerrquicas. Si por ejemplo queremos agrupar las variables Gasto total diario por persona (gasdia) y Gasto total en el viaje por persona (gastotal), seguiremos las instrucciones de la figura 11. Adems de dibujar el dendrograma, tambien se crear una nueva variable HClust.2, que puede ser agregada al conjunto de datos activo con el comando del prximo epgrafe. 37. Figura 11: Agrupacin jerrquica y dendogramaAgregar la agrupacin jerrquica al conjunto de datos... Este comando permite agregar al conjunto de datos activos las variables indicadoras de los grupos generados con el comando del epgrafe anterior. Por ejemplo, podemos agregar la variable HClust.2, que hemos generado en el ejemplo precedente, siguiendo las instrucciones de la figura 12. Como se puede ver en la tercera ventana de la figura 12, la nueva variable aparece al final de la base de datos y se presenta con tres niveles. 38. Figura 12: Agregar la variable HClust.2 al conjunto de datos activoUna vez que hemos adjuntado esta nueva variable, podemos calcular, por ejemplo, el gasto total segn la variable de agrupacin, como se indicaba en la seccin 4.6.1 (figura 78). 39. Figura 13: Gasto total segn la variable de agrupacin HClust.26.7. Ajuste de modelosEn esta parte analizaremos cmo construir modelos de regresin lineal para los datos, mientras la parte de evaluacin y mejora de los ajustes se tratar ms adelante. El men para construir los modelos est representado en la figura 13.Figura 13: Men de ajuste de modelosRegresin lineal Es muy sencillo construir un modelo de regresin. Una vez fijadas la variable por explicar y todas las variables explicativas, se construye el modelo segn las instrucciones de figura 14. En este caso hemos elegido el Gasto total en el viaje por persona (gastotal) como variable por explicar y todas las otras variables numricas se utilizarn como variables explicativas. El programa calcula el valor de los coeficientes y tambin realiza una primera evaluacin del ajuste, tal como se muestra en la figura 15. 40. Figura 14: Regresin linealFigura 15: Regresin lineal: salida 41. Modelo lineal Es muy parecido al caso precedente, pero en este modelo se pueden incorporar tambin variables categricas. En el ejemplo hemos calculado el valor de los coeficientes para un modelo lineal con todas las variables categricas de la base de datos. Como se muestra en la figura 16, tambin se pueden efectuar trasformaciones al vuelo sobre el valor de las variables explicativas, bien con las teclas ilustradas en la ventana, bien tecleando directamente. La salida est representada en figura 17.Figura 16: Modelo lineal 42. Figura 17: Modelo lineal: salida7. Modelos En este apartado presentamos las herramientas bsicas para la evaluacin de modelos estadsticos (por ejemplo, modelos de regresin lineal). El men que permite acceder a los comandos para la evaluacin de los modelos est representado en la figura 1. 43. Figura 1: Men de modelos7.1. Resumir el modeloEs un primer vistazo al modelo; nos ensea las caractersticas bsicas del modelo, como se ilustra en la figura 1: frmula del modelo; coeficientes calculados para cada variable explicativa: o coeficiente; o desviacin tpica; o valor estadstico t; o P-valor; informacin sobre el ajuste: o R cuadrado; o estadstico F y su P-valor. 44. Figura 1: Resumen de modelo7.2. Seleccin del modelo paso a pasoEsta tcnica permite, de forma rpida y automtica, refinar un modelo con distintos procedimientos. La idea es probar a quitar y aadir variables a un modelo ya existente, evaluar los efectos de dichos cambios y elegir qu variables mantener y cules omitir. Para la evaluacin de la bondad del ajuste se pueden usar dos mtodos: BIC: criterio de informacin bayesiano AIC: criterio de informacin de Akaike mientras que las tcnicas para quitar y aadir variables son cuatro: atrs/adelante; adelante/atrs; atrs; adelante. 45. Combinando tcnicas y formas de evaluacin se pueden construir algoritmos de mejoramiento del ajuste de forma bastante sencilla. Consideramos ahora el modelo construido en la seccin precedente, donde se explicaba el gasto total en funcin de todas las variables numricas de la base de datos. Con el comando Resumir el modelo, podemos averiguar que no todas las variables son significativas, y que en general el modelo podra ser mejorado. Aplicamos entonces una de las tcnicas propuestas (figura 1) y analizamos los resultados (figura 2 ).Figura 1: Seleccin paso a paso: entrada 46. Figura 2: Seleccin paso a paso: salidaLa tcnica atrs/adelante con criterio de informacin bayesiano es un algoritmo compuesto de los siguientes pasos: 1. Inicio: se considera el modelo con todas las variables explicativas posibles. 2. Quitar una variable y evaluar el modelo con el criterio. Una vez acabado, volver a aadir la variable. (Paso atrs.) 3. Repetir el paso precedente hasta haber probado con todas las variables. 4. Ordenar los modelos calculados en los pasos 2 y 3 y construir el nuevo ajuste con una variable menos. 5. Repetir los pasos 2 y 3, aplicndolos a el nuevo modelo, y esta vez tambin se puede aadir la variable quitada. (Pasos atrs/adelante.) 6. Ejecutar el procedimiento hasta que ningn cambio en las variables mejore en el ajuste. 7. El modelo final ser el modelo al que no se puedan ni aadir ni quitar variables sin bajar la calidad. La tcnica llamada adelante/atrs sigue el mismo algoritmo, pero en vez que arrancar con el modelo con todas variables, arranca con el modelo sin variables explicativas y va aadiendo una a una las variables hasta que se queda con el mejor ajuste. Las tcnicas adelante y atrs son ms sencillas porque no consideran la posibilidad de volver a aadir (o quitar) variables descartadas (paso 5). 7.3. Grficas bsicas de diagnsticoUna vez seleccionado el modelo, es posible dibujar las grficas de diagnstico. La salida, en el caso del modelo que explica el Gasto total en el viaje por persona (gastotal) en funcin de Cuntas noches pernoctar en Asturias? (p8), Gasto en bebidas en bares y cafeteras (p12), Gasto en diversin en pubes y discotecas (p13), Gasto en alojamiento (p14) y Gasto en transporte (p16), est representada en la figura 1. 47. Figura 1: Grficas de diagnsticoEn los prrafos siguientes se ofrece una sucinta explicacin de las grficas. 1. Residuos frente a ajustados. 48. Representa los residuos (diferencias entre el valor real y el valor ajustado/predicho) frente a los valores ajustados. Si la regresin es simple (Y = a + bX), sera equivalente a un grfico de residuos frente a la variable independiente (X). Si un punto est relativamente muy por encima o muy por debajo de la recta horizontal, es un valor atpico (aparecen destacados en el grfico con sendas etiquetas). El grfico sirve tambin para detectar heteroscedasticidad, falta de independencia, falta de (recti)linealidad, etc. 2. Residuos tipificados frente a cuantiles tericos (de una distribucin gausiana) Una hiptesis de los modelos de regresin habituales una hiptesis es que los residuos tienen distribucin gausiana (normal). El grfico cuantil-cuantil sirve para diagnosticar el cumplimiento de esa hiptesis. En el caso perfecto, todos los puntos estaran en lnea recta. Las desviaciones de la recta suelen apreciarse en los puntos de los extremos. Los puntos que ms se desvan de la hiptesis aparecen destacados con sendas etiquetas identificativas. 3. Escala-posicin: raz de valor absoluto de residuo frente a valores ajustados Cabe destacar que, en contraste con la primera grfica, en sta se toma el valor absoluto, para comparar la magnitud del residuo independientemente del sentido arriba/abajo; y se toma la raz cuadrada para disminuir la asimetra, que suele dificultar la interpretacin. Por lo anterior, puede facilitar la diagnosis de la homoscedasticidad. Sin embargo, puede dificultar la diagnosis de linealidad, precisamente por las trasformaciones a que se someten los residuos. 4. Residuos tipificados frente a palancaje El palancaje es una medida de la influencia que tiene un punto en el clculo de los coeficientes del modelo. El palancaje se basa en la aportacin del punto a las varianzas de las variables independientes. Los puntos a la derecha de la grfica tienen gran palancaje. Tales puntos poseen una influencia notable si el residuo correspondiente se separa mucho del cero; en concreto, se suele considerar muy influyente si supera la distacia de Cook igual a 1 (que se corresponde con una de las lneas rojas de la grfica). Los puntos notables aparecen destacados con su etiqueta. 8. Grficas Unas herramientas muy tiles a la hora de hacer estadstica son sin duda las grficas. Muchas veces la visualizacin de la grfica adecuada nos ayuda a hacernos una idea preliminar de la variable que queremos analizar. 49. En lo que sigue aprenderemos a construir distintas grficas usando el men apropiado. El men que permite acceder a los comandos para construir las grficas est representado en la figura 1.Figura 1: Men de grficas8.1. Diagrama de cajaDibuja el tpico diagrama de cajas y bigotes para una variable cuantitativa. Siguiendo las instrucciones de la figura 1, podemos construir la grfica de la figura 2, que representa el diagrama de caja de la variable Gasto total diario por persona (gasdia). 50. Figura 1: Diagrama de caja 51. Figura 2: Diagrama de caja: gasto diarioTambin se pueden construir diagramas de cajas para variables cuantitativas segmentadas con respecto a otras variables categricas. En el ejemplo de figura 3 hemos construido el diagrama para el Gasto total diario por persona (gasdia) con respecto a la Procedencia de la persona entrevistada (p7).Figura 3: Diagrama de caja por grupos 52. 8.2. HistogramaEste comando permite construir histogramas para variables numricas. En la figura 1 en la pgina 322 est representado el histograma del Gasto total diario por persona (gasdia).Figura 1: Histograma: gasto diario 53. Cmo cambiar las etiquetas del grfico? Siendo las grficas unas herramientas muy tiles y ampliamente utilizadas en estadstica, es necesario que sean lo ms claras posible y que se puedan presentar incluso solas, o sea, sin estar acompaadas por datos numricos; por esta razon deberan ser auto-explicativas en la mayora de los casos. Es importante entonces que cada grfica contenga toda la informacin necesaria para su interpretacin. Uno de los aspectos importantes en este sentido es explicar, con etiquetas, el ttulo de la grfica y las variables que en ella intervienen. Desafortunadamente, con R-Commander no es posible modificar estas caractersticas, pero en lo que sigue daremos una explicacin sencilla de cmo operar con los comandos de R para aadir a una grfica generada con R-Commander las etiquetas de las variables y del ttulo. Para empezar, cuando se genera una grfica con R-Commander, automticamente se est pidiendo a R seguir algunos comandos especficos, los cuales aparecen reflejados en el rea de instrucciones; en el caso de la grfica representada en la figura 4, que representa el histograma del gasto diario, el comando seria: hist (Turisguay$gasdia, scale=~percent~, breaks=~Sturges~, col=~darkgray~) que corresponde a pedir: hist (...) un histograma... Turisguay$gasdia ...de la variable Gasto total diario por persona (gasdia) en el conjunto de datos Turisguay... scale=~percent~ ...que representa los porcentajes... breaks=~Sturges~ ...calculando el ancho de las columnas con el mtodo de Sturges... col=~darkgray~ ...y pintando las columnas de un color gris oscuro. Para aadir las etiquetas habr que usar el comando: hist (Turisguay$gasdia, main=~Gasto total diario~, xlab=~Euros~, ylab=~Porcentaje (%)~, scale=~percent~, breaks=~Sturges~, col=~darkgray~) donde las opciones aadidas significan que: main=~Gasto total diario~ el ttulo ser Gasto total diario, xlab=Euros~ el eje horizontal llevar la etiqueta Euros y ylab=~Porcentaje (%)~ el eje vertical llevar la etiqueta Porcentaje ( %). El resultado de este comando est representado en la figura 5. 54. Figura 3: Histograma con etiquetas4.8. Grfica de barrasEs una grfica adecuada para representar las frecuencias de las variables categricas, en especial las ordinales. En el eje horizontal se ponen las categoras (niveles o modalidades) y 55. en el eje vertical se representan las frecuencias por cada nivel. En la figura 1 se representa la grfica de barra de la variable Procedencia de la persona entrevistada (p7).Figura 1: Grfica de barras: procedencia 56. Tambin a las grficas de barra es importante aadir las etiquetas de los ejes y el ttulo; si para producir la grfica de barras 95, el comando que automticamente ha usado RCommander ha sido: barplot (table (Turisguay$p7), xlab=~p7~, ylab=~Frequency~) para aadir ttulo y etiquetas, usaremos lo siguiente: barplot (table (Turisguay$p7), xlab=~p7~, ylab=~Frequency~, main=~Procedencia~) cuyo resultado se representa en la figura 2. 57. Figura 2: Grfica de barras con ttulo y etiquetas9. Datos (II) En esta seccin seguiremos explicando los comandos contenidos en el men Datos, que ya hemos introducido en la seccin 5. 58. En esta seccin veremos aquellos comandos que permiten modificar, agrupar, segmentar y eliminar tanto los datos como las variables del conjunto de datos activo. 9.1. Conjunto de datos en paquetesExisten diferentes bases de datos de ejemplo que acompaan a algunos de los paquetes de R. Con este comando se puede cargar estos archivos y, si posible, obtener informacin adicional sobre los mismos. 4.9.2. Conjunto de datos activosSeleccionar Equivale a pinchar con el ratn en el nombre del conjunto de datos activo, sito en la barra de elementos activos de R-Commander. Actualizar Es conveniente si se realizan acciones en la consola de R, al margen de RCommander. De esta manera, R-Commander actualiza su informacin sobre los datos que pudieron modificarse sin que se diera cuenta. Ayuda sobre conjunto de datos activo Si existe informacin adicional sobre el conjunto de datos se visualizar en una ventana (es el caso de muchas de las bases de datos contenidas como ejemplos en los paquete de R). Establecer nombres de casos Sirve para usar una variable como nombre de los casos (individuos de la muestra), en lugar del nmero consecutivo que se le asigna por omisin, de forma que se puede identificar ms facilmente un caso en una tabla o en una grfica. En nuestro ejemplo, la variable Cdigo del cuestionario (codcue) representa el cdigo del encuestado y se presta muy bien como nombre de los casos. De hecho slo las variables que tienen un valor distinto por cada caso se pueden utilizar (razonablemente) para nombrar los casos. Variables del conjunto de datos activo Este comando enumera las variables del conjunto de datos activo. En nuestro caso, por ejemplo, el resultado sera la lista de figura 1. 59. Figura 1: Variables del conjunto de datosFiltrar el conjunto de datos activo Este comando es muy til cuando queremos restringir nuestra base de datos a un subconjunto de casos que cumplen una determinada condicin. Si por ejemplo queremos trabajar slo con los datos de los turistas de la zona occidental de Asturias, haremos como en figura 2. Ojo, que para indicar igualdad hay que usar un doble signo igual: ==; para desigualdad, !=. Conviene indicar un Nombre del nuevo conjunto de datos, de forma que la salida es un nuevo conjunto de datos, distinto del original, en el sentido de que pueden coexistir ambos en el entorno R. En el nuevo conjunto aparecen slo los datos relativos a los encuestados de la zona occidental.Figura 2: Filtrar datos: slo OccidenteTambin se pueden poner condiciones ms complejas. Para expresar la seleccin se pueden usar los operadores lgicos de conjuncin Y (&), de disyuncin O (|) y de negacin NO (!). 60. Pruebe a filtrar los datos, a partir del conjunto de datos Turisguay, segn las siguientes condiciones: turistas extranjeros que vinieron en avin p7 == Extranjero & p5 == AvionTurisExtrAvion espaoles (asturianos y nacionales) que se gastaron a lo sumo cinco euros en bares y cafeteras p7 != Extranjero & p12 10 TurisParejaAlojMas10 asturianos que se gastaron en total o ms de 200 euros o menos de 50 euros p7 == Asturiano & (gastotal < 50 | gastotal > 200) TurisAstuMasoMenos Recuerde que cada vez que filtre los datos, el nuevo conjunto de datos activo ser el propio conjunto filtrado, as que, si quiere volver a trabajar con el conjunto original, tendr que volver a seleccionarlo. Borrar fila(s) del conjunto de datos activo Este comando permite borrar uno o ms casos del conjunto de datos y llamar al nuevo conjunto de datos con un nuevo nombre. En el ejemplo que se muestra en la figura 3, hemos quitado la fila numero 6.Figura 3: Borrar filaEliminar los casos con valores omitidos Permite eliminar los casos donde haya una variable con valor ausente. Guardar el conjunto de datos activo Permite guardar el conjunto activo de datos en formato .rda, formato binario (cdigo objeto) nativo de R. Exportar el conjunto de datos activo Permite guardar el conjunto activo de datos en formato de texto puro. 61. 9.3. Modificar variables del conjunto de datos activosRecodificar variables Recodificar variables significa normalmente transformar una variable numrica o categrica en una categrica. Existen muchas posibilidades, que esperamos aclarar a la luz de los siguientes ejemplos. En el conjunto de datos Turisguay, queremos recodificar la variable Zona geogrfica (p1), de forma que los datos recogidos en la parte occidental de Asturias aparezcan marcados con una A, mientras que todos los otros con una B. Para ello seguiremos las instrucciones que se muestran en la figura 1. La nueva variable categrica turisp1ab contiene slo A y B, como se ve en la figura 2.Figura 1: Recodificar p1 con A y B 62. Figura 2: Variable recodificada turisp1abOtros ejemplos podran ser los siguientes: 1. Recodificar la variable Medio de transporte de llegada (p5) en la nueva variable mediopropio, diferenciando entre quien vino con su propio medio de transporte (propio) y quien vino con medios pblicos (publico). 2. Recodificar la variable Periodo de recogida datos (p2) en la nueva variable temporada, de forma que las tres distintas temporadas aparezcan con los nombres: primera, segunda y tercera. 3. Crear la variable Estancia a partir de la variable Cuntas noches pernoctar en Asturias? (p8) donde aparezcan los siguientes niveles: Estancia corta si el numero de noches es menor que 2. 63. Estancia media si el numero de noches queda entre 2 y 7. Estancia larga si el numero de noches es mayor de 7. 4. Imagnese una base de datos donde los encuestados votaron en una escala entre 0 y 10 su propio agradecimiento con respecto a una pelcula (variable voto). Lo que queremos hacer es que, para todos los que votaron entre 0 y 3, aparezca la etiqueta bajo, medio para votos entre 4 y 8, y alto para los restantes. Posibles soluciones a los ejemplos anteriores: Vieja variableDirectrices de recodificainNueva variable~Coche-moto propio~=~propio~ Medio de transporte de llegada (p5)else = ~publico~ mediopropio Periodo de recogida datos (p2)~Enero-Mayo~ = ~primera~ ~Junio-Septiembre~ = ~segunda~temporada else = ~tercera~Noches pernoctacin (p8)0,1=~Estancia corta~ 2:7=~Estancia media~ else=~Estancia larga~Estanciavoto0:3 = ~bajo~ 4,5,6,7,8 = ~medio~ else = ~alto~etiquetasCalcular una nueva variable Se pueden calcular nuevas variables a partir de las que tenemos en la base de datos. Se pueden usar todas las tpicas operaciones aritmticas y conviene asignar a la nueva variable un nombre que no aparezca ya en la lista de las variables. En los ejemplos de la figura 3, hemos calculado primero el gasto en servicios que no fueran comidas (sumando los gastos en Gasto en bebidas en bares y cafeteras (p12), Gasto en diversin en pubes y discotecas (p13), Gasto en alojamiento (p14), Gasto en actividades (p15), Gasto en transporte (p16) y Gasto en compras varias (p17)) y hemos llamado a esta nueva variable gastonocomida. Despus hemos calculado el porcentaje de gastos distintos de la comida sobre el total y lo hemos llamado NoComSobreTotal. La salida se muestra en la figura 3, donde las dos columnas representan respectivamente las dos nuevas variables gastonocomida y NoComSobreTotal. 64. Figura 3: Clculo de dos nuevas variablesConvertir variable nmerica en factor Este comando sirve para convertir una variable numrica en variable categrica. Esto es a menudo ineludible porque R-Commander slo 65. permite ciertos estadsticos y grficas para variables de un determinado tipo. A la hora de la trasformacin, cabe la posibilidad de dar nombres a las categoras, o que stas se identifiquen mediante el cdigo numrico con el que aparecen. Por ejemplo, imagnese que en la base de datos hubiera una variable donde el encuestado tuvo que expresar su agradecimiento respecto a la visita en la comunidad. La preferencia se expresa con una escala de valores entre uno y cinco. Usando el comando Convertirvariablenumricaenfactor, se podra asignar a cada nmero un nombre como por ejemplo: 1. Nada. 2. Poco. 3. Regular. 4. Bastante. 5. Siempre. Segmentar variable numrica Segmentar una variable numrica significa discretizarla, es decir, obtener una variable categrica a partir de los valores numricos de la variable. Hemos visto varios ejemplos en el apartado de recodificacin. En este caso, R-Commander proporciona mtodos para realizar la segmentacin de forma automtica, sin tener que indicar cada categora de la nueva variable. Si por ejemplo queremos dividir nuestro conjunto de datos en tres subconjuntos distintos (Gastobajo, Gastomedio y Gastoelevado), segn el Gasto total en el viaje por persona (gastotal), seguiremos las instrucciones de la figura 4. La salida se muestra en la misma figura, donde se puede apreciar la nueva columna con las etiquetas que hemos asignado a cada rango. 66. Figura 4: Segmentar una variable numricaLas posibilidades de este comando son muchas: 1.Es posible elegir el numero de segmentaciones que queremos hacer, usando la barra 1 de la figura 4. 2.Se puede elegir el nombre de los distintos niveles (2 en la figura 4): Especificar nombre: permite asignar un nombre a cada nivel. Nmeros: cada nivel est representado por un nmero entre 1 y el nmero de niveles. Rangos: cada nivel est representado por el intervalo en que se mueven sus elementos. 3.Existen distintas formas de ejecutar la segmentacin (3 de figura 4): Segmentos equidistantes: se divide el rango total de las variables entre el nmero de segmentos deseados. Segmentos de igual cantidad: funciona como los cuantiles, es decir, el rango total de la variable est dividido de forma que cada segmento contenga aproximadamente el mismo nmero de elementos. Segmentos naturales: utiliza el algoritmo de k-medias para generar los segmentos. Se puede interpretar como que anteriormente el programa indaga sobre las propiedades de la distribucin de la variable; por ejemplo, si la variable representa tres poblaciones con distintas medias, los tres segmentos estaran centrados en las tres medias, idealmente. Reordenar niveles de un factor Este comando sirve para reordenar las categoras de variables categricas. Esto puede ser importante, por ejemplo, a la hora de presentar un grfico con barras correspondientes a los das de la semana; es muy posible que, por omisin, R-Commander decida ordenar los das por orden alfabticos, en vez de por orden cronolgico. En el ejemplo que se ilustra en la figura 5, hemos cambiado el orden de la variable Zona geogrfica (p1), de forma que la nueva variable p1bis tenga Oriente como primera y Occidente como tercera. 67. Figura 5: Reordenar niveles de una variableRenombrar - Eliminar variables Existe la posibilidad de cambiar nombre a una variable y tambin de eliminarla del conjunto de datos. 10. Extensiones (plug-in) En esta seccin se explican ocho extensiones que se pueden activar en R-Commander. Por cada uno de ellos se dar una breve explicacion de las funciones contenidas y de las posibles utilizacines. Para instalar un plug-in en R-Commander, siga las instrucciones contenidas en la proxima seccin, que, aunque se refieran al caso particular del plug-in Export, se pueden utilizar para cualquier otro paquete. 10.1. RcmdrPlugin.ExportPara los usuarios que suelen escribir con el sistema de texto LATEX, existe la posibilidad de exportar las tablas de salida producidas por el R-Commander directamente en formato LATEX. Primero habr que activar el plug-in para le exportacin de tablas, siguiendo las instrucciones de la figura 1, hasta que aparezca el nuevo men Export. 68. Figura 1: Cargar el Plug-in ExportUna vez generada una tabla, por ejemplo la tabla de contingencia entre las variables Qu personas lo acompaan en este viaje? (p4) y Periodo de recogida datos (p2), seguimos las instrucciones de la figura 2, para exportar a formato LATEX la misma tabla. 69. Figura 2: Exportar una tablaEl R-Commander nos dar como resultado una secuencia de comandos en lenguaje LATEX parecida a la que sigue: begin{table}[ht] begin{center} begin{tabular}{rrrrrr} hline & Slo & En pareja & En familia & Amigos/Grupo & Compaeros de trabajohline Enero-Mayo & 164.00 & 442.00 & 158.00 & 221.00 & 70.00Junio-Septiembre & 65.00 & 544.00 & 374.00 & 270.00 & 28.00Octubre-Diciembre & 36.00 & 107.00 & 20.00 & 57.00 & 9.00hline end{tabular} caption{Tab Contingencia} label{tab1} end{center} end{table} cuyo resultado ser el siguiente:Slo Enero-Mayo JunioSeptiembre OctubreDiciembreEn parejaEn familiaAmigos/Gru Compaeros po trabajo164.00442.00158.00221.0070.0065.00544.00374.00270.0028.0036.00107.0020.0057.009.00de 70. Cuadro 1: Tab Contingencia10.2. RcmdrPlugin.HH: Heiberger and HollandEs un paquete principalmente dedicado a la construccin de grficas complejas y para uso profesional. En la paginahttp://cran.r-project.org/web/packages/HH/HH.pdf (en ingls) est disponible una gua completa de los comandos, que describe con todo detalle cmo construir e interpretar las grficas, y cmo acompaar los resultados tradicionales con las grficas ms apropriadas. Muchos mtodos y muchas grficas son totalmente inovadores, siendo presentados y explicados por primera vez. La gua contiene tambien ejemplos y ejercicios guados. 10.3. RcmdrPlugin.FactoMineRFactoMineR es un paquete de R dedicado al anlisis multivariante de datos. Las principales caractersticas de este paquete son: trabajar conjuntamente con distintos tipos de variables (nmericas y categricas); distintas estructuras de datos; numerosas grficas con distintas opciones; existe una interfaz para la modificacin de las grficas, integrada con R-