Download - EDA Analisis Exploratorio de Datos
-
8/19/2019 EDA Analisis Exploratorio de Datos
1/19
ANALISIS GRAFICO Y ANALISISEXPLORATORIO DE LOS DATOS (AED)
Notas
Indice
1. OBJETIVOS DEL TEMA 1
2. CONCEPTOS BÁSICOS PREVIOS 1
3. INTRODUCCIÓN 2
4. APUNTE HISTÓRICO 3
5. ETAPAS DEL AED 3
6. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES UNIVARIADAS 5
7. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES BIVARIADAS 12
8. PROCEDIMIENTOS AED RELACIONADOS CON DISTRIBUCIONES MULTIVARIADAS 13
9. PROCEDIMIENTOS RELACIONADOS CON ANÁLISIS DE SERIES TEMPORALES 13
10. PROCEDIMIENTOS GRÁFICOS RELACIONADOS CON EL DISEÑO EXPERIMENTAL UNIFACTORIAL 14
11. PROCEDIMIENTOS RELACIONADOS CON EL DISEÑO EXPERIMENTAL MULTIFACTORIAL 17
12. PROCEDIMIENTOS RELACIONADOS CON EL CONTROL DE LA CALIDAD 18
13. OTROS PROCEDIMIENTOS DE ANÁLISIS EXPLORATORIO DE DATOS: EL DIAGRAMA DE TALLO Y HOJAS 18
1. Objetivos del tema
• Conocer y comprender el concepto de análisis exploratorio de los datos (AED)
• Conocer las etapas a seguir para realizar un AED
• Conocer las herramientas gráficas y numéricas que constituyen el AED
• Saber seleccionar los procedimientos más adecuados para examinar los datos y relaciones de interés
• Comprobar si se verifican las hipótesis de interés
• Saber identificar la presencia de datos atípicos (extremos o anómalos)
• Saber evaluar la trascendencia de datos ausentes y su potencial impacto
2. Conceptos básicos previos
Distribuciones aleatorias
Estadísticos descriptivos
Muestreo
-
8/19/2019 EDA Analisis Exploratorio de Datos
2/19
2
3. Introducción
3.1. Concepto del AED
El análisis exploratorio de los datos (AED) más que un conjunto de técnicas o herramientas gráficas y
numéricas, es un enfoque, actitud, línea de investigación o filosofía del análisis estadístico previo a lacomprobación de hipótesis o análisis especializados para diseccionar y entender la estructura de los datos uobservaciones de la muestra y las posibles relaciones entre las variables medidas. (1, 2).
Aunque muy a menudo se identifica “análisis gráfico” y AED no debieran confundirse. El análisis gráfico esuna colección de procedimientos estadísticos basados en gráficos enfocados a caracterizar un aspectodeterminado de los datos. AED es un concepto más ambicioso, que combina procedimientos numéricos ygráficos y se propone investigar la estructura subyacente a una base de datos sugiriendo modelos,relaciones e interpretaciones como primer paso de un estudio estadístico. El siguiente paso será el “análisisconfirmatorio”, o inferencial (3).
Con todo no hay que olvidar que el análisis exploratorio de los datos fue diseñado en una época pre-informática, donde no existía la facilidad de componer gráficos como hoy en día.
El AED Se compone de un conjunto de técnicas diseñadas para identificar modelos fundamentales,
conceptualmente significativos, las relaciones entre los datos y para llamar la atención sobre aquellasobservaciones que se desvían del modelo fundamental. Entre las principales herramientas gráficas del AEDestán:
• Histograma
• Diagrama de cajas
• Diagrama “multivari”
• Diagrama continuo
• Diagrama de Pareto
• Diagrama de dispersión
• Gráfico de tronco y hojas
3.2. Objetivos del AED
El análisis exploratorio de los datos (AED), en oposición al “análisis explicativo” de los datos, tiene por finalidad general:
• ahondar en la estructura (normal, asimétrica, lineal, homocedástica, etc.) de los datos
• Descubrir estructuras subyacentes
• Sugerir hipótesis causales de los fenómenos observados
• Descubrir las relaciones o patrones sistemáticos existentes entre las variables analizadas
• Desarrollar modelos con el mínimo número de parámetros (parsimoniosos)
• Ayudar a seleccionar las herramientas estadísticas apropiadas
• Determinar el conjunto óptimo de factores
• Sintetizar y presentar la información contenida en el conjunto de datos de forma óptima
• Proporcionar una base para muestreos (observacionales o experimentales) subsiguientes
3.3. Estrategia del AED
Entre sus estrategias están:
• Organizar y preparar los datos para ulteriores análisis estadísticos;
• Detectar fallos de diseño, errores en la obtención o codificación de datos y tratamiento de datosausentes
• Identificar la presencia de datos atípicos (extremos o anómalos)
• Comprobar que las suposiciones subyacentes en las técnicas estadísticas inferenciales se cumplen
en la muestra de datos
-
8/19/2019 EDA Analisis Exploratorio de Datos
3/19
3
4. Apunte histórico
John Wilder Tukey (1915-2000)
Las numerosas contribuciones a la estadística de John W Tukey, pionero del AED (3), tuvieron un impactodefinitivo sobre el análisis estadístico de los datos. John W Tukey acuñó términos como “software”, “bit”, etc.
5. Etapas del AED
5.1. Preparación de los datos
Selección del método de entrada al sistema informático:
(a) entrada manual por teclado;
(b) entrada a un paquete ofimático (ej.: MS Excel);
(c) entrada a un paquete estadístico (ej.: SPSS);
(d) importación, si procede al paquete estadístico.
Codificación de los datos:
(a) continuos o de intervalo;
(b) ordinales;
(c) nominales;
(d) dicotómicos.
Transformaciones y manipulaciones de los datos:
(a) combinar o segregar conjuntos de datos;(b) ordenar datos;
(c) agregar o suprimir datos o variables;
(d) transformar datos (ex.: logaritmos, dicotomización);
(e) guardar, imprimir o exportar datos.
Establecer claves de los códigos utilizados.
5.2. Análisis gráfico de las variables individuales
Según la naturaleza de los datos
(a) diagrama de datos ordenados
(b) diagrama de dispersión en el diseño experimental (DEX)(c) diagramas de medias DEX
(d) Interacción de efectos
(e) diagrama de cajas
(f) sondas DEX
(g) efectos
(h) diagrama seminormal
(i) diagrama residual acumulativo
(j) diagrama de contorno
5.3. Análisis gráfico de las relaciones entre variables
Diagrama de dispersión
-
8/19/2019 EDA Analisis Exploratorio de Datos
4/19
4
5.4. Evaluación de supuestos básicos subyacentes
Gráficos PP
Gráficos cuantil-cuantil
5.5. Investigación de la presencia de datos atípicosDiagrama de cajas
5.6. Investigación de la existencia de datos ausentes
métodos numéricosescala demedida
métodos gráficoslocalización dispersión
Intervalo Histograma
Polígono de frecuencias
Media Desviación típica
Coeficiente de variación
Ordinal Diagrama de cajas Mediana Rango interfractílico
Nominal Diagrama de barrasDiagrama de líneas
Diagrama de sectores
Moda
Diagrama bootstrap
Diagrama de demora
Diagrama de linealidad de Cox y Box
Diagrama de probabilidad
Diagrama de normalidad de Cox y Box
Diagrama de probabilidad normal
Diagrama de probabilidad del coeficiente de correlaciónDiagrama de secuencia serial
Diagrama de Weibull
Diagrama múltiple
Procedimientos relacionadoscon distribuciones univariadas
Histograma
Diagrama de dispersión
Diagrama 6
Diagrama de correlación lineal
Diagrama de interceptación lineal
Diagrama de pendiente lineal
Procedimientos relacionadoscon distribuciones bivariadas
Diagrama de desviación típica residual linealDiagrama de estrellaProcedimientos relacionados
con distribucionesmultivariadas
Gráficos funcionales de Andrews
Procedimientos relacionadoscon análisis de seriestemporales
Diagrama de autocorrelación
Bihistograma
Diagrama de cajas
Diagrama de desviaciones típicas
Diagrama de dispersión
Diagrama de medias
Procedimientos relacionadoscon el diseño experimentalunifactorial
Diagrama cuantil–cuantil
-
8/19/2019 EDA Analisis Exploratorio de Datos
5/19
5
Diagrama de bloques
Diagrama de contorno
Diagrama de desviación típica en diseño experimental
Diagrama de dispersión en diseño experimental
Procedimientos relacionadoscon el diseño experimentalmultifactorial
Diagrama de medias en diseño experimentalDiagrama de Youden
Gráficas de control para observaciones individuales: CuSum,MA, MR, EWMA
Gráficas de Pareto
Gráficas de Shewhart para control de variables: R , s , 2 s , x
Gráficas de Shewhart para control de atributos: C , P N , P , U
Procedimientos relacionadoscon el control de la calidad
Gráficas 2T de Hotelling para control multivariado
6. Procedimientos AED relacionados con distribuciones univariadas
6.1. Diagrama “ bootstrap”
(ver Módulo 4: “Bootstrap”)
6.2. Diagrama de demora
Definición: El diagrama de demora es un gráfico de dispersión de cada observación respecto a laobservación anterior. Una demora (lag) es un desplazamiento temporal fijo. En el conjunto
de datos { }1 2, , , n X X X … la demora entre 8 X y 3 X es 8 3 5− = . Pueden dibujarsegráficos para cualquier demora, aunque quizás los más utilizados son los de demora 1. Un
diagrama de demora 1 tiene por:(a) abscisas: 1i X i− ∀
1
(b) ordenadas: i X i∀
Sinónimo: Lag plot
Propósito: La finalidad del diagrama de demora es comprobar (a) la aleatoriedad de un conjunto dedatos o serie temporal; (b) la presencia de autocorrelación en una serie temporal 2; (c) lapresencia o ausencia de datos extremos (datos aberrantes, outliers); y (d) si existe unmodelo adecuado a la estructura de los datos.
Ejemplos: (4)
1 El símbolo ∀ se lee “para todo”, en este caso, i∀ significa “para todo (alternativamente, “paracualquier”), valor de i ”.
2 Una serie temporal es una secuencia de observaciones sucesivas, y por lo tanto estadísticamente noindependientes. Se caracteriza por presentar (o no) tendencia (aumentos o decrementos en los valores
medios), periodicidad (fluctuaciones por ejemplo diarias, mensuales, estacionales o anuales) yautocorrelación (las observaciones más próximas son más probablemente similares que las más alejadasen el tiempo).
-
8/19/2019 EDA Analisis Exploratorio de Datos
6/19
-
8/19/2019 EDA Analisis Exploratorio de Datos
7/19
7
Técnicas estadísticas relacionadas: Regresión lineal;
Diagrama de normalidad de Box y Cox
Interpretación: En el ejemplo se observa como el gráfico de los datos originales y los residuales sugiere unajuste no lineal (cuadrático, concretamente) o, alternativamente una transformación. Elcoeficiente de correlación es de –1 para 2,0λ = . La transformación de Box Cox con éste
valor de parámetro permite el ajuste lineal mostrado en el tercer diagrama.
6.4. Diagrama de normalidad de Box y Cox
Definición:
Sinónimo: Box-Cox normality plot
Propósito:
Ejemplo: (4)
Técnicas estadísticas relacionadas:
Interpretación:
6.5. Diagrama de probabilidad y de probabilidad normal
Definición: es un diagrama que representa la distribución acumulada de las observacionesestandarizadas. Puede incorporar una línea correspondiente a la distribución teórica (por ejemplo, la distribución normal) para enfatizar el ajuste de los datos experimentales
(a) abscisas: resultados ordenados en forma creciente (algunas versiones utilizanlas medianas ordenadas);
(b) ordenadas: frecuencia (es decir, probabilidad) acumulada de los resultados de lavariable dependiente escalada según la distribución que se deseacomprobar (“papel probabilístico normal” en el caso de la distribuciónnormal)3;
Sinónimo: diagrama PP, PP plot, [normal] probability plot
Propósito: Evaluar la bondad de ajuste de la distribución de los datos a una distribución determinada.
El diagrama de probabilidad normal es un caso especial del diagrama de probabilidad en elque la distribución a examen es la normal. Permite investigar si los datos se ajustan a unadeterminada distribución, por ejemplo la normal, y en caso que no sea así; cuál es la posiblerazón de este alejamiento de la normalidad (por ejemplo, el sesgo) y cuál puede ser ladistribución teórica más apropiada
3 Por ejemplo, en el caso de la distribución normal, los valores estandarizados, resultado de latransformación:
x z
s
−=
utilizando tablas de la distribución normal inversa o funciones implementadas en paquetes estadísticos para
obtener el fractil de la distribución normal y representarlo en una escala decimal. No obstante, la mayor parte de paquetes estadísticos proporciona directamente el diagrama y no es necesaria estatransformación.
-
8/19/2019 EDA Analisis Exploratorio de Datos
8/19
-
8/19/2019 EDA Analisis Exploratorio de Datos
9/19
9
Propósito: estimar parámetros de localización y escala, proporcionando al mismo tiempo unaevaluación gráfica de la bondad de ajuste en aquellos problemas en que el análisisestadístico asume un cierto tipo de distribución. Es aplicable a distribuciones (como la deWeibull) que se definen mediante un parámetro de forma además de los parámetros delocalización y escala. Por esta razón no es adecuada para caracterizar distribuciones comola normal caracterizadas únicamente por parámetros de localización y escala. Unaaplicación adicional es decidir qué familia de distribuciones se ajusta mejor a los datosobservados.
Ejemplo:
Técnicas estadísticas relacionadas: diagrama de probabilidad.
Interpretación: El parámetro formal es especialmente útil para orientar si una distribución posee una colamás o menos extensa e indica varias distribuciones comunes:
1λ Forma de la distribución
-1 Cauchy (aproximada)
0 Logística (exacta)
0,14 Normal (aproximada)
0,5 U1 Uniforme (exacta)
6.7. Diagrama secuencial
(Véase el tema “Análisis de series temporales”)
6.8. Diagrama de Weibull
Definición: El diagrama de Weibull es una técnica gráfica para evaluar el ajuste y obtener unaestimación de los parámetros de forma y escala de una distribución de Weibull 5. Estádefinido por:
( )
( ) 43
1 3 41
2
1 11 uu
F u
λ λ
λ λ λ
λ
−
− −−−
= +
donde:1
λ es un parámetro de localización;
2λ es un parámetro de dispersión; y
3 4,λ λ son dos parámetros de forma, tales que si 1 2λ λ = la distribución es simétrica.
5 La distribución de Weibull es una familia de distribuciones caracteriza por:
( ) ( )1
X Y X e β
α β γ α β γ −
− −= −donde: α es el parámetro de escala;
-
8/19/2019 EDA Analisis Exploratorio de Datos
10/19
10
(a) abscisas: el logaritmo neperiano de la respuesta ordenada; y
(b) ordenadas: la probabilidad acumulada (en porcentaje) de la distribución deWeibull, una escala diseñada para que, de seguir tal distribución, elgráfico resultante del ajuste por mínimos cuadrados seaaproximadamente linear:
( )( )ln ln 1Y p= − −
donde: 0,3
0, 4
i p
n
−=
+; y
i es el orden (el ordinal) de la observación: se requiere un mínimo de7 observaciones:
Sinónimo: Weibull plot
Propósito: Es una técnica gráfica para establecer si un conjunto de datos procede de una poblaciónque se ajusta razonablemente a la distribución de Weibull con dos parámetros, suponiendoque la localización es cero (8)..
Ejemplo: (4)
Técnicas estadísticas relacionadas: Diagrama de probabilidad de Weibull;Diagrama PPCC de Weibull;
Diagrama de riesgo de Weibull.
Estos dos últimos permiten a diferencia del diagrama de Weibull la existencia de datos ausentes.
Interpretación: la misma que otros diagrama de ajuste de datos a distribuciones treóricas.
6.9. Diagramas múltiples
Sinónimo: 4–Plot, 6 plot
Propósito: Combinar en un mismo diagrama diversos gráficos (4, 6, etc.).
Ejemplos: (4)
β es el parámetro de forma;γ es el parámetro de localización.
-
8/19/2019 EDA Analisis Exploratorio de Datos
11/19
11
6.10. Histograma
Definición: El histograma es un gráfico que presenta frecuencias tabuladas. Viene a ser la versióngráfica de la tabla, mostrando la proporción de casos que caen dentro de determinadascategorías o clase. Formalmente el histograma puede definirse como un “mapa” que
presenta el recuento de observaciones que pertenecen a n categorías disjuntas o clases yel diagrama histograma es su expresión gráfica. El histograma
ih satisface la condición
1
n
i
i
N h=
= ∑
donde: N es el número total de observaciones; y
i es el índice que identifica la clase.
Un histograma acumulativoi
H de un histogramai
h es un “mapa” que presenta el recuento
acumulativo de observaciones que pertenecen a las i categorías disjuntas o clases previas,definiéndose como:
1
i
i j
j
H h=
= ∑Un histograma estandarizado (clásico o acumulativo) es aquel en que se representanfrecuencias relativas en lugar de frecuencias absolutas.
El número de clases n tiene una importancia decisiva en el aspecto e interpretación delhistograma, por lo que debe seleccionarse con cuidado, a partir de reglas empíricas como:
2
10log
n N
n N
n N
=
=
=
(esta última regla requiere un número de observaciones superior a 50). O alternativamente,usando parámetros estadísticos: así, el número “óptimo” de clases es el que minimiza lasiguiente expresión
22min
x sn
c
−=
donde: c es la amplitud o intervalo de la clase.
El intervalo de clase c puede ser estimado a partir de la regla de Freedman–Diaconis (9):1
32 rango intercuartílicoc N −
= × ×
Una vez establecido el número de clases, la representación gráfica del histograma consiste
en dibujar n rectángulos adosados correspondientes a las clases en que se clasifican losdatos:
-
8/19/2019 EDA Analisis Exploratorio de Datos
12/19
12
(a) abscisas: clases; y
(b) ordenadas: densidad de frecuencia: el área de cada barra y no su altura representa lafrecuencia, por lo que sería más correcto nombrar el eje de ordenadas como “densidadde frecuencia”. Si la base de los rectángulos, es decir el intervalo de la clase, es igual, laaltura es proporcional al área y no aplica esta distinción. Cuando la altura representa la
frecuencia, se habla de “polígono de frecuencias”Propósito: La finalidad del histograma es resumir gráficamente la distribución univariada de un conjuntode observaciones.
Ejemplo: (4)
Técnicas estadísticas relacionadas: Diagrama de cajas
Diagrama de probabilidad
Interpretación: En el histograma debe evaluarse la localización (centralización) de los datos yeventualmente la presencia de varias modas; su dispersión (escala); la existencia de sesgo;la presencia de valores extremos.
Calculadoras on line: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html
http://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.html
http://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructions
7. Procedimientos AED relacionados con distribuciones bivariadas
7.1. Diagrama múltiple
(Véase el apartado 6.9)
7.2. Diagrama de dispersión
(Véase el tema “Correlación”)
7.3. Diagrama de correlación lineal (Véase el tema “Correlación”)
7.4. Diagramas de interceptación y de pendiente lineales
(Véase el tema “Regresión”)
7.5. Diagrama de desviación residual estándar lineal
(Véase el tema “Regresión”)
http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.htmlhttp://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.htmlhttp://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructionshttp://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructionshttp://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.htmlhttp://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html
-
8/19/2019 EDA Analisis Exploratorio de Datos
13/19
13
8. Procedimientos AED relacionados con distribuciones multivariadas
8.1. Diagrama de estrella
Definición: El diagrama de estrella es un método para representar datos multivariados (10), estudiando
las variables dominantes en cada observación, las observaciones más parecidas (nubes o“clusters”) y la existencia de datos extremos (outliers). Cada “estrella” representa unaobservación individual formada por la unión de los vértice de vectores (separados por ángulos iguales) que representan las variables. Estos vectores emergen del centro de uncírculo, siendo la longitud de cada vector proporcional a la magnitud de la variable en todoslos puntos. El nombre proviene del aspecto que presenta estas observaciones.
Ya que representan datos individuales, su principal limitación es que es válido para unnúmero limitado de observaciones. Cuando este número crece el gráfico se hace cada vezmás confuso.
Sinónimo: star plot
Propósito: Este diagrama se utiliza para examinar en un mismo gráfico los valores relativos dedeterminadas variables y localizar observaciones similares.
Ejemplo: (4)
Técnicas estadísticas relacionadas: Gráfico de caras de Chernoff.
Interpretación: Estos diagramas pueden interpretarse desde el punto de vista de las observacionesindividuales, buscando por ejemplo qué variables son más determinantes, o desde el puntode vista de las variables, buscando modelos de comportamiento y agrupando los casos por el aspecto similar de las “estrellas” respectivas
9. Procedimientos relacionados con análisis de series temporales
9.1. Diagrama de autocorrelación
(Véase Modulo 3 “Análisis de series temporales”).
9.2. Diagrama espectral
(Véase Modulo 3 “Análisis de series temporales”).
9.3. Diagramas de desmodulación compleja de la amplitud y la fase
(Véase Modulo 3 “Análisis de series temporales”).
9.4. Diagrama secuencial
(Véase Modulo 3 “Análisis de series temporales”).
9.5. Diagrama funcional de Andrews(Véase Modulo 3 “Análisis de series temporales”).
-
8/19/2019 EDA Analisis Exploratorio de Datos
14/19
14
10. Procedimientos gráficos relacionados con el diseño experimental unifactorial
10.1. Bihistograma
Definición: El bihistograma es un gráfico basado en el histograma clásico para visualizar dos
distribuciones simultáneamente consistente en la yuxtaposición de dos histogramas: en laparte superior la medición en el primer nivel 1 del factor y en la parte inferior la distribucióncorresponde a la medición en el segundo nivel. Está, pues restringido a examinar losefectos de factores que tienen únicamente dos niveles. Desde el punto de vista gráficopuede ser más ilustrativo que un test estadístico equivalente (como el test t de Student) yaque pone en evidencia simultáneamente los parámetros de localización, dispersión y formay la existencia o no de datos extremos.
Sinónimo: histograma bidimensional
Propósito: evaluar si una modificación de nivel de un factor ha modificado la localización, variación oforma y características de una distribución
Ejemplo: (4)
Técnicas estadísticas relacionadas: Diagramas QQ;
Test t de Student;Test F de Snedecor;
Test de Kolmogorov–Smirnov.
10.2. Diagrama de cajas
Definición: El diagrama de cajas representa en una forma simple y cómoda una o varias poblaciones deobservaciones sin prejuzgar el tipo de distribución teórica subyacente. Es un gráficoesquemático que representa cuatro de las principales características de la distribución delos datos: (a) localización: media, mediana; (b) dispersión: rango, rango intercuartílico; (c)aspecto: sesgo; y (d) presencia de datos extremos.
Tiene el aspecto de una caja central que abarca la mitad de los datos, con una línea de
prolongación trazada a la altura de la mediana y una indicación de la media. De la cajaemergen unas líneas (“bisagras”) acotadas en el percentil 25 y 75 y a partir de estasacotaciones se indican los valores extremos.
Sinónimos: Diagrama de cajas y bigotes; Box–and–whisker plot, candlestick chart
Propósito: Representar las distribuciones y sus principales características de una o varias muestrassimultáneamente
Ejemplo: (4)
-
8/19/2019 EDA Analisis Exploratorio de Datos
15/19
-
8/19/2019 EDA Analisis Exploratorio de Datos
16/19
16
Técnicas estadísticas relacionadas: Diagrama de localización
Diagrama de dispersión de diseño experimental
Interpretación: Bajo la hipótesis nula de igualdad de dispersión, el diagrama proporciona una aproximaciónvisual para comprobar esta suposición.
10.5. Diagrama de localizaciónDefinición: Los diagramas de localización (media, media truncada, mediana, etc.) se utilizan para
averiguar si la localización o centralización varía entre diferentes grupos de observaciones,y la magnitud o el modelo de esta variación. Al igual que los gráficos de dispersión (con losque suele asociarse el gráfico de localización), los grupos o clases pueden ser naturales,definidos por el investigador o arbitrarios.
(c) abscisas: identificador de la clase o grupo; y
(d) ordenadas: localización (por ejemplo, media) de la clase.
Es frecuente dibujar una línea recta, paralela a las abscisas en el punto de ordenadascorrespondiente a la media global.
Sinónimo: Mean plot, median plot, trimmed mean plot
Propósito: Valorar la consistencia de una medida de localización (media, media recortada, mediana)entre grupos o subconjuntos de datos objeto de estudio, organizados según niveles de unavariable de agrupación o “factor” (por ejemplo la variable o factor “tiempo en meses” tiene 12niveles por año). Permite investigar cuál es la magnitud de los cambios en las medidas delocalización en los diferentes grupos y averiguar si existe un modelo bien definido en el casode que tales medidas de localización no sean consistentes.
Ejemplo: (4)
Técnicas estadísticas relacionadas: Diagrama de escalas
Diagrama de medias en diseño experimental (DEX)
Diagrama de cajas
Interpretación: En el análisis experimental unifactorial o en el diseño de estudios univariados se asume quela medida de localización o centralización es constante, es decir consistente, entre todos los
grupos. Este diagrama permite una comprobación gráfica de que se cumple este supuesto.
-
8/19/2019 EDA Analisis Exploratorio de Datos
17/19
17
10.6. Diagrama cuantil–cuantil
Definición: El diagrama cuantil–cuantil es una representación gráfica de la distribución de los datosprocedentes de dos poblaciones para comprobar que proceden de una distribución común.
(a) abscisas:1
k
n +
cuantiles6 observados en una distribución acumulada estandarizada; y
(b) ordenadas: cuantiles observados en una segunda muestra.
Se traza la bisectriz del cuadrante como linea de referencia,
En cierto modo se parece al diagrama de probabilidad7, con la salvedad que no serepresentan frecuencias estandarizadas (el valor k -ésimo de una distribución de media 0 yvarianza 1) sino cuantiles. Igualmente puede utilizarse para visualizar alejamientos de ladistribución normal si la distribución esperada es la normal.
No requiere que ambas muestras sean iguales. Si lo son, el diagrama es esencialmente unarepresentación de los datos ordenados de una muestra frente a los datos ordenados de lasegunda
Sinónimo: QQ plot
Propósito: Averiguar si dos poblaciones tienen una distribución común. Además es útil para descubrir datos aberrantes o extremos.
Ejemplo: (4)
Técnicas estadísticas relacionadas: Bihistograma
Test t
Test F
Test ji–cuadrado para dos muestras
Test de Kolmogorov–Smirnov para dos muestras
Interpretación: Cuanto más se aleje la dispersión de puntos de la línea de pendiente 45 º, menos verosímiles que las dos distribuciones procedan de una distribución común. Permite detectar diferencias en localización, escala, forma (sesgo) y la presencia de datos extremos.
Conclusiones:
11. Procedimientos relacionados con el diseño experimental multifactorial
11.1. Diagrama de bloques
(Véase Módulo 3 “Diseño experimental”)
6 Cuantil es la fracción (por ejemplo porcentual) de casos por debajo de un valor determinado. Así, el cuantil
0,25 (percentil 25 %) es aquel valor que deja un por debajo suyo un 25 % de casos de la distribución, y un75 % por encima.7 Cuando n es grande, los dos gráficos son idénticos
-
8/19/2019 EDA Analisis Exploratorio de Datos
18/19
18
11.2. Diagrama de contorno
(Véase Módulo 3 “Diseño experimental”)
11.3. Diagramas de dispersión, media y desviación típica en diseño experimental
(Véase Módulo 3 “Diseño experimental”)
12. Procedimientos relacionados con el control de la calidad
Los principales gráficos asociados a la gestión de la calidad son: el hsitograma, el diagrama de Youden, eldiagrama de Pareto, los gráficos de Schewhart, el diagrama de causa efecto y el diagrama de dispersión.
12.1. Diagrama de Youden
(Véase Módulo 3 “Calidad”)
12.2. Diagrama de control para observaciones individuales: CuSum, MA, MR, EWMA
(Véase Módulo 3 “Calidad”)
12.3. Diagrama de Pareto
(Véase Módulo 3 “Calidad”)
12.4. Diagrama de Shewhart para control de variables: R , s , 2 s ,
(Véase Módulo 3 “Calidad”)
12.5. Diagrama de Shewhart para control de atributos: C , P
N , P , U
(Véase Módulo 3 “Calidad”)
12.6. Diagrama 2T de Hotelling para control multivariado
(Véase Módulo 3 “Calidad”)
13. Otros procedimientos de análisis exploratorio de datos: el diagrama de tallo yhojas
Definición: El diagrama de tallo y hojas de Tukey presenta la distribución de los valores observados enuna muestra utilizando las cifras principales como “tallo” de un árbol, y las demás cifras, a laderecha del tallo, representan las “hojas”. Si hay datos extremos se agrupan en la parte oinferior del “tallo” como “ALTOS” y “BAJOS” respectivamente.
Sinónimo: Stem–and–leaf plot, stemplot Propósito: Representar de forma rápida una muestra de datos, manteniendo visible su valor numérico,
y facilitar el calculo de medianas, fractiles, etc.
Ejemplo: La siguiente información corresponde a una muestra de 150 observaciones.BAJO |96,3 96,42 96 |6 96 |778919 97 |011122234444440 97 |556666777888888899999(38) 98 |0000000000011122222222223333344444444452 98 |55566666666667777777788888888889919 99 |000001112223344
4 99 |592 100 |0 ALTO |100,8
-
8/19/2019 EDA Analisis Exploratorio de Datos
19/19
Técnicas estadísticas relacionadas: Histograma
Calculadora “on line”: http://math.uc.edu/~pelikan/probandstat/stem.htm
Bibliografía
Bibliografía citada
1. Filliben JJ. The probability plot correlation coefficient test for normality. Technometrics 1975;17(1):111-117.
2. Smith AF, Prentice DA. Exploratory data analysis, a handbook for data analysis in the behavioralsciences: statistical issues; 1993.
3. Tukey JW. Exploratory data analysis: Addison Wesley; 1977.
4. NIST/SEMATECH. e-Handbook of Statistical Methods. In:: NIST,; 2003.
5. Box GEP, Cox DR. An analysis of transformations. J R Stat Soc, Ser. B 1964;26:211-243.
6. Box GEP, Cox DR. An analysis of transformations revisited, rebutted. J Am Stat Assoc 1982;77(377):209-210.
7. Freimer M, Mudholkar GS, Kollia G, Lin CT. A study of the generalized Tukey lambda family. Com Stat -Theor Meth 1988;17:3547-3567.
8. Nelson W. Applied life data analysis: Addison-Wesley; 1982.
9. Freedman D, Diaconis P. On the histogram as a density estimator L2 theory. Prob Theor Rel Fields1981;57(4):453-476.
10.Chambers J, Cleveland W, Kleiner B, Tukey P. Graphical methods for data analysis: Wadsworth; 1983.
11.McGill R, Tukey JW, Larsen WA. Variations of box plots. Am Stat 1978;32:12-16.
12.Hintze JL, Nelson RD. Violin plots: a box plot-density trace synergism. Am Stat 1998;52(2):181-184.
En Internet
http://www.5campus.com/leccion/aed
http://ciberconta.unizar.es/LECCION/aed/ead.pdf http://www.statsoft.com/textbook/stdatmin.html
http://www.statgraphics.com/eda.htm
SPSS
www.sussex.ac.uk/Users/andyf/eda.pdf
Excel
http://www.qualitydigest.com/oct97/html/excel.html
http://math.uc.edu/~pelikan/probandstat/stem.htmhttp://www.5campus.com/leccion/aedhttp://ciberconta.unizar.es/LECCION/aed/ead.pdfhttp://www.statsoft.com/textbook/stdatmin.htmlhttp://www.statgraphics.com/eda.htmhttp://www.sussex.ac.uk/Users/andyf/eda.pdfhttp://www.qualitydigest.com/oct97/html/excel.htmlhttp://www.qualitydigest.com/oct97/html/excel.htmlhttp://www.sussex.ac.uk/Users/andyf/eda.pdfhttp://www.statgraphics.com/eda.htmhttp://www.statsoft.com/textbook/stdatmin.htmlhttp://ciberconta.unizar.es/LECCION/aed/ead.pdfhttp://www.5campus.com/leccion/aedhttp://math.uc.edu/~pelikan/probandstat/stem.htm