5_histograma

14
UNIVERSIDAD NACIONAL “SANTIAGO ANTÚNEZ DE MAYOLO” FACULTAD DE ADMINISTRACIÓN Y TURISMO ADMINISTRACIÓN DE OPERACIONES GUÍA DE PRÁCTICA SIETE M. Sc. RICARDO TOLEDO QUIÑONES HUARAZ – PERÚ – ENERO 2 011 HISTOGRAMA (Herramienta 5 / 7 para la calidad con el MINITAB)

Upload: dani-

Post on 17-Sep-2015

2 views

Category:

Documents


0 download

DESCRIPTION

histograma

TRANSCRIPT

  • UNIVERSIDAD NACIONAL

    SANTIAGO ANTNEZ DE MAYOLO

    FACULTAD DE ADMINISTRACIN Y TURISMO

    ADMINISTRACIN DE OPERACIONES

    GUA DE PRCTICA

    SIETE

    M. Sc. RICARDO TOLEDO QUIONES HUARAZPERENERO2011

    HISTOGRAMA (Herramienta 5 / 7 para la calidad con el MINITAB)

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 1 -

    HISTOGRAMA

    1. OBJETIVO

    Los histogramas dividen los valores de las muestras en muchos intervalos denominados secciones. Las barras representan el nmero de observaciones que se ubican dentro de cada seccin (su frecuencia).

    Permite ver tres propiedades de los datos numricos:

    - Forma en la que se distribuyen las observaciones (asimetra y curtosis).

    - Tendencia central (media, mediana, moda).

    - Dispersin (desviacin estndar).

    2. CARACTERSTICAS Y MEDIDAS

    Cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las marcas de clase, es decir, la mitad del intervalo en el que estn agrupados los datos.

    La utilidad del histograma tiene que ver con la posibilidad de establecer de manera visual, ordenada y fcilmente comprensible todos los datos numricos estadsticos que pueden tornarse difciles de entender. Hay muchos tipos de histogramas y cada uno se ajusta a diferentes necesidades como tambin a diferentes tipos de informacin.

    Los datos que se representan generalmente estn referidos una:

    - Poblacin: totalidad de valores posibles de una caracterstica particular de un grupo especificado de objetos, los cuales constituyen un universo. Ejemplo: Universo: personas que se encuentran en el saln de clases. Caractersticas: edad Poblacin: edades de dichas personas

    - Muestra: parte de la poblacin en estudio seleccionada segn una regla o plan. Ejemplo: Muestra: edades de 10 personas elegidas al azar.

    Para un histograma existen dos tipos de informaciones bsicas (que pueden ser complementados o no de acuerdo a la complejidad del diseo): la frecuencia de los valores y los valores en s. Normalmente, las frecuencias son representadas en el eje vertical mientras que en el horizontal se representan los valores de cada una de las variables (que aparecen en el histograma como barras bi o tridimensionales).

    Existen diferentes tipos de histogramas. Los histogramas de barras simples son los ms comunes y utilizados. Tambin estn los histogramas de barras compuestas que permiten introducir informacin sobre dos variables. Luego estn los histogramas de barras agrupadas segn informacin y por ltimo el polgono de frecuencias y la ojiva porcentual, ambos sistemas utilizados normalmente por expertos.

    En la forma como se distribuyen pueden ser medidos a nivel de asimetra y curtosis, en el Anexo 1 se presentan grficamente sus caractersticas y significado de sus medidas. Pueden existir otras formas de distribucin tales como en forma de: J, de J invertida, de U, bimodal o multimodal o aquellas que no describen ninguna forma. Se pueden combinar ambos criterios, encontrando que una curva puede ser simtrica y leptocrtica, simtrica platicrtica, positivamente asimtrica y leptocrtica, etc.

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 2 -

    Asimetra

    Es el grado en que un conjunto de datos no es simtrico. Como muchas otras estadsticas bsicas, la asimetra puede ayudar a establecer un entendimiento inicial de los datos. Puede evaluar la asimetra mediante una grfica (como un histograma) o a travs de la estadstica de la asimetra (ver Anexo 2).

    A medida que los datos son ms simtricos, el valor de su asimetra se acerca a cero. Los datos normalmente distribuidos, por definicin, exhiben asimetras relativamente pequeas. Al dividir en dos un histograma y observar que aproximadamente un lado es reflejo del otro se puede advertir que son datos normales. Pero puede suceder que los datos son tambin reflejos pero que salen a partir del medio, en este caso estn lejos de ser datos normales.

    Distribuciones asimtricas a la derecha o positivas. Los datos con asimetra positiva o datos asimtricos a la derecha se denominan as debido a que la "cola" de la distribucin apunta hacia la derecha y porque el valor de la asimetra ser mayor que 0 (o positivo). Con frecuencia los datos sobre salarios presentan esta asimetra: muchos empleados en una compaa ganan relativamente poco, mientras que cada vez menos gente gana salarios muy elevados.

    Distribuciones asimtricas a la izquierda o negativas. En este caso, la cola de la distribucin apunta hacia la izquierda y produce un valor de asimetra negativa. Los datos de tasa de fallas con frecuencia son asimtricos a la izquierda. Consideremos el caso de las bombillas: muy pocas se quemarn inmediatamente, la gran mayora dura un tiempo considerablemente largo.

    Curtosis (o kurtosis)

    Es el grado en el cual un conjunto de datos alcanza su valor mximo. Como muchas otras estadsticas bsicas, la curtosis puede ayudar a establecer un entendimiento inicial de los datos (ver Anexo 2).

    Lnea base: la distribucin normal. Los datos normalmente distribuidos establecen la lnea base para la curtosis: con picos no demasiado bajos ni demasiado altos. Los datos que siguieron una distribucin normal perfectamente tendran un valor de curtosis de 0.

    Datos de picos altos. Una distribucin con un pico ms alto de lo normal tendr un valor de curtosis positivo.

    Datos de picos bajos. Una distribucin con un pico ms bajo de lo normal tendr un valor de curtosis negativo.

    Tendencia central

    Como medidas de ubicacin se utilizan medidas para describirlas, generalmente se desea que el valor sea representativo de todo el grupo, llamadas medidas de tendencia central, utilizndose para esto principalmente la media (o promedio), la mediana y la moda (ver ubicacin de acuerdo a forma que adopta la distribucin en el Anexo 1).

    Media. Describe un conjunto entero de observaciones con un valor individual que representa el centro de los datos.

    Mediana. Representa el centro del rango de datos: la mitad de las observaciones es menor que o igual al valor y la mitad de las observaciones es mayor que o igual al valor.

    Moda. Es el valor que ocurre con ms frecuencia en un conjunto de observaciones.

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 3 -

    Dispersin

    Las medidas de dispersin describen un grupo de valores, en funcin de la variacin o dispersin de los tems incluidos dentro de ese grupo. Existen varios indicadores como el rango, la desviacin estndar y el coeficiente de variacin. Dentro del anlisis estadstico es gran utilidad la llamada distribucin normal, caractersticamente representada por una curva que es a la vez simtrica y mesocrtica en la que alrededor del 68.27% de los datos estn situados dentro de una desviacin estndar de la media, el 95.45% a dos unidades de desviaciones estndar de la media y el 99.73% a tres unidades.

    Normalidad

    Muchos procedimientos estadsticos parten del supuesto de que los datos siguen una distribucin normal. Para verificar este supuesto, se puede realizar una prueba de normalidad en los datos, para ello se pueden utilizar varias pruebas, a partir de la formulacin de las hiptesis siguientes: (Nota: H1: Indica: DIFERENCIAS).

    - H0: los datos siguen una distribucin normal.

    - H1: los datos no siguen una distribucin normal.

    Las tcnicas estadsticas ms frecuentemente utilizadas por los analistas en todo tipo de reas son denominados contrastes paramtricos o pruebas PARAMTRICAS fundamentadas por ejemplo en el hecho o supuesto que los datos siguen una distribucin normal y que la varianza de los residuos sea constante. Pero de no cumplirse estos supuestos, que podra ser ms comn de lo que se piensa, se debe proceder a contrastes o pruebas NO PARAMTRICAS, en el cual se pueden englobar en este trmino genrico a los contrastes de distribucin libre. El objetivo de la presente Gua es efectuar este contraste slo para probar la aceptacin o no de H0.

    Prueba de Anderson-Darling (AD)

    Esta prueba tiene un buen nivel de potencia y es especialmente efectiva para la deteccin de alejamiento de la normalidad en los valores altos y bajos de una distribucin. Para el valor del estadstico AD o lo que es lo mismo para A-cuadrado, tiene como valores crticos ms utilizados, los siguientes:

    - Si el estadstico supera 1.029 entonces se acepta H1 para un nivel de prueba de 1% (99% de confianza).

    - Si el estadstico supera 0.870 entonces se acepta H1 para un nivel de prueba de 2.5% (97.5% de confianza).

    - Si el estadstico supera 0.751 entonces se acepta H1 para un nivel de prueba de 5% (95% de confianza).

    - Si el estadstico supera 0.632 entonces se acepta H1 para un nivel de prueba de 10% (90% de confianza).

    Si el valor probabilstico calculado (p-valor), es mayor o igual al Nivel de Significancia ( = 1 Nivel de Confianza) seleccionado, generalmente 0.01, 0.05 0.10 que indican niveles de confianza del 99%, 95% y 90% respectivamente, se concluye que los datos siguen la distribucin normal. No siempre se muestra un p-valor para la prueba de Anderson-Darling, porque sta no existe matemticamente para ciertos casos), En resumen:

    Si la probabilidad de p-valor es mayor a , se considera que los datos son normales.

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 4 -

    Prueba de normalidad de Ryan-Joiner (RJ)

    Esta prueba tiene un buen nivel de potencia. Evala la normalidad calculando la correlacin entre sus datos y las puntuaciones normales de sus datos. Su regla es:

    Si la probabilidad de p-valor es mayor a 0.05, los datos son normales. Una seal de lo anterior es que el coeficiente de correlacin es cercano a 1.

    Prueba de Kolmogorov-Smirnov (KS)

    Es una prueba muy conocida y utilizada, pero tiende a ser menos potente que las otras dos pruebas. Su interpretacin a partir del p-valor, es similar a la de Anderson-Darling:

    Si p-valor calculado , se acepta H0 (los datos siguen una distribucin normal) Si p-valor calculado < , se acepta H1 (los datos NO siguen una distribucin normal)

    3. IMPORTANCIA

    a) Representa los datos grficamente permitiendo establecer sus caractersticas generales. Datos dispersos son agrupados de acuerdo a las veces que se presentan, permitiendo que el anlisis se facilite.

    b) Permite establecer la importancia de algunos datos en relacin a otros.

    4. PROBLEMA RESUELTO

    Se seleccionan 50 cables terminales para analizar la variabilidad de su longitud (en cm), los resultados son los que figuran a continuacin. Se solicita con el MINITAB: a) Elaborar el Histograma. b) Fijar si los datos siguen una distribucin normal a un 1% de significacin. c) De probarse H0 en b), describir sus estadsticas segn el anlisis paramtrico (basado en la Distribucin Normal) y efectuar lo mismo en el Excel, activando el complemento Herramientas para anlisis. d) Establecer cmo se comportan en relacin a las especificaciones si como intervalos de tolerancia se tiene que el Limite Inferior de Especificaciones (LIE) = 49.80 y Lmite Superior de Especificaciones (LSE) = 50.20 al 99%.

    DATOS (Longitud en cm) CABLE LONGITUD CABLE LONGITUD CABLE LONGITUD CABLE LONGITUD

    1 49.63 14 49.91 27 49.75 40 49.78 2 50.26 15 49.92 28 49.66 41 50.10 3 49.98 16 49.77 29 49.79 42 49.70 4 50.15 17 49.88 30 49.94 43 50.25 5 49.50 18 49.85 31 49.91 44 49.74 6 50.48 19 50.12 32 49.80 45 49.79 7 49.90 20 50.00 33 49.94 46 49.98 8 50.00 21 49.68 34 49.99 47 50.25 9 49.96 22 49.72 35 50.28 48 49.96

    10 49.69 23 50.12 36 49.82 49 49.97 11 50.32 24 49.97 37 50.10 50 49.94 12 50.36 25 49.98 38 49.95 13 49.54 26 50.10 39 50.36

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 5 -

    a) Histograma:

    i) Abrir el MINITAB.

    ii) Escribir o copiar del Excel, como variables en el MINITAB los datos de Cable y Longitud.

    iii) Ir a Grfica / Histograma, seleccione Con ajuste, Aceptar, en la ventana que aparezca, seleccionar: LONGITUD y Aceptar.

    El resultado ser:

    50.450.250.049.849.6

    12

    10

    8

    6

    4

    2

    0

    LONGITUD

    Frec

    uenc

    ia

    Media 49.95Desv.Est. 0.2206N 50

    Histograma de LONGITUDNormal

    iv) Edite los colores con un clic derecho del mouse sobre la regin de figuras (aparecer: Editar la regin de figuras) y luego sobre la regin de datos (aparecer: Editar la regin de datos), luego sobre esta misma regin ingresar a Agregar / Lneas de referencia y para X agregar 49.8 (dejar un espacio) y 50.2 y Aceptar.

    El resultado ser similar a la Grfica antes mostrada pero sta vez con dos lneas verticales que fija los lmites de tolerancia especificadas por el problema. Se podra interpretar as a partir del Anexo 2 Figura 5, que existe una dispersin con una amplitud mayor que la permitida por las especificaciones. Pero sta sera una conclusin apresurada, primero se debe comprobar si los datos se distribuyen normalmente (ver resultado b) para el problema) y luego considerando que se est analizando UNA MUESTRA, el anlisis correcto es por Intervalos de Tolerancia (ver resultado d) para el problema planteado).

    b) Prueba de normalidad:

    i) Para probar si los datos siguen una Distribucin Normal, se tienen las siguientes alternativas:

    (1) Ir a Estadsticas / Estadstica bsica / Prueba de normalidad.

    (2) Ir a Estadsticas / Estadstica bsica / Resumen grfico.

    ii) La alternativa (1), le permite elegir entre las pruebas de Anderson-Darling, Ryan-Joiner o Kolmogorov-Smirnov.

    iii) La alternativa (2) es ms directa y su resultado es el que se muestra a continuacin, donde se puede establecer que Supera la prueba de normalidad a un 99% de

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 6 -

    confianza, al ser el p-valor > 0.01 (0.258 > 0.01), aceptando que los datos siguen una distribucin normal, siendo el lmite inferior 49.500 y el Superior de 50.480.

    Se llega a la misma conclusin si se compara el valor del estadstico A-cuadrado con su valor crtico al 99% de confianza (0.46 < 1.029), lo que permite deducir que los datos responden a una distribucin normal.

    50.450.250.049.849.6

    Mediana

    Media

    50.00049.97549.95049.92549.900

    1er cuartil 49.788Mediana 49.9453er cuartil 50.100Mximo 50.480

    49.888 50.014

    49.893 49.980

    0.184 0.275

    A -cuadrado 0.46V alor P 0.258

    Media 49.951Desv .Est. 0.221V arianza 0.049A simetra 0.304976Kurtosis -0.206066N 50

    Mnimo 49.500

    Prueba de normalidad de A nderson-Darling

    Interv alo de confianza de 95% para la media

    Interv alo de confianza de 95% para la mediana

    Interv alo de confianza de 95% para la desv iacin estndarIntervalos de confianza de 95%

    Resumen para LONGITUD

    c) Estadsticas segn el anlisis paramtrico:

    i) Comprobada la normalidad de los datos, es posible efectuar el anlisis paramtrico, para lo cual, si bien parte de sus estadsticas se muestran en el Histograma (media, desviacin estndar y nmero de datos), lo ms adecuado es obtener una relacin ms completa en el MINITAB:

    ii) Ir a Estadsticas / Estadstica bsica / Mostrar estadsticas descriptivas.

    iii) Seleccionar la variable LONGITUD, ingresar al botn: Estadsticas, all seleccionar las que anteriormente se han descrito: Media, Desviacin Estndar, Mnimo, Mximo, N valores presentes, Mediana, Moda, Asimetra, Curtosis y Aceptar.

    El resultado del MINITAB ser: (Nota: se edit resultados en el Excel):

    Variable N Media Desv.Est. Mnimo Mediana Mximo Rango Moda Asimetra Curtosis

    LONGITUD 50 49.951 0.221 49.5 49.945 50.48 0.98 49.98 0.3 -0.21

    Por facilidad para su exportacin, las estadsticas tambin se generan en el Excel, el resultado es el de la Tabla que se presenta a continuacin y que fija que la media (49.95 cm), mediana (49.95 cm) y la moda (49.98 cm), casi coinciden en valor, una seal tambin de la normalidad de los datos.

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 7 -

    La curtosis indica que es ligeramente achatada y el coeficiente de asimetra fija que es un poco sesgada a la derecha (indica posibilidad de no tener normalidad). Un 68% de los datos aproximadamente estn entre 49.73 cm y 50.17 cm (Media Desviacin estndar).

    LONGITUD Media 49.9508Error tpico 0.031202878Mediana 49.945Moda 49.98Desviacin estndar 0.220637666Varianza de la muestra 0.04868098Curtosis -0.206066286Coeficiente de asimetra 0.304975967Rango 0.98Mnimo 49.5Mximo 50.48Suma 2497.54Cuenta 50Nivel de confianza (95.0%) 0.06270453

    d) Intervalos de tolerancia:

    i) Para resolver lo planteado es preferible utilizar un Histograma que fije los lmites de tolerancia, que los fabricantes frecuentemente utilizan para detectar una variacin excesiva, al comparar los requisitos del cliente con los lmites de tolerancia que cubren una proporcin aceptable de la poblacin. Para ello, teniendo el archivo de datos, aperturado en el MINITAB:

    ii) Ir a Estadsticas / Herramientas de calidad / Intervalos de tolerancia, en el botn: Opciones ..., considerar el 99% de confianza, cambiar tambin % poblacin: 99.0.

    iii) Comentario: Lo que interesa es saber en qu rangos est operando, a un 99% de confianza, para luego compararlo con las especificaciones. Por defecto el anlisis es Bilateral, dejarlo as. Si interesara conocer por ejemplo: A un 95% de confianza cuntas horas durarn focos fabricados, se debe seleccionar: Lmite inferior.

    iv) En la ventana que aparecer, seleccionar LONGITUD, y aceptar.

    v) Resultado: Tres grficas. Se agreg lneas de referencia para X 49.8 y 50.2.

    IMPORTANTE: Con la tecla F3 se restablece las opciones originales en una ventana de ingreso de datos.

    vi) Respecto al comportamiento del proceso en relacin a las especificaciones se puede decir lo siguiente: La media de la longitud de los cables es 49.95, a un 99% de confianza la longitud de los cables estn entre 49.203 y 50.699 cm. Si el Lmite Inferior de Especificacin es (LIE) es 49.8 y el Lmite Superior de Especificacin (LSE) es 50.2, se puede establecer que la dispersin es mayor en ambos extremos del histograma, que la permitida por las especificaciones. Es necesario reducir la dispersin.

    vii) La prueba del "Lpiz Grueso" se aplica en la ltima grfica, si uno se imagina un lpiz grueso y ste cubre a todos los puntos que estn juntos a la lnea diagonal, se acepta que los datos se acondicionan a una curva normal.

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 8 -

    50.750.450.149.849.549.2

    49.8 50.2

    No paramtrico

    Normal

    50.550.049.549.0

    50.5050.2550.0049.7549.50

    99

    90

    50

    10

    1

    Po

    rce

    nta

    je

    N 50Media 49.951Desv.Est. 0.221

    Inferior 49.203Superior 50.699

    Inferior 49.500Superior 50.480

    AD 0.455Valor P 0.258

    Estadsticas

    Normal

    No paramtrico

    Prueba de normalidad

    Grfica de intervalos de tolerancia para LONGITUDIntervalo de tolerancia de 99%

    Al menos 99% de la poblacin cubierto

    Grfica de probabilidad normal

    5. PROBLEMA PROPUESTO

    Despus de recolectar los datos de la presin de inflado (Psi) de llantas de una flota de camiones mineros se pudo obtener los siguientes resultados

    95 102 100 102 95 95 99 98 93 96 100 95

    95 103 99 98 96 95 93 97 94 98 100 99

    94 98 94 93 97 97 95 96 95 99 95 100

    93 94 95 92 98 98 94 94 96 101 95 98

    Se solicita a un 99% y luego al 95% de confianza: a) Efectuar el anlisis de normalidad. b) Efectuar el anlisis de intervalos de tolerancia, considerando que de acuerdo a las especificaciones tcnicas la Presin (Psi) debiera estar entre 91 y 104.

    RESPUESTA: A un 99% de confianza los datos se distribuyen normalmente. A un 95% de confianza los datos NO se distribuyen normalmente. b) A un 99% de confianza se est dentro de los intervalos de tolerancia. A un 95% no, la dispersin es mayor a la permitida por las especificaciones (para sta evaluacin, no se considera el anlisis paramtrico, sino el no paramtrico que seala que los lmites para la Presin son de 92 y 103).

    BIBLIOGRAFA

    GUTIRREZ Mario

    (2004) Administrar para la calidad. Mxico, Editorial Limusa S.A. 297 pg.

    MINITAB Inc. (2007) Minitab 15. Estados Unidos, Companion by Minitab, 146 pg.

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 9 -

    ANEXO 1

    Platicrtica Mesocrtica Leptocrtica

    MEDIDAS DE UBICACIN Y DISPERSIN

    Coeficiente de asimetra = 0 Coeficiente de asimetra = PositivoCoeficiente de asimetra = Negativo

    Coeficiente de curtosis = PositivoCoeficiente de curtosis = 0Coeficiente de curtosis = Negativo

    Negativamente asimtrica Simtrica Positivamente asimtrica

    ModaMediana

    MediaMediana

    Moda

    MediaModaMedianaMedia

  • UNASAMFATAdministracin de Operaciones

    R.Toledo- 10 -

    ANEXO 2

    LIE LSE

    Proceso descentrado. Es necesario centrarlo con respecto a las especificaciones.

    Proceso descentrado y con una dispersin cuya amplitud es mayor que la permitida por las especificaciones, es

    necesario centrar el proceso y reducir la dispersin.

    FORMAS QUE PUEDE TOMAR EL HISTOGRAMA DE UN PROCESO EN RELACIN CON LAS ESPECIFICACIONES (*)

    (*) Tambin un comportamiento no deseado sera el que el proceso no obedezca a una distribucin previsible, por ejemplo se espera que se acondicione a una distribucin normal y no ocurre esto.

    LIE LSE

    Proceso descentrado. Es necesario centrarlo con respecto a las especificaciones.

    LIE LSE

    LIE LSE

    Comportamiento dentro de las especificaciones, pero muy cercano a las tolerancias. Es necesario reducir la

    dispersin.

    LIE LSE

    Dispersin con una amplitud mayor que la permitida por las especificaciones. Es necesario reducir la

    dispersin.

    LIE LSE

    Comportamiento dentro de las especificaciones.

    1 2

    4 5 6

    3

  • FAT UNASAM RTQ / 2011