pruebas de hipostesis proporciones y chi cuadarada

15
PRUEBAS DE HIPÓTESIS DE PROPORCIONES Y CHI CUADRADA (VARIABLES NO-MÉTRICAS) Como investigadores en muchas ocasiones estamos interesados en un fenómeno cuyo comportamiento es expresado en porcentajes. Por ejemplo, podemos estar interesados en probar si la proporción de potenciales electores que planean votar por el candidato del PRI es estadísticamente distinta de la proporción que declaró preferir el candidato del PAN. I. Prueba de Hipótesis de Proporciones para una Sola Muestra. Una encuesta realizada por Bancomer a 35 clientes indicó que un poco más del 74 por ciento tenían un ingreso familiar de más de $200,000 al año. Si esto es cierto, el banco desarrollará un paquete especial de servicios para este grupo. La administración quiere determinar si el porcentaje verdadero es mayor del 60 por ciento antes de desarrollar e introducir este nuevo paquete de servicios. Los resultados mostraron que 74.29 por ciento de los clientes encuestados reportaron ingresos de $200,000 o más al año. El procedimiento para la prueba de hipótesis de proporciones es el siguiente: 1. Especifica la hipótesis nula y alternativa. Hipótesis Nula: 60 . 0 = P H Hipótesis Alternativa: 60 . > = P H a , donde P = la proporción de clientes con ingresos familiares anuales de $200,000 o más. 2. Específica el nivel de significación, α , permitido. Para una 05 . = α , el valor de tabla de Z para una prueba de una sola cola es igual a 1.64. 3. Calcula el error estándar de la proporción específicada en la hipótesis nula.

Upload: electrowolf

Post on 17-Nov-2015

215 views

Category:

Documents


1 download

DESCRIPTION

documento que explica el procedimiento para realizar una prueba de hipótesis estadística con una sola proporción

TRANSCRIPT

  • PRUEBAS DE HIPTESIS DE PROPORCIONES Y CHI CUADRADA (VARIABLES NO-MTRICAS)

    Como investigadores en muchas ocasiones estamos interesados en un fenmeno cuyo comportamiento es expresado en porcentajes. Por ejemplo, podemos estar interesados en probar si la proporcin de potenciales electores que planean votar por el candidato del PRI es estadsticamente distinta de la proporcin que declar preferir el candidato del PAN. I. Prueba de Hiptesis de Proporciones para una Sola Muestra. Una encuesta realizada por Bancomer a 35 clientes indic que un poco ms del 74 por ciento tenan un ingreso familiar de ms de $200,000 al ao. Si esto es cierto, el banco desarrollar un paquete especial de servicios para este grupo. La administracin quiere determinar si el porcentaje verdadero es mayor del 60 por ciento antes de desarrollar e introducir este nuevo paquete de servicios. Los resultados mostraron que 74.29 por ciento de los clientes encuestados reportaron ingresos de $200,000 o ms al ao. El procedimiento para la prueba de hiptesis de proporciones es el siguiente:

    1. Especifica la hiptesis nula y alternativa. Hiptesis Nula: 60.0 = PH Hiptesis Alternativa: 60.>= PH a , donde P = la proporcin de clientes con ingresos familiares anuales de $200,000 o ms.

    2. Especfica el nivel de significacin, , permitido. Para una 05.= , el valor de tabla de Z para una prueba de una sola cola es igual a 1.64.

    3. Calcula el error estndar de la proporcin especficada en la hiptesis nula.

  • 2

    n

    ppsp

    )1( =

    donde: p = proporcin especificada en la hiptesis nula. n = tamao de la muestra. Por consiguiente:

    0828.35

    )60.01(60.0 ==ps

    4. Calcula la estadstica de prueba:

    ps

    Hproporcinobservadaproporcinz

    )_()_( 0=

    73.10828.0

    60.07429.0 ==z

    5. La hiptesis nula se rechaza porque el valor de la Z calculada es mayor que

    el valor crtico Z . El banco puede concluir con un 95 por ciento de confianza )95.1( = que ms de un 60 por ciento de sus clientes tienen ingresos familiares de $200,000 o ms. La administracin puede introducir el nuevo paquete de servicios orientado a este grupo.

  • 3

    El presidente del PRI en 1988, basado en su experiencia, sostiene que un 95% de los votos para las elecciones presidenciales han sido a favor de su partido. Los partidos de oposicin levantaron una muestra de1,100 electores y encontraron que un 87% de ellos votara por el PRI. El presidente del PRI quiere probar la hiptesis, con un nivel de significacin de 0.05, que el 95% de los votos son para su partido. Hiptesis Nula: 95.0: =pHo Hiptesis Alternativa: 95.0: pHa Tamao de muestra: n=1,100 Nivel de Significacin = 0.05. El primer paso es calcular el error estndar de la proporcin utilizando el valor hipottico del porcentaje que histricamente vota por el PRI:

    0066.01100

    05.0*95.0)1( ===n

    ppSEp

    Ahora slo es necesario construir el intervalo de confianza:

    po SEp *96.1

    ( ) 963.0937.00066.0*96.195.0 = La proporcin de .87 de votos por el PRI en la encuesta no cae en la regin de aceptacin, por lo tanto el presidente del PRI debe de preocuparse por que la tendencia entre los votantes es a favorecer menos al PRI.

  • 4

    Probemos la hiptesis de que el porcentaje de microempresas cuyos dueos son hombres captado por la ENAMIN es distinto de 88 por ciento.

    Hiptesis Nula: 88.00 == PH Hiptesis Alternativa: 88.00 = PH

    0074.1948

    )88.01(88.0 ==ps

    54.50074.0

    88.0839.0 ==z

    La hiptesis nula se rechaza porque el valor de la Z calculada es menor que el valor crtico Z de 1.96. Podemos concluir con un 95 por ciento de confianza

    )95.1( = que la proporcin captada por la ENAMIN es estadsticamente distinta de 0.88.

    SEXO DEL PATRON

    1634 83.9 83.9 83.9314 16.1 16.1 100.0

    1948 100.0 100.0

    HombreMujerTotal

    ValidFrequency Percent

    ValidPercent

    CumulativePercent

  • 5

    II. Prueba de Hiptesis para Diferencias entre Dos Proporciones (Muestras Independientes). Algunas veces estamos interesados en analizar la diferencia entre las proporciones de poblaciones de grupos con distintas caractersticas. Por ejemplo, pensemos que la administracin de las tiendas Oxxo cree, sobre la base de una investigacin, que el porcentaje de hombres que visitan sus tiendas 9 o ms veces al mes (clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo. Las especificaciones requeridas y el procedimiento para probar esta hiptesis es la siguiente:

    1. Las hiptesis nula y alternativa son las siguientes:

    0= MHo PPH , la proporcin de hombres que reportan 9 o ms visitas por mes es la misma o menor que la proporcin de mujeres que hacen lo mismo.

    0>= MHa PPH , la proporcin de hombres que reportan 9 o ms visitas por

    mes es mayor a la proporcin de mujeres que hacen lo mismo.

    La informacin proporcionada es:

    45=Hn 71=Mn

    58.=HP 42.=MP

    16.42.58. == MH PP

    2. Especifica el nivel de significacin de 05.= . El valor crtico para la prueba de una sola cola es de 1.64.

  • 6

    3. Estima el error estndar de la diferencia de las dos proporciones:

    +=

    MH

    p nnPPs

    mh

    11)1(

    donde:

    MH

    MMHH

    nn

    PnPnP

    ++=

    PH = proporcin muestra de hombres (H) PM = proporcin muestra de mujeres (M) NH = tamao de muestra hombres NM = tamao de muestra mujeres Por lo tanto:

    48.07145

    )42(.71)58(.45 =++=P

    y

    10.0711

    451

    )48.1(48. =

    +=mhp

    s

  • 7

    4. Calcula de prueba estadstica:

    mhp

    o

    s

    HesproporcionentrediferenciaobservadasesproporcionentrediferenciaZ

    = )___()___(

    60.110.

    )0()42.58(. ==Z

    La hiptesis nula es aceptada porque el valor de la Z calculada es menor que el valor crtico Z. La administracin no puede concluir con un 95 por ciento de confianza que la proporcin de hombres que visita 9 o ms veces los Oxxo es mayor que la proporcin de mujeres. SPSS no cuenta con procedimientos para hacer pruebas de hiptesis de proporciones. Probemos si el porcentaje de hombres dueos de microempresas es estadsticamente diferente del porcentaje de mujeres.

    97.723141634

    )1.16(314)9.83(1634 =++=P

    y

    0274.03141

    16341

    )73..1(73.. =

    +=mhp

    s

  • 8

    74.240274.

    )0()161.839(. ==Z

    La hiptesis nula es rechazada porque el valor de la Z calculada es mayor que el valor crtico Z. Podemos concluir que el porcentaje de hombres dueos de microempresas es estadsticamente superior al porcentaje de mujeres propietarias de microempresas.

  • 9

    III. Chi-Cuadrada La mayora de la informacin que se trabaja en las ciencias sociales o administrativas es de carcter no-mtrico nominal. Por lo mismo, muchas de las tcnicas multivariadas ms populares, como la regresin lineal de mnimos cuadrados, presentan serias limitaciones analticas. Cmo analizar informacin nominal o categrica?

    2 es una prueba estadstica no paramtrica para diferencias entre dos o ms muestras donde frecuencias esperadas son comparadas en relacin con frecuencias obtenidas.

    2 se utiliza para hacer comparaciones entre frecuencias y no entre valores medios. Prueba No Paramtrica: procedimiento estadstico que no adopta ningn supuesto acerca de cmo se distribuye la caracterstica bajo estudio en la poblacin, y que slo requiere datos nominales u ordinales. Estas medidas son importantes porque la mayora de la informacin en la investigacin social y administrativa es de carcter nominal u ordinal, y porque no siempre estamos seguros que la caracterstica que deseamos estudiar se distribuye normalmente en la poblacin.

    La prueba de significacin 2 se refiere esencialmente a la distincin entre

    frecuencias esperadas y frecuencias obtenidas.

    Las frecuencias esperadas ef se refieren a los trminos de la hiptesis nula, segn la cual la frecuencia relativa (o proporcin) se supone es la misma entre los dos grupos.

  • 10

    Por ejemplo, si se espera que un 50% de los negocios que llevan una contabilidad formal hayan iniciados sus actividades con ahorros personales, entonces tambin esperamos un 50% de aquellos que empezaron con financiamiento externo.

    Las frecuencias obtenidas of se refieren a los resultados obtenidos en el estudio y que, por consiguiente, pueden variar o no de un grupo a otro. Slo si la diferencia entre las frecuencias observadas y obtenidas es suficientemente grande, se rechaza la hiptesis nula, y se concluye que existe una diferencia real en la poblacin.

    Como resultado, la hiptesis nula para la 2 seala que las poblaciones o grupos

    no difieren con respecto a la frecuencia de ocurrencia de una caracterstica dada. Mientras que la hiptesis de investigacin seala que las diferencias entre las muestras reflejan diferencias reales en la poblacin con respecto a la frecuencia relativa de una caracterstica dada. Ejemplo: Hiptesis Nula: la frecuencia relativa de microempresas que llevan una contabilidad formal y que iniciaron su actividad con un financiamiento externo, es la misma que la frecuencia relativa de microempresas que llevan una contabilidad formal y que iniciaron su actividad con ahorros personales. Hiptesis Nula: la proporcin de microempresas con contabilidad formal y cuyo inicio fue gracias a financiamiento externo, es la misma que la de microempresas con contabilidad formal cuyo inicio fueron ahorros personales.

  • 11

    La informacin de la ENAMIN proporciona la siguiente informacin: RECODE

    p25

    (1=2) (2 thru 5=1) INTO contab.

    RECODE

    p17

    (5=1) (else=2) INTO financia .

    value labels

    contab 1 'Informal' 2 'Formal'/

    financia 1 'Ahorro Personal' 2 'Prestamo' .

    execute.

    CROSSTABS

    /TABLES=contab BY financia

    /FORMAT= AVALUE TABLES

    /CELLS= COUNT.

    CONTAB * FINANCIA Crosstabulation

    Count

    465 302 767624 557 1181

    1089 859 1948

    InformalFormal

    CONTAB

    Total

    AhorroPersonal Prestamo

    FINANCIA

    Total

  • 12

    Una vez que tenemos las frecuencias esperadas y obtenidas, el valor de la 2 se

    obtiene de la siguiente manera:

    =

    ee

    f

    ff 202 )( Las frecuencias esperadas se obtienen de la siguiente manera:

    TotalTotal

    nglnTotalColumaTotalf e

    _

    )Re_)(_(1,1 =

    Para la frecuencia observada de informal-personal, 465, tenemos:

    8.4281948

    )767)(1089(1,1 ==ef

    Personal Externo Total

    Informal 428.8 338.2 767 Formal 660.2 520.8 1181

    Total 1089 859 1948

  • 13

    Noten que los totales de columnas y renglones no varan, lo que hicimos fue corregir las proporciones de tal forma que no existiera diferencia entre tipo de financiamiento. As

    61.1089

    2.660 = y 61.859

    8.520 =

    Aplicando la formula:

    =

    ee

    f

    ff 202 )(

    ( ) ( ) ( ) ( )5.20.29.31.3

    8.520

    8.520557

    2.660

    2.660624

    2.338

    2.338302

    8.428

    8.428465 22222 +++=+++=

    5.112 =

    Para interpretar este valor de 2 es necesario determinar los grados de libertad.

    Para cuadros con un nmero determinado de renglones y columnas, los grados de libertad se calculan:

    )1)(1( = crdf En esta caso (un cuadro de 2x2):

    1)1)(1()12)(12( ===df

  • 14

    Al observar la Tabla de Distribucin de 2 , encontramos que una 2 con 1 grado

    de libertad y .05 de nivel de significancia es igual a 3.841. Este el valor que debe excederse o igualar con el fin de rechazar la hiptesis nula. Como:

    841.35.11 > Debemos rechazar la hiptesis nula de que no hay diferencia entre microempresas que iniciaron con ahorros personales y microempresas que requirieron financiamiento externo en cuanto a llevar una contabilidad formal o no.

    CROSSTABS

    /TABLES=contab BY financia

    /FORMAT= AVALUE TABLES

    /STATISTIC=CHISQ

    /CELLS= COUNT COLUMN.

    CONTAB * FINANCIA Crosstabulation

    465 302 76742.7% 35.2% 39.4%

    624 557 118157.3% 64.8% 60.6%

    1089 859 1948100.0% 100.0% 100.0%

    Count% within FINANCIACount% within FINANCIACount% within FINANCIA

    Informal

    Formal

    CONTAB

    Total

    AhorroPersonal Prestamo

    FINANCIA

    Total

  • 15

    Chi-Square Tests

    11.445b 1 .00111.131 1 .00111.489 1 .001

    .001 .000

    11.439 1 .001

    1948

    Pearson Chi-SquareContinuity Correctiona

    Likelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid Cases

    Value dfAsymp. Sig.

    (2-sided)Exact Sig.(2-sided)

    Exact Sig.(1-sided)

    Computed only for a 2x2 tablea.

    0 cells (.0%) have expected count less than 5. The minimum expected count is338.22.

    b.