clase 12 - pruebas de bondad de ajuste y tablas de contingencias

33
Pruebas de bondad de ajuste y tablas de contingencias Mall´ en Arenas Departamento de Estad´ ıstica Facultad de Ciencias F´ ısicas y Matem´ aticas Universidad de Concepci´ on Mall´ en Arenas (Dpto. Estad´ ıstica) Pruebas de bondad de ajuste 1 / 33

Upload: jonathan-roberto-ortega-buenante

Post on 24-Jul-2015

610 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Pruebas de bondad de ajuste y tablas de contingencias

Mallen Arenas

Departamento de EstadısticaFacultad de Ciencias Fısicas y Matematicas

Universidad de Concepcion

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 1 / 33

Page 2: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

1 Algunas Aplicaciones de la Prueba Chi-Cuadrado

2 Tabla de contingencia r × s

3 La prueba chi cuadrado

4 La prueba de homogeneidad

5 Pruebas sobre independencia de dos variables categoricas.

6 Prueba de Bondad de Ajuste a una Distribucion de Probabilidades

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 2 / 33

Page 3: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Algunas Aplicaciones de la Prueba Chi-Cuadrado

Algunas Aplicaciones de la Prueba Chi-Cuadrado

Muchos experimentos producen datos enumerativos (o de conteo). Porejemplo, la clasificacion de individuos en 5 categorıas segun sus ingresos;en un estudio de trafico podrıa requerir de un conteo y la clasificacion deltipo de vehıculos motorizados que utilizan cierto tramo de las autopistas;un proceso industrial produce artıculos que tienen una de las tres clases decalidad: aceptable, de segunda y rechazada, etc.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 3 / 33

Page 4: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Algunas Aplicaciones de la Prueba Chi-Cuadrado

Los ejemplos anteriores tienen aproximadamente las siguientescaracterısticas, que definen un experimento multinomial:

1 El experimento cuenta con n pruebas independientes;

2 El de cada prueba cae en una de las k clases o celdas;

3 La probabilidad que el resultado de una prueba caiga en una celda enparticular, (en la i-esima) es pi (i = 1, 2, . . . , k) y permanececonstante prueba a prueba. Ademas,

p1 + p2 + · · ·+ pk = 1;

4 Se esta interesado en los valores n1, n2, . . . , nk en donde ni es igual alnumero de pruebas cuyo resultado cae en la i-esima celda. Note que:

n = n1 + n2 + · · ·+ nk.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 4 / 33

Page 5: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Algunas Aplicaciones de la Prueba Chi-Cuadrado

El objetivo ahora es hacer inferencia acerca de las probabilidadesp1, p2, . . . , pk de las celdas de un experimento multinomial. Las inferenciasse realizan en terminos de la prueba estadıstica de una hipotesis acerca delos valores numericos especıficos o acerca de su interrelacion.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 5 / 33

Page 6: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Tabla de contingencia r × s

Tabla de contingencia r × s

Datos de una muestra de tamano n para dos criterios de clasificacion A yB: A con los niveles o clases A1, A2, . . . , Ar. B con los niveles o clasesB1, B2, . . . , Bs

B1 B2 · · · Bs Totales

A1 n11 n12 · · · n1s n1·A2 n21 n22 · · · n2s n2·...

......

. . ....

...

Ar nr1 nr2 · · · nrs nr·Totales n·1 n·2 · · · n·s n

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 6 / 33

Page 7: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Tabla de contingencia r × s

nij = no de individuos de la muestra clasificados en la clase Ai deA y en la Bj de B.

ni· =∑s

j=1 total de la i-esima fila = no individuos de la clase Ai deA.

n.j =∑r

i=1 total de la j-esima columna = no de individuos de laclase Bj de B.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 7 / 33

Page 8: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba chi cuadrado

La prueba chi cuadrado

Al considerar n ensayos o repeticiones independientes de un experimentoaleatorio, podemos definir la variable multinomial (n1, n2, . . . , nr),asociada a una particion A1, A2, . . . , Ar del correspondiente espaciomuestral Ω, con p(Ai) = pi , donde ni es el numero de veces que tienelugar el suceso Ai en los n ensayos. Karl Pearson propuso un estadısticode prueba muy util para probar hipotesis respecto de p1, p2, . . . , pk yestablecio su distribucion de probabilidad aproximada en un muestreorepetitivo.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 8 / 33

Page 9: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba chi cuadrado

Cuando n, el numero de ensayos, es suficientemente grande, la variable:

χ2 =r∑

i=1

(ni − npi)2

npi=

r∑i=1

(Oi − Ei)2

Ei

sigue una ley de probabilidad χ2(r−1). Esta aproximacion se considera

adecuada si las frecuencias esperadas cumplen Ei = npi < 5 , parai = 1, . . . , r. Se suelen tambien utilizar

Oi = frecuencia observada de Ai;

Ei = frecuencia esperada de Ai.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 9 / 33

Page 10: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba chi cuadrado

En el caso que las probabilidades pi hayan de ser reemplazadas por susestimaciones, la variable presenta la forma:

χ2 =r∑

i=1

(Xi − npi)2

npi=

r∑i=1

(Oi − Ei)2

Ei

y su ley se ajusta asıntoticamente a la de una distribucion χ2(r−s−1),

donde s = no de parametros que es necesario estimar para determinar a suvez las estimaciones de las probabilidades desconocidas.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 10 / 33

Page 11: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba chi cuadrado

Ejemplo

En un analisis de mercado que elaboro una empresa de marketing. duranteel ano pasado se estabilizaron las participaciones del marcado con un 30%para la companıa A, 50% para la companıa B y 20% para la companıa C.La companıa C incorporara un nuevo producto al mercado y le pidio a lamisma empresa si el nuevo producto causara una alteracion en lasparticipaciones de los tres competidores en el mercado.

H0 : p1 = 0, 3 p2 = 0, 5 p3 = 0, 2Ha : Las proporciones no son las que se indicaron.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 11 / 33

Page 12: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba chi cuadrado

Supongamos que la empresa investigadora uso una muestra de 200 clientespara el estudio. A cada persona se le pidio su preferencia de compra entrelas tres alternativas: El producto de la companıa A, el de la B o el nuevoproducto de la C. Las respuestas se resumen en la siguiente tabla:

Companıa A Companıa B Companıa C

Frecuenciasobservadas ni 48 98 54

Frecuenciasesperadas Ei 200(0.3) = 60 200(0.5) = 100 200(0.2) = 40

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 12 / 33

Page 13: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba chi cuadrado

χ2 =r∑

i=1

(ni − npi)2

npi=

(48− 60)2

60+

(98− 100)2

100+

(54− 40)2

40= 7.34

con α = 0, 05 . Como 7, 23 > 5, 99 se rechaza H0. Luego se concluye quela introduccion del nuevo producto de la companıa C sı alterara laestructura actual de participacion en el mercado.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 13 / 33

Page 14: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba de homogeneidad

La prueba de homogeneidad

Se consideranB1 = (n11, n12, . . . , n1s),B2 = (n21, n22, . . . , n2s),...

......

Br = (nr1, nr2, . . . , nrs),

r poblaciones multinomiales independientes, en relacion con un mismocriterio de clasificacion con s niveles o clases A1, A2, . . . , As ; donde losnumeros de ensayos son n1., n2., . . . , nr., respectivamente ; nij = no deveces, de los ni. ensayos realizados en la poblacion Bi , que tiene lugar Aj

; pij = probabilidad que en Bi tiene el atributo Aj . Las variables en estasituacion definen la siguiente tabla de contingencia con r filas y s columnas

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 14 / 33

Page 15: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba de homogeneidad

Datos de una muestra de tamano n para s poblaciones B1, B2, . . . , Br ycriterio de clasificacion A con los niveles o clases A1, A2, . . . , As.

A1 A2 · · · As Totales

B1 n11 n12 · · · n1s n1·B2 n21 n22 · · · n2s n2·...

......

. . ....

...

Br nr1 nr2 · · · nrs nr·Totales n·1 n·2 · · · n·s n

n.j = total de la j-esima columna = frecuencia de Aj , respecto de n =no de ensayos total.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 15 / 33

Page 16: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba de homogeneidad

Se trata de probar si, en relacion al criterio considerado, las r poblacionesson homogeneas, es decir, si no existen diferencias entre la probabilidadesde cada uno de los atributos o clases en todas las poblaciones. Laformulacion de este contraste serıa:

H0 : pij = pkj = p.j , para j = 1, 2, . . . , s; k = 1, 2, . . . , r.H1 : al menos una igualdad no se cumple.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 16 / 33

Page 17: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba de homogeneidad

Bajo el supuesto que H0 es verdadero , el estadıstico

χ2c =

s∑j=1

r∑i=1

(nij − ni.pj)2

ni.pj=

s∑j=1

r∑i=1

(Oij − Eij)2

Eij

sigue aproximadamente, si los tamanos muestrales son grandes, ladistribucion de probabilidad de una χ2 con (r − 1)(s− 1) grados delibertad, donde:

pj =n.j

n, Eij =

n.j

nni.

con

n =s∑

j=1

r∑i=1

nij .

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 17 / 33

Page 18: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba de homogeneidad

Se rechaza H0 si donde χ2(r−1)(s−1),1−a es el valor crıtico. Al tratarse de

un contraste unilateral superior, la formulacion de este criterio , enterminos del valor-p, sera:

v − p = P (χ2(r−1)(s−1) > χ2

c)

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 18 / 33

Page 19: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba de homogeneidad

Ejemplo

En un ensayo clınico se desean comparar cuatro vacunas, B1, B2, B3 yB4; en relacion al criterio reaccion cutanea, con tres niveles, A1 =reaccionnula; A2 =reaccion moderada; y A3 =reaccion importante. Se dividio ungrupo de 400 ninos en cuatro grupos de 100, a los que se administro lasvacunas B1, B2, B3 y B4 ; respectivamente. Los resultados obtenidosconforman la siguiente tabla de contingencia con 4 filas y 3 columnas:

A1 A2 A3 Totales

B1 13 71 16 n1· = 100B2 15 74 11 n2· = 100B3 14 80 6 n3· = 100B4 5 70 25 n4· = 100

Totales n·1 = 47 n·2 = 295 n·3 = 58 n = 400

Su hipotesis nula es que, respecto a cualquiera de los tres tipos dereaccion, las 4 vacunas son similares.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 19 / 33

Page 20: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba de homogeneidad

H0 : pij = pkj = p.j , para j = 1, 2, 3, i, k = 1, 2, 3, 4H1 : al menos una igualdad no se cumple.

Los valores esperados son:

A1 A2 A3 ni.

E1 11.75 73.75 14.5 100

E2 11.75 73.75 14.5 100

E3 11.75 73.75 14.5 100

E4 11.75 73.75 14.5 100

pj 0.1175 0.7375 0.145 400

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 20 / 33

Page 21: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

La prueba de homogeneidad

χ2 =∑r

i=1(Oij−Eij)

2

Eij

= (13−11.75)2

11.75 + (15−11.75)2

11.75 + (14−11.75)2

11.75 + (5−11.75)2

11.75

+ (71−73.75)2

73.75 + (74−73.75)2

73.75 + (80−73.75)2

73.75 + (70−73.75)2

73.75

+ (16−14.5)2

14.5 + (11−14.5)2

14.5 + (6−14.5)2

14.5 + (25−14.5)2

14.5= 19.7504

v − p = P (χ26 > 19.7504) = 0.003067.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 21 / 33

Page 22: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Pruebas sobre independencia de dos variables categoricas.

Pruebas sobre independencia de dosvariables categoricas.

Para introducir este tipo de prueba, supongamos que en una poblacion Ωse consideran dos criterios de clasificacion A y B, integrados por losniveles o clases A1, A2, . . . , Ar ; y B1, B2, ..., Bs ,respectivamente. Una muestra aleatoria de n individuos define la variablemultinomial.Sea nij = no de individuos de la muestra clasificados en la clase Ai deA y en la Bj de B; y configura la siguiente tabla de contingencia con rfilas y s columnas.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 22 / 33

Page 23: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Pruebas sobre independencia de dos variables categoricas.

B1 B2 · · · Bs Totales

A1 n11 n12 · · · n1s n1·A2 n21 n22 · · · n2s n2·...

......

. . ....

...

Ar nr1 nr2 · · · nrs nr·Totales n·1 n·2 · · · n·s n

ni. = total de la i-esima fila = no individuos en la muestra de la clase Ai

de A.n.j = total de la j-esima columna = no individuos en la muestra de laclase Bj de B.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 23 / 33

Page 24: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Pruebas sobre independencia de dos variables categoricas.

Afirmar que los dos criterios de clasificacion son independientes significarıaque cualquier nivel (suceso) Ai del criterio A es independiente decualquier nivel (suceso) Bj del criterio B, es decir,

H0 : pij = pi.p.j

H1 : pij 6= pi.p.j

χ2c =

s∑j=1

r∑i=1

(nij − ni.pj)2

ni.pj=

s∑j=1

r∑i=1

(Oij − Eij)2

Eij

pj =n.j

n, Eij =

n.j

nni.

con

n =s∑

j=1

r∑i=1

nij .

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 24 / 33

Page 25: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Pruebas sobre independencia de dos variables categoricas.

Ejemplo

Suponga que se ha tomado una muestra de 150 personas bebedoras decerveza. Despues de probar cada una de las distintas cervezas se lespregunta su preferencia o primera alternativa. La tabla siguiente resumelas respuestas observadas:

Cerveza preferidaLigera Clara Oscura Total

Hombres 20 40 20 80

Mujeres 30 30 10 70

Total 50 70 30 150

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 25 / 33

Page 26: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Pruebas sobre independencia de dos variables categoricas.

Valores esperadosLigera Clara Oscura Total

Hombres 26.667 37.333 16 80

Mujeres 23.333 32.667 14 70

Total 50 70 30 150

χ2 =∑s

j=1

∑ri=1

(Oij−Eij)2

Eij

= (20−26.667)2

26.667 + (40−37.333)2

37.333 + (20−16)2

16

+ (30−23.333)2

23.333 + (30−32.667)2

32.667 + (10−14)2

14= 6.13

v − p = P (χ22 > 6.13) = 0.047.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 26 / 33

Page 27: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Prueba de Bondad de Ajuste a una Distribucion de Probabilidades

Prueba de Bondad de Ajuste a una Distribucion deProbabilidades

La prueba de bondad de ajuste es conveniente cuando se requiere decidir siexiste incompatibilidad entre las distribuciones de frecuencias observadas yalguna distribucion predeterminada o hipotetica.Hipotesis:

H0: La variable Y tiene una distribucion de probabilidades dada.

H1: La variable Y no tiene la distribucion de probabilidadespropuesta.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 27 / 33

Page 28: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Prueba de Bondad de Ajuste a una Distribucion de Probabilidades

Estadıstico de prueba:

χ2 =k∑

i=1

(Oij − Eij)2

Eij∼ χ2

k−1−m

Las frecuencias esperadas se calculan de la siguiente manera:

Ei = npi,

donde pi son las probabilidades correspondientes a cada valor de Y segunla distribucion de probabilidades establecidas en la hipotesis nula.Regla de Decision:La hipotesis nula se rechaza con un nivel de significacion α si el resultamayor que el valor de tabla.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 28 / 33

Page 29: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Prueba de Bondad de Ajuste a una Distribucion de Probabilidades

Ejemplo

Hay 1000 bolsas de naranjas, cada una de las cuales contienen 10naranjas. Alguna de las naranjas estan podridas. ¿Es la distribucion deprobabilidades del numero de naranjas podridas por bolsa unaBinomial(10,p)?. Los resultados obtenidos tras analizar las 1000 bolsasson los siguientes:

No de naranjas podridas 0 1 2 3 4 5 6

Frecuencia observada 334 369 191 63 22 12 9

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 29 / 33

Page 30: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Prueba de Bondad de Ajuste a una Distribucion de Probabilidades

Hipotesis:

H0: El numero de naranjas podridas por bolsa sigue unadistribucion Binomial(10,p) para algun p.

H1: El numero de naranjas podridas por bolsa no sigue unadistribucion Binomial (10,p).

p =114210000

= 0, 1142

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 30 / 33

Page 31: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Prueba de Bondad de Ajuste a una Distribucion de Probabilidades

no de naranjas Frecuencia Ei

podridas observada pi npi

0 334 0,297410817 297.4111 369 0,383430969 383.4312 191 0,222448832 222.4493 63 0,076476726 76.477

4 o mas 22 0,017254317 20.233

5 12 0,002669374 2.669 < 56 9 0,000286786 0.287 < 5

7 o mas 0 2,21787E-05 0.022 < 5

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 31 / 33

Page 32: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Prueba de Bondad de Ajuste a una Distribucion de Probabilidades

no de naranjas Frecuencia Ei

podridas observada Oi pi npi(Oi−Ei)

2

Ei

0 334 334 0,297410817 297.411 4,501

1 369 369 0,383430969 383.431 0,543

2 191 191 0,222448832 222.449 4,446

3 63 63 0,076476726 76.477 2,375

4 o mas 22 43 0,020232656 20.233 25,618

5 12

6 9

1000 1000 1 1000 37,484

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 32 / 33

Page 33: Clase 12 - Pruebas de Bondad de Ajuste y Tablas de Contingencias

Prueba de Bondad de Ajuste a una Distribucion de Probabilidades

Ejemplo

Un entomologo esta analizando la distribucion de una especie de insectoen una zona de cultivo. Para dicho estudio selecciono 40 parcelas de2m× 2m y contabilizo el numero de insectos de dicha especie en cadauna. Los resultados son los siguientes:

Numero de insectos 0 1 2 3 4

Numero de parcelas 4 16 12 6 2

Pruebe con α = 0.05 si los datos se ajustan a una distribucion de Poisson.

Mallen Arenas (Dpto. Estadıstica) Pruebas de bondad de ajuste 33 / 33