distribucion binomial mario briones l. mv, msc 2005
TRANSCRIPT
Muchas poblaciones consisten sólo de dos tipos de elementos:
par-imparaprueba-reprueba
vivo-muertopreñada-seca
presente-ausentepositivo-negativo
hembra-macho
El investigador se interesa en la proporción, porcentaje o número de individuos
en cada una de las dos clases.
DISTRIBUCION BINOMIAL
Ejemplos: Porcentaje de caiquenes machos con
presecia de parásitos gastrointestinales Porcentaje de perros que presentan
displacia acetabular Porcentaje de peces que mueron por una
enfermedad Porcentaje de individuos que presenta un
gen determinado
pq
p + q = 1Al muestrear, a cada observación que cae en la clase
de interés primario se le llama éxito.En una muestra de tamaño n la probabilidad de obtener 0,
1, 2, 3..., n éxitos se calcula fácilmente a travésde la distribución llamada binomial o de Bernoulli
Si r miembros de una muestra de tamaño n poseen un determinado atributo, el estimador muestreal de la proporción de la población que posee este atributo es
p= r/n.
MEDIA Y DESVIACION ESTANDAR DE UNAVARIABLE BINOMIAL
El propósito de recolectar este tipo de datoses generalmente estimar la proporción de unidades de la población que pertenecen a una de las clases, generalmente la primera de ellas (ej. Proporción o porcentaje de individuos positivos a una enfermedad).
MEDIA Y DESVIACION ESTANDAR DE UNAVARIABLE BINOMIAL
Para determinar la media y la desviación supongamos que se construye una variable que toma el valor 1 para cada unidad de la población que pertenece a la clase A y el valor 0 para cada unidad que pertenece a la clase B.
es la proporción en la población que pertenece a la clase A
En un problema de dos clases, se representa la proporción en la primera clase por p yen la segunda por q
y q = 1 - p
MEDIA Y DESVIACION ESTANDAR DE UNAVARIABLE BINOMIAL
En la población, X sigue una distribución de probabilidad de
Valor de X Probabilidad, P(X) X -
0 q - p 1 p 1 - p= q
La media poblacional es = PX= q(0) + p(1) = p
MEDIA Y DESVIACION ESTANDAR DE UNAVARIABLE BINOMIAL
Para la varianza:2= PX2 - 2 = p - p2 =pq La desviación estándar: = pq
p q s2 s
0 1 0 0.000.1 0.9 0.09 0.300.2 0.8 0.16 0.400.3 0.7 0.21 0.460.4 0.6 0.24 0.490.5 0.5 0.25 0.500.6 0.4 0.24 0.490.7 0.3 0.21 0.460.8 0.2 0.16 0.400.9 0.1 0.09 0.30
1 0 0 0.00
Relación entrefrecuencia y desviaciónestándar enuna distribuciónbinomial
MEDIA Y DESVIACION ESTANDAR DE UNAVARIABLE BINOMIAL
Estimación a partir de una muestra binomial de tamaño n
Caso 1: para el número de éxitos, r:
= np 2 = npq = npq
Caso 2: para la proporción de éxitos, p= r/n:
= p 2= pq/n = pq/n
VARIANZA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL
EjemploDe un total de 74 (n) ovejas en un rebaño, 34 son blancas y
40 son negras.
ESTIMADORES DE TENDENCIA CENTRAL PARA LA PROPORCIÓN DE EXITOS
Proporción p= 34/74 = 0,4595
Proporción q= 40/74 = 0,5405
Asumiendo que los éxitos son la presencia de ovejas blancas
ESTIMADORES DE DISPERSION PARA EL NUMERO DE EXITOS
VARIANZA= npq = 74 x 0,4595 x 0,5405 = 18,38
DESVIACION ESTANDAR= 18,38 = 4,29
ESTIMADORES DE DISPERSION PARA LA PROPORCION DE EXITOS
VARIANZA= pq/n = (0,4595 x 0,5405) / 74 = 0.00336
DESVIACION ESTANDAR= 0,00336 = 0,0579
Ejemplo
LIMITES DE CONFIANZA PARA UNA DISTRIBUCION BINOMIAL
En muestras de gran tamaño el estimador binomial p tiene una distribuciónaproximadamente normal distribuida alrededor de la
proporción poblacional p con desviación estándar pq/n.
La probabilidad es aproximadamente 0.95 de que p caiga entre los límites
p - 1.96 pq/n y p + 1.96 pq/n
Supongamos que 200 individuos en una muestra de 1000 poseen un atributo, los límites de confianza de 95% son:
0.2 1.96 (0.2)(0.8)/1000= 0.2 0.025
El intervalo de confianza para p se extiende desde 0.175 hasta 0.225
en porcentaje: desde 17.5% hasta 22.5%
para los límites de 99% se reemplaza 1.96 por 2.576
Ejemplo
COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES:
Ej. Los datos provienen de un estudio canadiense en gran escala acerca de la relación entre el hábito de fumar y la mortalidad. A partir de un cuestionario inicial en 1956, varones pensionados de guerra se clasificaron de acuerdo a sus hábitos de fumar.
COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES
Consideraremos dos clases: a)no fumadores y b) fumadores de pipa. Se obtuvo luego un informe acerca de la muerte de cualquiera de los individuos en los siguientes seis años. Por lo tanto los pensionados fueron clasificados de acuerdo a su estatus (vivo, muerto) al final del período.
Ya que la probabilidad de muerte depende en gran medida de la edad, la comparación hecha aquí se circunscribe a personas que tenían entre 60 a 64 años al inicio del estudio. La siguiente es la Tabla de Contingencia que agrupa los individuos en las cuatro clases:
COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES
Muestra 1 Muestra 2no fumadores fumadores Total
Muerto 117 54 171
Vivo 950 348 1298
Total n1=1067 n2= 402 1469
Proporciónmuertos p1=0.1097 p2=0.1343 p=0.1164
Al observar la diferencia entre los porcentajes de mortalidad de los grupos de fumadores y no fumadores...Es una diferencia real o surge de error de muestreo?
HIPOTESIS NULA:
Las proporciones de mortalidad, 117/1067 y 54/402 son estimadores de la misma cantidad.
HIPOTESIS ALTERNA:
Las proporciones de mortalidad son diferentes
COMPROBACION DE HIPÓTESIS:
Ya que p1 y p2 se distribuyen de modo aproximadamente normal, su diferencia, p1 - p2 también se distribuye normalmente. La varianza de ésta diferencia es la suma de las dos varianzas.
V(p1-p2)= s2p1 + s2p2= p1q1/n1 + p2q2/n2
bajo la hipótesis nula p1=p2= p
COMPROBACION DE HIPÓTESIS:
y el error estándar de la diferencia se distribuye normalmente con media 0 y es igual a
EE= pq/n1 + pq/n2
la hipótesis nula no especifica el valor de p. Como estimador podemos sugerir p= 0.1164
COMPROBACION DE HIPÓTESIS:
La desviación normal z es:
p1 - p2
z= pq (1/n1 +1/n2)
0.1097 - 0.1343 - 0.0246z= = = - 1.311 (0.1164)(0.9936)(1/1067 + 1/402) 0.01877
COMPROBACION DE HIPÓTESIS:
En la tabla de z, independientemente del signo, 1,311 es menor que el valor de z (1,96) que cubre un área de 95% bajo la curva.
Por lo tanto, se acepta la hipótesis nula.
La diferencia observada en la proporción defumadores y no fumadores muertos al cabo del periodo de observación, se debe al azar, por ej. Por error de muestreo.
Puede considerarse que la proporción es una sola: 0,1164.
REGLA DE DECISIÓN, DECISIÓN ESTADISTICAY CONCLUSIÓN
H0: no existe diferencias en la mortalidad de personas fumadoras y no fumadoras, en un periodo determinado de tiempo.
HA: la proporción de personas muertas es mayor en el grupo de fumadores, en un periodo de tiempo.
PRUEBA DE X2 (CHI CUADRADO)
Fumadores no fumadores Total
Muertos 117 54 171
Vivos 950 348 1298
Total 1067 402 1469
Observado Observado
Observado Observado
Esperado
124.2
PRUEBA DE X2 (CHI CUADRADO)Tabla de contingencia de 2x2
Fumadores no fumadores Total
Muertos 117 54 171
Vivos 950 348 1298
Total 1067 402 1469
Observado Observado
Observado Observado
Esperado Esperado
124.2 46.8
PRUEBA DE X2 (CHI CUADRADO)Tabla de contingencia de 2x2
Fumadores no fumadores Total
Muertos 117 54 171
Vivos 950 348 1298
Total 1067 402 1469
Observado Observado
Observado Observado
Esperado Esperado
Esperado
124.2 46.8
942.8
PRUEBA DE X2 (CHI CUADRADO)Tabla de contingencia de 2x2
Fumadores no fumadores Total
Muertos 117 54 171
Vivos 950 348 1298
Total 1067 402 1469
Observado Observado
Observado Observado
Esperado Esperado
Esperado Esperado
124.2 46.8
942.8 355.2
PRUEBA DE X2 (CHI CUADRADO)Tabla de contingencia de 2x2
Grados de libertad, en general= filas-1 x columnas-1
esperado
esperadoobservadoX
22
ESTADISTICO DE PRUEBA
Tabla de Chi cuadrado
grados de libertad 0.1 0.05 0.01 0.005 0.0011 2.706 3.841 6.635 7.879 10.8272 4.605 5.991 9.210 10.597 13.8153 6.251 7.815 11.345 12.838 16.2664 7.779 9.488 13.277 14.860 18.4665 9.236 11.070 15.086 16.750 20.5156 10.645 12.592 16.812 18.548 22.4577 12.017 14.067 18.475 20.278 24.321
Probabilidad
X2= (117-124.2)2/124.2 + (54-46.8)2/46.8 + (950-942.8)2/942.8 + (348-355.2)2/355.2
=51.84/124.2 + 51.84/46.8 +51.84/942.8 + 51.84/355.2
=0.4174 + 1.1077 + 0.0550 + 0.1459
=1.726
En el ejemplo:
Regla de decisión (Alfa= 0.05, gl= 1)= 3,84
Estadígrafo de prueba calculado:
En el ejemplo:
Conclusión:
Con los datos disponibles no es posible afirmarque los fumadores de pipa tienen una menorsobrevida que los no fumadores.
En un estudio hecho para determinar si existe una tendencia familiar en el cáncer de mamas, se investigo la frecuencia de cáncer de mamas encontrado en parientes de i) mujeres con cáncer y ii) mujeres sin cáncer. Los datos tabulados a continuación se refieren a las madres de los sujetos.
OTRO EJEMPLO:
Cáncer mamario en el sujeto Si No Total
Cáncer mamario Si 7 (5) 3 (5) 10en la madre No 193 (195) 197 (195) 390
Total 200 200 400
PRUEBA DE X2, TABLA DE CONTINGENCIA
X2= (7-5)2/5 + (3-5)2/5 + (193-195)2/195 + (197-195)2/195
= 4/5 + 4/5 + 4/195 + 4/195
= 0.8 + 0.8 + 0.0205 + 0.0205
= 1.641
ESTADIGRAFO DE PRUEBA CALCULADO
Tamaño de muestra para describir una variable binomial
Al igual que en el caso de una variable cuantitativa, el tamaño apropiado para describir una proporción depende de: La variabilidad de la característica. Del grado de error admisible para el
estimador.
Tamaño de muestra para describir una variable binomial
Al igual que en una variable cuantitativa, el tamaño apropiado se deriva de la magnitud deseada para el intervalo de confianza, con una probabilidad determinada, y se despeja n
p 1.96 pq/n (Intervalo de confianza de 95%)
Tamaño de muestra para describir una variable binomial
El tamaño apropiado para un intervalo de confianza determinado es:
donde L es el error admisible Para una población de gran tamaño
2
40
L
qpn
Tamaño de muestra para describir una variable binomial
Se debe tener una ´”aproximación” a lo que son los valores de p y q en la población, de modo de tener un valor de pxq que es la varianza.
Tamaño de muestra para describir una variable binomial
Si la población disponible es pequeña, entonces la fórmula se corrige y se ajusta n0
N
nn
n0
0
1
Ejemplo: ¿Cuál será el tamaño mínimo de
muestra para describir el porcentaje de perros de la raza ovejero alemán, afectados por displasia de cadera en Chile?
Pasos: 1: Estimación previa del porcentaje
esperado. Antecedentes de literatura Estudios previos del mismo equipo de
investigación, etc. Supongamos que por los puntos
anteriores se puede establecer que el porcentaje será de un 30%
Pasos 2: Determinación de la magnitud del
error admisible Depende de los objetivos del estudio Ej. Error admisible, 5%
Pasos 3: Cálculo del tamaño mínimo
n0= (4 x 0.3 x 0.7)/0.05
n0= 0.84/0.0025
n0= 336 perros
2
40
L
qpn
Pasos: 4: Ajuste para población finita: suponiendo
que la población de perros Ovejero Alemán en Chile es de 5000 ejemplares (N):
n=336/(1+(336/5000)) n=336/(1+0.0672) n=314.8 = 315 perros
N
nn
n0
0
1
Debido a que la expresión en el denominador de la fórmula para ajuste del tamaño será más parecida a 1 en la medida que el tamaño de la población se hace más grande, el mayor efecto en el ajuste se produce cuando el tamaño de la población disponible es pequeño.
N
nn
n0
0
1
Tamaño mínimo de la muestra para comparar dos proporciones
Se aplican los mismos principios que en la comparación de dos promedios. Es decir, el tamaño depende de la diferencia buscada entre los porcentajes y la probabilidad de encontrar esa diferencia en el experimento (poder de la prueba)
Tamaño mínimo de la muestra para comparar dos proporciones
Para dos muestras independientes:
Donde Z= desviación normal para el nivel de significancia
utilizado = 2(1-P´) Z= desviación normal correspondiente a la
probabilidad de dos colas de Usar la mejor estimación de p1q1+ p2q2
212
22112
)(
)()(
pp
qpqpZZn
Ejemplo: Suponga que existe un antibiótico
estándar que proteje a alrededor del 50% de los animales experimentales contra una infección. Se obtiene un nuevo antibiótico que parece ser superior.
Ejemplo: Al comparar el nuevo antibiótico con
el estándar los investigadores desearía una probabilidad P´ de 0.9 de encontrar una diferencia, en una prueba de una cola al nivel de significancia de 0.05, si el nuevo antibiótico proteje al 80% de los animales en la población.
Poder 0.01 0.05 0.10 0.01 0.05 0.100.80 11.7 7.9 6.2 10.0 6.2 4.50.90 14.9 10.5 8.6 13.0 8.6 6.60.95 17.8 13.0 10.8 15.8 10.8 8.6
Dos colas Una Cola
colas
n=(8.6)[(0.5)(0.5)+(0.8)(0.2)]/0.32= 39.2
P1 q1 p2 q2 p2-p1
Observaciones Unos cuantos cálculos de este tipo
nos harán ver rápidamente la triste realidad: se necesitan grandes tamaños de muestra para detectar diferencias pequeñas entre dos porcentajes.
Ejemplo2: El tamaño de muestra fue crítico en
la planificación de la prueba de la vacuna de Salk contra la poliomielitis, ya que era muy improbable poder repetir la prueba y porque sería obviamente necesaria una muestra de gran tamaño
Ejemplo 2: Un supuesto utilizado fue:
Probabilidad de contraer polio en un niño no vacunado= 0.0003 (0.03%)
Efectividad estimada de la vacuna= 50% (disminución de la probabilidad a 0.00015 (0.015%)
P´= 0.9 = 0.05 ¿cuántos niños serían necesarios en cada
grupo de prueba, con dos colas en la Ha? Resp.: 210.000 niños.