expresion del intervalo de confianza para la media
DESCRIPTION
estadisticaTRANSCRIPT
1
Intervalo de confianza para la media poblacional µ de una variable normal
Se considera la variable aleatoria normal !~! !;! , y suponemos que la desviación típica σ es conocida. Estamos interesados en hacer inferencias acerca de la media µ. Para ello tomamos una muestra aleatoria X1, X2, …, Xn y estimamos la media µ mediante la media muestral ! (estimador puntual con mínimo ECM).
Por el Teorema del Límite Central sabemos que !~! !! = !;!! = ! ! , de dónde, tipificando, podemos escribir:
! − !! !
~! 0; 1
Al construir un intervalo de confianza se llama α a la probabilidad de dejar fuera del intervalo el verdadero valor del parámetro que estamos estimando (en este caso la media poblacional), de manera que 1–α es la probabilidad de capturar dicho valor (1–α es la confianza que tenemos en haber capturado el verdadero valor del parámetro). Lo más frecuente es elegir α = 5%, de dónde 1–α = 95%. A α se le llama significación y a 1–α confianza.
El intervalo lo construiremos centrado, es decir, si α es la probabilidad de dejarnos fuera del intervalo el verdadero valor de µ, la probabilidad será la misma a ambos lados del intervalo (α/2 a cada lado), según se muestra en la siguiente figura:
La expresión de la media muestral tipificada !!!! !
~! 0; 1 se puede representar gráficamente, junto a los límites que dejan a cada lado una probabilidad α/2:
En la figura anterior se denota !! ! al valor de una variable normal estándar que deja a la derecha una probabilidad igual a α/2.
A partir de la figura es fácil ver que se cumple:
! −!! ! ≤! − !! !
≤ !! ! = 1 − !
Al multiplicar en ambos lados por ! !, se obtiene:
! −!! !!!≤ ! − ! ≤ !! !
!!
= 1 − !
Al despejar µ resulta:
! ! − !! !!!≤ ! ≤ ! + !! !
!!
= 1 − !
Es decir, la probabilidad de haber capturado µ entre ! − !! !
!! y ! + !! !
!! es igual a 1‒α, lo
cual se suele escribir:
!"! ! = ! ± !! !!!
A partir de esta expresión es fácil ver que la amplitud del intervalo de confianza es 2!! !
!!,
por lo que a la cantidad que se suma y se resta desde el centro del intervalo, ! = !! !
!!, se le
suele llamar semiamplitud del intervalo, aunque también se denomina precisión.
Ejemplo 1 Al propietario de una gasolinera le gustaría estimar la cantidad de gasolina vendidos a sus clientes. Asumimos que la cantidad de gasolina vendida tiende a seguir una distribución normal, con una desviación típica de 8,7 litros.
De acuerdo con sus registros, selecciona una muestra aleatoria de 60 ventas y para la que la media de litros vendidos es de 32,8. Construiremos un intervalo de confianza de 95% para la media poblacional.
Según los datos:
! = 8,7 ! = 60 ! = 0,05 ! = 32,8
Podemos calcular !! ! = !!,!"# = 1,96, con lo que:
!"! ! = 32,8 ± 1,968,760
= 32,8 ± 2,2
El intervalo resulta:
!"! ! = 30,6; 35,0
Es decir, tenemos una confianza del 95% en que la cantidad media de gasolina vendida a sus clientes está entre 30,6 y 35,0 litros. La semiamplitud del intervalo de confianza es 2,2.■
Párate a pensar
A partir de la expresión del intervalo de confianza, estudia los factores que afectan a su amplitud y cómo lo hacen.■
1-α α/2α/2
1‒α
α/2 α/2
zα/2‒zα/2 0
2
Determinantes de la amplitud de un intervalo de confianza para la media Si consideramos la semiamplitud del intervalo de confianza para la media ! = !! !
!!, podemos ver
que viene determinada por α, σ y n.
La significación α es la probabilidad de dejarnos fuera del intervalo el verdadero valor del parámetro, que será mayor cuanto más estrecho sea el intervalo, es decir, al aumentar α se reduce la amplitud del intervalo (α↑ → d↓).
La desviación típica σ es una medida de la dispersión de la población, de manera que cuanto mayor sea σ mayor será la amplitud del intervalo (σ↑ → d↑).
El tamaño de la muestra n aparece en el denominador de la semiamplitud, por lo que al aumentar n se reduce la amplitud del intervalo (n↑ → d↓).
En las siguientes figura se muestra gráficamente cómo afecta a la longitud de los intervalos de confianza el tamaño muestral n y la significación α. En todos los casos se considera la misma desviación típica σ = 2.
Se aprecia claramente la reducción de la amplitud de los intervalos al aumentar el tamaño muestral
n y el incremento de la amplitud de los intervalos al reducir la significación α.
Calculo del tamaño muestral La semiamplitud d se puede interpretar como el error máximo que podemos cometer en la estimación de la media poblacional al emplear la media muestral con una probabilidad 1–α, es decir:
! ! − ! < ! = 1 − !
De los tres determinantes vistos para la amplitud del intervalo de confianza, sólo podemos actuar sobre el tamaño muestral, ya que la desviación típica poblacional es una cantidad fija y la significación α tiene un valor convenido de antemano (usualmente α es 0,05).
A partir de la expresión de la semiamplitud, podemos despejar n, obteniendo:
! = !"! ! ! !
Ahora tenemos una expresión útil para calcular el tamaño muestral que necesitamos, si queremos garantizar un error máximo d, con probabilidad 1–α, asumiendo que la desviación típica poblacional es σ.
Ejemplo 2 En el ejemplo anterior, la semiamplitud del intervalo resultó d = 2,2 litros, al emplear una muestra formada por n = 60 clientes. La precisión del intervalo puede parecernos mejorable, por ejemplo, podemos estar interesados en llegar a d = 1,5 litros.
¿Qué tamaño muestral tenemos que emplear si queremos tener una probabilidad del 95% de estimar la media poblacional con un error menor que 1,5 litros?
! =!"! !
!
!=
8,7×1,961,5
!
= 129,2
Es decir, para garantizar un error máximo de estimación de 1,5 litros, con una probabilidad del 95%, necesitamos una muestra de al menos 130 clientes.■
Interpretación de un intervalo de confianza La construcción de un intervalo de confianza para la media, con una determinada significación α, a partir de una muestra de tamaño n, es un proceso que, de repetirse un gran número de veces (es decir, tomando un gran número de muestras de tamaño n) daría lugar a un gran número de intervalos diferentes (ya que cada muestra tendrá una media muestral diferente). Para estos
-2,0-1,6-1,2-0,8-0,40,00,40,81,21,62,0
10 20 30 40 50 100 200 300 500 1000Tamaño muestral n
Amplitud de los IC con α = 5%, en función de n
-2,0-1,6-1,2-0,8-0,40,00,40,81,21,62,0
10 20 30 40 50 100 200 300 500 1000Tamaño muestral n
Amplitud de los IC con α = 1%, en función de n
3
intervalos se cumplirá que algunos contendrán el verdadero valor µ, pero otros dejarán fuera dicho valor. La significación α es la proporción de intervalos que dejan fuera a la media (por eso nos interesa tomar valores de α lo más pequeños posible, tales como α = 5%, o incluso α = 1%), por lo que 1‒α es la proporción de intervalos que contienen la media µ en su interior, por lo que 1‒α recibe el nombre de confianza.
En el Ejemplo 1 obtenemos !"!% ! = 30,6; 35,0 y decimos que tenemos una confianza del 95% en que la cantidad media de gasolina vendida por cliente está entre 30,6 y 35,0 litros. Hay que observar que decimos confianza y no probabilidad, y esto se debe a que µ no es una variable aleatoria (es un valor fijo, aunque desconocido), por lo que, dada la muestra, µ está o no está dentro del intervalo. La media µ está fija, y es el intervalo el que la atrapa o no la atrapa, según la media muestral ! esté más o menos próxima al valor desconocido µ. Errores comunes en la interpretación de un intervalo de confianza Considera el siguiente escenario: a una muestra de 100 clientes les pedimos que califiquen un determinado servicio que han recibido, en una escala de 0 a 10. La media de la muestra resultó ! = 7,3. Supongamos que la desviación típica poblacional es conocida y vale σ = 0,8, es fácil comprobar que, con una significación α = 5%, !"!% ! =7,14; 7,46 .
Veamos varias interpretaciones erróneas de esto:
a. "Tenemos una confianza del 95% de que la media de la muestra se sitúa entre 7,14 y 7,46. En realidad la confianza del 95% es en que la media poblacional µ está entre los límites, no la media de la muestra, que resulta ! = 7,3 (la media muestral está siempre en el centro del intervalo, por definición).
b. "El 95% de los clientes de la población califican el servicio entre 7,1432 y 7,4568. Nuestra inferencia es en realidad acerca de la media, no de las calificaciones individuales. La confianza del 95% es en que la media poblacional está entre los límites.
c. “Dado que el tamaño muestral es lo suficientemente grande (n = 100), la población de valoraciones de los clientes es normal. "
El teorema del límite central dice que la distribución de la media muestral será aproximadamente normal cuando el tamaño muestral sea lo suficientemente grande. No nos dice nada acerca de la distribución de la variable X: lo que es aproximadamente normal es la media muestral de X, no la propia X, de la que el teorema del límite central no nos dice nada.
¿Qué sucede si no conocemos σ? La t de Student. Para construir la expresión del intervalo de confianza para la media hemos partido de la expresión de la media muestral tipificada !!!! !
~! 0; 1 , contando con que conocemos el
valor de σ, lo cual es muy poco frecuente.
Lo usual es desconocer el verdadero valor de la desviación típica, en cuyo caso tenemos que estimarlo a partir de la desviación típica muestral:
! =!! − ! !!
!!!! − 1
No hay que confundir la desviación típica muestral S con la desviación típica de la muestra, que se calcularía dividiendo por n, en lugar de por n‒1.
A efectos prácticos S puede calcularse como:
! =!
! − 1!! − !!
Notar que !! es la media de los cuadrados de los valores de la muestra, mientras que !! es el cuadrado de la media muestral.
Si la muestra es lo suficientemente grande, digamos ! > 100, se acepta que S es una buena estimación de σ, con lo que !!!
! ! será muy
parecido a !!!! !
, por lo que podemos emplear S como si fuera la verdadera desviación típica de X sin incurrir en un gran error. Sin embargo, si n es pequeño, no podemos sustituir !!!
! ! por !!!
! !, es
decir, no podemos decir que !!!! !
es una variable normal estándar (aunque se le parecerá, y el parecido será tanto mayor cuanto mayor sea n). Párate a pensar
Asegúrate de entender las afirmaciones anteriores, contestando a las siguientes preguntas:
¿Por qué !!!! !
no es normal estándar cuando !!!! !
sí que lo era?.
4
¿Por qué el parecido de !!!! !
con una variable normal estándar será mayor cuanto mayor sea S?.■
Dada la variable !~! !;! , con σ desconocida, de la que podemos extraer una muestra X1, X2, …, Xn, con media muestral ! y desviación típica muestral S, la distribución de !!!
! ! se parecerá a la normal
estándar, ya que al ser S un estimador insesgado de σ, esperamos que !!!
! ! se parezca a !!!
! !,
además, como la estimación S de σ, será tanto mejor cuanto mayor sea n, el parecido de la distribución de !!!
! ! con una variable normal
estándar será mayor cuanto mayor sea n.
A la distribución de !!!! !
se le denomina t de Student y, como se ha razonado, será diferente según el valor de n, con lo que en realidad se trata de una familia de distribuciones. En concreto, a la distribución de !!!
! ! se escribe !!!! y se nombra t
con n‒1 grados de libertad, siendo n el tamaño de la muestra con la que se estima S.
En la siguiente figura se muestra es aspecto de la función de densidad de probabilidad de varias distribuciones t, según los grados de libertad, y se compara con el aspecto de la variable normal estándar:
Se observa que a medida que se incrementa el número de grados de libertad la distribución t se asemeja más a una variable normal estándar. Con 30 ó más grados de libertad el parecido es tan grande que cuesta distinguirlas.
Para una variable t con n grados de libertad se verifica que su media es igual a 0, ! !! = 0, y su varianza es ! !! = ! ! − 2 , que tiende a 1 cuando n tiende a infinito.
De manera análoga a cómo se definió !! , definimos !!;! como el valor de una variable !! que deja a la derecha una probabilidad igual a α.
Al igual que la distribución normal estándar, la !! es simétrica con media cero, por lo que se verificará: !!;!!! = −!!;! .
Párate a pensar
¿Cómo cambia la expresión del intervalo de confianza para la media poblacional de una variable normal si desconocemos la desviación típica poblacional.■
Expresión del intervalo de confianza para la media cuando no conocemos σ Al no conocer el valor de la desviación típica poblacional σ, no podemos usar !!!
! !~! 0; 1 ,
que se sustituirá por !!!! !
~!!!!, con lo que, siguiendo el mismo razonamiento que empleamos para deducir la expresión del intervalo de confianza para la media poblacional cuando conocíamos la desviación típica:
! −!!!!;! ! ≤! − !! !
≤ !!!!;! ! = 1 − !
Despejando la media poblacional obtenemos:
! ! − !!!!;! !!!≤ ! ≤ ! + !!!!;! !
!!
= 1 − !
Que se puede escribir como:
!"! ! = ! ± !!!!;! !!!
Ejemplo 3 Estamos interesados en estudiar el tiempo que tarda en completarse una reacción, para lo cual tomamos una muestra de 10 realizaciones de la misma, obteniendo los siguientes tiempos, en minutos:
2,0 2,9 3,1 3,6 3,5 2,9 3,0 3,1 3,6 3,8
Consideramos que la variable es normal.
Al ser !! = 31,5 y !!! = 101,65, calculamos:
! =31,510
= 3,15
!! =101,6510
− 3,15!109= 0,2694
! = 0,2694 = 0,519
Si trabajamos con una significatividad del 5%, al tener ! = 10 observaciones, necesitamos encontrar el valor de !!;!,!"# que, según podemos encontrar en la tabla, es igual a 2,262, con lo que el intervalo de confianza para la media es: !"!% ! = 3,15 ± 2,262 !,!"#
!"= 3,15 ±
0,37 = 2,78; 3,52 , es decir, tenemos una confianza del
Normal estándar
t1
t3
t5t10
0
5
95% en que el tiempo de reacción medio está entre 2,78 y 3,52 minutos.■
Calculo del tamaño muestral cuando no conocemos σ Por un razonamiento similar al que empleamos para estudiar el tamaño muestral cuando sí conocíamos la desviación típica poblacional, σ, y teniendo en cuanta que cuando no la conocemos la estimamos mediante la desviación típica muestral S, sustituyendo !! ! por !!!!;! !, llegamos a la expresión: ! = !"!!!;! ! ! !
Esta expresión presenta dos problemas. El primero es que para calcular n necesitamos conocer el valor S, que no se conoce hasta que tomamos la muestra cuyo tamaño queremos determinar. La solución a este problema es disponer de una muestra previa para estimar S. El segundo problema se debe a la necesidad de conocer el valor de !!!!;! !, que a su vez depende del valor n. Este problema se puede solucionar si asumimos que n será lo suficientemente grande como para poder aproximar !!!!;! ! con !! !, si al hacer esto obtenemos un valor de n pequeño, podemos emplear este valor para calcular !!!!;! !.
Ejemplo 4 Con la información del Ejemplo 3, estamos interesados en estimar el tiempo medio de reacción con un error máximo de 0,2 minutos y una significación del 5%, es decir, queremos que la probabilidad de que el error de estimación sea menor que 0,2 minutos sea del 95%.
Para emplear la expresión: ! = !"!!!;! ! !! usamos
la desviación típica de la muestra previa de 10 observaciones, ! = 0,519 y asumimos que n será lo suficientemente grande para poder aproximar !!!!;! ! con !! !, con todo, la fórmula queda:
! = 0,519!!,!"# 0,2!= 0,519×1,96 0,2 ! = 25,9
Como n es el tamaño muestral mínimo, siempre redondearemos por exceso, con lo que obtenemos ! = 26. De haber obtenido un valor para n mayor que 100, el problema se habría terminado, pero este resultado contradice la suposición de “n lo suficientemente grande”, por lo que recalculamos n con la expresión ! = !"!!!;! ! !
! empleando ! = 26 en
la parte derecha de la expresión:
! = 0,519!!"; !,!"# 0,2!= 0,519×2,06 0,2 ! = 28,6
Ahora tenemos ! = 29 y, para comprobarlo, volvemos a calcular n, usando el nuevo valor en la parte derecha de la ecuación:
! = 0,519!!"; !,!"# 0,2!= 0,519×2,05 0,2 ! = 28,3
Al volver a obtener ! = 29, detenemos el proceso y decimos que necesitamos una muestra de al menos 29 observaciones para estimar el tiempo medio de reacción de manera que la probabilidad de cometer un error mayor que 0,2 sea del 5%.■
Intervalo de confianza para una proporción En la sección de economía del diario El País del martes 14 de febrero de 2012 se puede leer que 393 de los 3.836 taxis del área metropolitana de Valencia funcionan con motor híbrido. El número de taxis que funcionan con motor híbrido (393) es una cantidad absoluta, y necesitamos referirlo al total de taxis del área metropolitana de Valencia para comprender lo que supone dicha cifra en términos relativos (393 de 3.836). El expresar dicha cifra en términos porcentuales también ayuda a comprender lo que suponen 393 taxis sobre un total de 3.836 y esto se consigue escribiendo:
100× 393 3836 = 10,25%
Que se lee: el 10,25 por ciento de los taxis del área metropolitana de Valencia funcionan con motor híbrido. Si no multiplicamos por 100 obtenemos la proporción:
! = 393 3836 = 0,1025
Hemos usado la letra griega π para denotar la proporción poblacional. Párate a pensar
¿Qué es π, un parámetro o un estadístico? ■
Si desconocemos el valor de π y queremos estimarlo a partir de una muestra formada por n taxis, tomados al azar, del área metropolitana de Valencia, el estimador razonable es la proporción muestral. Para calcular la proporción muestral denotamos X el número de taxis de la muestra que funcionan con motor híbrido. X será una variable aleatoria binomial !~!" !;! , con n el tamaño de la muestra y π la proporción poblacional (que es un parámetro, por ser poblacional). La proporción muestral es ! = ! !. Si !" ≥ 5 y ! 1 − ! ≥ 5 la variable X es aproximadamente normal, con media !" y desviación típica !" 1 − ! . Al ser ! = ! !, se puede comprobar que p es aproximadamente normal, con parámetros:
!~! ! = !;! = ! 1 − ! !
6
Tipificando, podemos escribir: ! − !
! 1 − ! !~! 0; 1
De lo anterior se deduce que una expresión del intervalo de confianza para la proporción poblacional π se puede escribir:
!"! ! = ! ± !! ! ! 1 − ! !
Al desconocer el valor de π, sustituimos la expresión anterior por:
!"! ! = ! ± !! ! ! 1 − ! !
Ejemplo 5 La organización de un gran congreso celebrado en Valencia está interesada en estimar la proporción de los asistentes a la misma que gastan más de 150 € diarios durante su estancia en Valencia. Para ello pregunta a 50 asistentes elegidos al azar, de los que 16 contestan positivamente.
La estimación puntual de la proporción de interés es: ! = 16 50 = 0,32, es decir, estimamos que el 32% de los asistentes al congreso gastan más de 150 € diarios.
Sabemos que de haber tomado una muestra diferente la estimación podría haber resultado diferente, por lo que construiremos un intervalo de confianza con una significación α = 5% (una confianza del 95%) para dicha proporción.
!"!% ! = 0,32 ± !!,!"# 0,32 1 − 0,32 50
Recordamos que !!,!"# es el valor de una variable normal estándar que deja a la derecha una probabilidad del 2,5%, es decir, deja a la izquierda una probabilidad del 97,5%, es decir: !!,!"# = 1,96, de donde:
!"!% ! = 0,32 ± 0,1293 = 0,1907; 0,4493
Es decir, tenemos una confianza del 95% en que la proporción de asistentes que gastan más de 150 € diarios está entre el 19,07% y el 44,93%.■
Tamaño muestral para estimar una proporción La semiamplitud del intervalo de confianza es ahora ! = !! ! ! 1 − ! !, con lo que podemos despejar n, obteniendo:
! =!! !
!
!! 1 − !
De nuevo tenemos el problema de no poder conocer p hasta que tengamos la muestra cuyo tamaño queremos determinar, por lo que, si no disponemos de una muestra preliminar, nos
ponemos en el peor de los casos, que se produce cuando ! = 0,5.
Ejemplo 6 Estamos interesados en estimar la proporción de mujeres que han estado pasivamente expuestas al humo del tabaco durante la gestación, para lo que tomaremos una muestra. Indica el tamaño muestral que debemos tomar, si trabajamos con una significación del 5%, no tenemos ninguna idea previa acerca del valor de la proporción que queremos estudiar, y queremos que el error de estimación sea inferior al 1%.
! =!! !
!
!! 1 − !
Como no tenemos información previa acerca del valor de p nos ponemos en el peor de los casos: ! = 0,5 →! 1 − ! = 0,25.
Según el enunciado es: α = 0,05 y d = 0,01.
Con todo esto: ! =!! !!
!! 1 − ! = !!,!"#
!,!"
!0,25 =
!,!"!,!"
!0,25 = 9604
Necesitamos un tamaño muestral de al menos 9604 individuos.■
Ejemplo 7
En el Ejemplo 6, indica como cambiaría el tamaño muestral que necesitamos, si sabemos, por estudios previos, que la proporción que queremos estimar no superará, en ningún caso, el 30%.
Al saber que p no excederá de 0,30, el peor de los casos que contemplamos es ! = 0,3 → ! 1 − ! = 0,21, por
lo que al calcular n obtenemos: ! =!! !!
!! 1 − ! =
!!,!"#!,!"
!0,21 = !,!"
!,!"
!0,21 = 8067,36 ≈ 8068
Necesitamos un tamaño muestral de al menos 8068 individuos.■