tema 6: introducción a la inferencia estadística parte 12010)p1.pdf · cambios en el tamaño...
TRANSCRIPT
Estadística Aplicada al Periodismo
Tema 6: Introducción a la inferencia estadística
Parte 1
1. Planteamiento y objetivos
2. Estadísticos y distribución muestral
3. Estimadores puntuales
4. Estimadores por intervalos
Lecturas recomendadas:
Capítulos 19 a 21 del libro de Peña y Romo (1997).
INTRODUCCIÓN
En muchos casos se desea obtener información estadística sobre
poblaciones numerosas. Por ejemplo:
• Situación laboral de las personas en edad de trabajar en España
• Precipitación anual en la Comunidad de Madrid
Puede ser imposible (por falta de recursos) obtener la información
relativa a todos los individuos
• Se estudia una muestra representativa de la población:
Subconjunto de la población que permita obtener información
fiable sobre el total de dicha población
Estadística Aplicada al Periodismo
Cómo seleccionar una muestra
• Tamaño reducido
• Ausencia de sesgos
• Facilidad en la definición de la muestra
• Conclusiones obtenidas de la muestra sean
válidas o extrapolables a la población
Estadística Aplicada al Periodismo
Mejor alternativa: Muestras aleatorias simples
• Cada miembro de la población tiene la misma
probabilidad de pertenecer a la muestra
• La selección se realiza de manera independiente:
La selección de un individuo concreto no afecta a la
probabilidad de seleccionar cualquiera de los otros
Estadística Aplicada al Periodismo
7.1 Planteamientos y objetivos
Estadística Descriptiva: la edad media de una muestra de
20 votantes del PP es de 55 con desviación típica 5.
Modelo Probabilístico: La edad de un votante del PP sigue
una distribución normal N( , 2)
Inferencia: Predecimos que = 55. Rechazamos la
posibilidad de que < 50.
Estadística Aplicada al Periodismo
Inferencia
Partiendo de la distribución de la variable
aleatoria en la muestra
Obtener información sobre distribución de la
variable en la población
Valores de interés: Cálculo de estadísticos para la
media, varianza y proporciones
Estadística Aplicada al Periodismo
Ejemplo “de juguete”
Población compuesta por 24 individuos
Variable aleatoria de interés: Tiempo para completar una
consulta médica.
Datos en la Población: 5,1 1,0 0,9 3,8 10,2 2,1 9,5 4,5
1,0 2,2 1,5 4,8 1,6 8,8 4,3 1,0
9,0 5,1 0,2 2,3 0,8 7,8 7,7 1,5
Promedio o media en la población: 4,0
Estadística Aplicada al Periodismo
Se toma una muestra de la población anterior
Muestra seleccionada de tamaño n = 7:
Muestra: 3,8 9,5 4,8 1,6 0,2 0,8 1,5
Estadístico de interés: promedio de la muestra 3,1
Error (sesgo) relativo: (4,0 − 3,1)/4,0 = 0,225
Cambios en el muestreo
• Selecciones alternativas de los elementos de la muestra
• Aumento del tamaño de la muestra
Estadística Aplicada al Periodismo
Cambios en el tamaño muestral
Si a la muestra del ejemplo anterior le añadimos nuevos
elementos, el promedio muestral cambia.
• Se aproxima al valor de la media poblacional
• A medida que aumentamos el tamaño de la muestra
el promedio muestral es más parecido al promedio de la
población.
Estadística Aplicada al Periodismo
Ejemplo de muestreo
Si seleccionamos las primeras 7 observaciones
obtenemos un promedio de la muestra igual a 5,8:
• Muestra: 5,1 1,0 0,9 3,8 18,2 2,1 9,5
• Si consideramos todas las selecciones posibles
de 7 observaciones (346104 posibilidades).
Estadística Aplicada al Periodismo
Cada posible muestra de tamaño 7 generalmente
tiene una media distinta
La media muestral es una variable que depende
de la muestra
El valor promedio (la media) de todas las medias
muestrales es 4, idéntico al valor promedio de la
población
Estadística Aplicada al Periodismo
7.2 Estadísticos y distribución muestral
Distintas muestras tienen distintas
medias. Antes de obtener la muestra,
la media es una variable.
La media y varianza de la media son
Si N es suficientemente grande, la
distribución de la media es normal
Para ver como varia la media de distintas muestras:
http://www.stat.tamu.edu/~west/ph/sampledist.html
Estadística Aplicada al Periodismo
El valor esperado de la media de la muestra es
la media de la población
Estimamos la media de la población a partir de la
media de la muestra
La variabilidad de la media muestral
La varianza de la media muestral nos dice si el error
de estimación puede ser grande o pequeño
El valor de la varianza decrece si n aumenta
Podemos reducir el error aumentando el tamaño de
la muestra
Estadística Aplicada al Periodismo
7.3 Estimadores puntuales
Usamos como estimador de la media
poblacional .
Dada una muestra, es la estimación de .
Buenas propiedades estadísticas: insesgado,
eficiente, etc.
Igualmente S2 es un estimador razonable de 2.
Estadística Aplicada al Periodismo
X
x
7.4 Estimadores por intervalos
Queremos calcular un intervalo donde estemos bastante seguros de que
esté .
Intervalo ancho muy impreciso
Intervalo pequeño más probabilidad de cometer un error.
Método probabilístico:
• Elegir un nivel de confianza, por ejemplo 95% (o 90% o 99%)
• Elegir variables LI(X1,…,XN), LS(X1,…,XN) tales que
P(LI < < LS) = 95%
• Dados los datos de la muestra, el intervalo de 95% de confianza es
(L(x1,…,xN), U(x1,…,xN))
Estadística Aplicada al Periodismo
Interpretación
Si construimos muchos intervalos con el mismo método
y el mismo nivel de confianza de 95%, entonces un
95% de estos intervalos contendrán el parámetro que
queremos estimar.
http://www.ruf.rice.edu/~lane/stat_sim/conf_interval/index.html
Si hemos construido un solo intervalo de 95% de
confianza, no es correcto decir que la probabilidad de
que esté dentro es de 95%.
Estadística Aplicada al Periodismo
Un intervalo de 95% de confianza para la media de
una población normal (varianza conocida)
Dada una muestra, x1,…xN, un intervalo de 95% de confianza para es
¿De dónde viene 1.96?
¿Cómo sería un
intervalo de 90% de
confianza?
Estadística Aplicada al Periodismo
Ejemplos
1. En una muestra de 20 catalanes, su sueldo medio
era de 2000 € mensuales. Suponiendo que la
desviación típica de los sueldos en Cataluña es de
500 €, hallar un intervalo de 95% de confianza para
el sueldo medio en Cataluña.
2. En una muestra de 10 estudiantes universitarios, la
altura media era de 170cm. Suponiendo que la
desviación típica de las alturas de los españoles es
de 5cm, hallar un intervalo de 99% de confianza
para la altura media.
Estadística Aplicada al Periodismo
Un intervalo de 95% de confianza para una proporción
Dada una muestra de tamaño N con proporción muestral , un intervalo de
95% de confianza para p es
Estadística Aplicada al Periodismo
Ejemplos
3. En una muestra aleatoria de 100 votantes, 45 de ellos
votaron al PSOE en las últimas elecciones. Usar esta
información para estimar la proporción de los votantes en
España que votaron al PSOE. Dar una estimación puntual y
un intervalo de confianza de 95%.
4. 20 personas en una muestra de 30 americanos están a
favor de la pena de muerte. Estimar la proporción de la
población americana que esté a favor y dar un intervalo de
90%.
Estadística Aplicada al Periodismo
Otros intervalos de confianza útiles
1. Un intervalo de 95% de confianza para la media de una población
normal (varianza desconocida)
2. Un intervalo de 95% de confianza para la diferencia de las medias de
dos poblaciones normales (varianzas conocidas)
Estadística Aplicada al Periodismo
3. Un intervalo de 95% de confianza para la diferencia de las medias de
dos poblaciones normales (varianzas desconocidas pero iguales)
4. Un intervalo de 95% de confianza para la diferencia de las medias de
dos poblaciones normales (varianzas desconocidas y no iguales)
Estadística Aplicada al Periodismo