1a.- tema i estimación de parámetros
DESCRIPTION
psicologíaTRANSCRIPT
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
TEMA 1: Estimación de parámetros y contraste de
hipótesis
Saber cómo es la distribución muestral de los estadísticos media, varianza y proporción.
Calcular intervalos de confianza de los parámetros poblacionales media, varianza y proporción.
Calcular el tamaño de la muestra en función de la precisión de la estimación.
Comprender e interpretar la lógica de la metodología del contraste de hipótesis.
Reconocer e identificar los errores y riesgos de todo contraste de hipótesis.
Objetivos:
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Conceptos fundamentales
Inferencia estadística Error de estimación Distribución en la muestra
• Estadísticos
Distribución poblacional • Parámetros
Distribución muestral Propiedades de un buen estimador Estimación puntual y estimación por intervalos Nivel de confianza y nivel de significación Procedimiento general del contraste de hipótesis
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Conceptos fundamentales
Inferencia estadística: conocer las características de la población a partir del conocimiento de las características de la muestra. Se hacen siempre en términos probabilísticos (no hay certeza, solo probabilidad razonable de acertar), siempre y cuando la muestra sea representativa de la población (m.a.s.)
Error de estimación: la diferencia entre el resultado obtenido en la muestra y el que se habría obtenido si hubiésemos hecho el estudio sobre toda la población.
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Conceptos fundamentales Distribución en la muestra: Es la distribución de los datos
recogidos de una variable medida en una muestra . Puede ser una distribución uniforme, normal, asimétrica, etc.
ESTADÍSTICOS son los valores numéricos que describen las características de la muestra (su distribución): = estadístico media de la muestra de la variable Y = estadístico varianza de la muestra en la variable X
= es la correlación entre las variables x e y de la muestra
Y
XYr
2xS
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Conceptos fundamentales Distribución poblacional: Distribución de los datos individuales de una población. Puede ser
una distribución uniforme, normal, asimétrica, etc. PARÁMETROS POBLACIONALES son los índices numéricos que
se calculan para describir a la distribución poblacional (media, varianza, mediana, correlación, etc), reciben este nombre y se representan con letras griegas:
= media de la población (puede llevar subíndice) = varianza de la población.
= Correlación de Pearson
µ2σXYρ
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Distribución muestral
Distribución muestral de la media: Supongamos que una población está formada únicamente
por cuatro elementos cuyas puntuaciones en una variable Y son Y1=4; Y2=5; Y3=6; Y4= 7 cuya media y varianza son:
=µ
=2σ
0
0,2
0,4
0,6
0,8
1
1,2
4 5 6 7
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Distribución muestral de la media
Extraemos, con reemplazamiento, todas las posibles muestras de dos elementos (de tamaño n=2). ¿Con cuántas muestras contaremos?. Sabemos por el cálculo combinatorio que en total serán las variaciones con repetición de los cuatro elementos de la población, tomados de dos en dos: VR4,2 = muestras distintas.
yyymuestra muestra muestra muestra y
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
f
4 4.5 5 5.5 6 6.5 7
16 88/16 494/16
y )( yf )( yfy ⋅ )(2 yfy ⋅
[ ] =−== 2)()2(2)( yEyEyyV σ
Se comprueba que:
• la media de la dM de la media, coincide con la media poblacional.
• La varianza poblacional y la varianza de la dM:
==nx22 σσ
∑ ⋅== )()( yfyyyE µ
Distribución muestral de la media
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
15 12 18
17 14 21
10 22 16
.................
=y
=y
=y
15,3
15 17,3 1ª muestra
2ª muestra
3ª muestra
POBLACIÓN
Distribución muestral de la media
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Distribución muestral de la media
Si conocemos la desviación típica poblacional σ, y podemos asumir que la variable en la población se distribuye normalmente, o bien, que, n>30 entonces consideramos que la dM del estadístico media es también normal, cuya media y desviación típica (o error típico de la media) son, respectivamente:
Si se desconoce la varianza de la variable en la población, la
dM de la media es la distribución t de StudenT, siendo la media de esta distribución igual que la media de la población y su desviación típica igual a:
µµ =y nyσσ =
µµ =y nnS
y1−=σ
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Distribución muestral
Podemos obtener todas las muestras posibles de un determinado tamaño y procedentes de esa población, calcular para cada una de ellas un estadístico “l”; la distribución de probabilidad de estos valores constituye la distribución muestral del estadístico “l”.
Los “parámetros” de la misma se designarán por letras latinas con su correspondiente subíndice:
= media y varianza de la distribución muestral del estadístico “l”
2, ll σµ
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Distribución muestral
La desviación típica de la distribución muestral de un estadístico se la conoce como ERROR TÍPICO de ese estadístico.
Objetivo: El estadístico “l” nos sirve para estimar una característica poblacional L y, por ello, se dice que “l” es un estimador de L, que se simbolizaría como
Ll ˆ=
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Inferencia o Estimación
POR PUNTOS POR INTERVALOS
• De la Media poblacional • De la proporción • De la varianza • De la correlación • De la regresión, etc
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Estimador y Estimación En la estimación puntual se utiliza el valor del estadístico obtenido
en la muestra como estimación del parámetro poblacional.
El resultado numérico de cada uno de los valores estadísticos que se obtienen en la muestra es lo que se conoce como “estimación”.
Cuando tengamos un estadístico “l” tal que la media de su distribución muestral (µl ) coincida con el parámetro poblacional (µl = µ ) se dirá que “l” es un:
ESTIMADOR INSESGADO
Objetivo: obtener estimadores insesgados además de otras propiedades.
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Propiedades de los estimadores
Insesgados: Un estimador “l” de un parámetro poblacional “L” es insesgado, si la media de su dM coicide con el parámetro poblacional
Eficientes o precisos: Cuanto menor es la varianza de la dM del estimador, mayor es la eficiencia
Suficientes: Cuanto mayor información utiliza en la muestra para estimar el parámetro.
Consistentes: Si al aumentar el tamaño de la muestra aumenta la probabilidad de que la estimación coincida con el parámetro.
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
En lugar de indicar simplemente un único valor como estimación puntual del parámetro poblacional θ, lo que haremos es ofrecer un intervalo de valores en el que se tiene cierta probabilidad (confianza) de que se encuentre el verdadero valor de θ.
Lsli <<θ maxmaxˆˆ EE +<<− θθθ
Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el parámetro.
Límites de los intervalos de confianza: Son los dos valores extremos del intervalo de confianza.
Estimación por intervalos
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
La idea es crear unos intervalos de confianza de manera que sepamos en qué porcentaje de casos el valor del parámetro poblacional estará dentro del intervalo crítico.
Es decir, cuantificar la probabilidad de que el valor real del parámetro θ se encuentre dentro del intervalo.
αθθθ −=+<<− 1)ˆˆ( maxmax EEPGrado o nivel de confianza
Nivel de significación (N. S.)
Amplitud y precisión del IC
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Supongamos que la variable en la población sigue una distribución normal, o aproximadamente normal, con cierta media µ. Utilizaremos como estimador puntual para la media poblacional la media muestral:
(1) Si conocemos la varianza poblacional σ2, la dM de la media es normal y:
La media de la distribución muestral de medias coincide con la media poblacional µ y su varianza es:
(2) Pero si se desconoce la varianza poblacional σ2, entonces la distribución
muestral de la media es la distribución t de Student cuya media coincide también con la media poblacional pero su varianza, es:
Veremos dos casos para calcular intervalos de confianza, bajo las condiciones en las que:
• conocemos la varianza poblacional σ2 y • no la conocemos.
Intervalo de confianza para la media
ny22 σσ =µµ =y
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Población normal con varianza conocida
ασ
µαα −=
<
−<− − 1
/ 2/12/ zn
yzP
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Ejemplo: n = 100 20=y 5=σ
Nivel de Confianza = 0.95 ⇒ α = 0.05
)98.20;02.19(∈µ
Buscamos en las tablas N(0,1) los valores de z que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:
¿Entre qué valores se encontrará la media poblacional con una seguridad del 95%?
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Sabemos que la distribución muestral del estadístico “media muestral” no es una distribución normal, sino una distribución t de Student con n -1 grados de libertad.:
Población con varianza desconocida
nyt
/σ̂µ−
=
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
n = 81 20=y 51 =−nS
Nivel de Confianza = 0.95 ⇒ α = 0.05
⇒
Buscamos en las tablas ……………………..los valores de t que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:
¿Entre qué valores se encontrará la media poblacional con una seguridad del 95%? Ejemplo
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Si n es grande (n > 100), la distribución muestral de la media se aproxima a la distribución normal N(0;1). Pero en todo caso el intervalo de confianza es:
ασµσαα −=
+<<− − 1
ˆˆ2/12/ n
tyn
tyP
Varianza poblacional desconocida y n>100
y los valores de t, cuando n>100 hay que buscarlos en la tabla de Z.
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Si conocemos la varianza poblacional (situación poco habitual en la práctica), el intervalo de confianza es:
( ) αµ −=+<<− 1maxmax EyEyP
Resumen
nzE σ
α ⋅= − 2/1max
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Pero si no conocemos la varianza poblacional (el caso realista), tenemos como intervalo de confianza:
Resumen
que se aproxima a la distribución normal a medida que aumenta el tamaño, n, de la muestra.
( ) αµ −=+<<− 1maxmax EyEyP
ntE σ
αˆ
2/1max ⋅= −
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Precisión del IC
La precisión del Intervalo de confianza de la media poblacional, depende del:
Nivel de confianza Tamaño de la muestra Error típico de la distribución muestral
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Vamos a comparar dos situaciones variando el NC.
Caso 1. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 95%
Caso 2. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 99%
En tal caso, tendremos más seguridad de que el parámetro de interés se halle en los límites del intervalo. El problema es que incrementar la confianza aumenta la amplitud del intervalo.
Nivel de confianza y precisión del Intervalo
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Observemos cómo a medida que el tamaño muestral aumenta, la amplitud del intervalo disminuye. Dejamos el mismo 1- α = 0.95:
Caso 1: Media muestral =10, varianza poblacional = 4, tamaño muestral =12.
Caso 2. Media muestral =10, varianza poblacional = 4, tamaño muestral = 20.
Tamaño de la muestra y precisión del IC
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Error típico
La amplitud de un intervalo de confianza depende de varios factores: el nivel de confianza, el tamaño de la muestra, n, y el error típico de la distribución muestral del estadístico. Este último factor está en proporción inversa al tamaño de la muestra: cuanto mayor es el tamaño de la muestra, menor es el error típico. Esta relación es fundamental, pues permite ajustar el intervalo de confianza el grado de precisión que se desee
+=
−=⇒⋅±=±=
−
−
nzyl
nzyl
nZyEyIC
s
i
σ
σσ
α
α
2/1
2/1
max
2max
22
max EZn
nZE ⋅=⇒⋅= σσ Ver cuadro 1.1.
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Ejemplo
En una ciudad se quiere estimar, mediante un IC con un NC del 95% el peso medio de sus habitantes mayores de 18 años. Por estudios anteriores se sabe que la desviación típica poblacional estimada vale 12kg. ¿Cuál debe ser el tamaño de la muestra necesario para que el error máximo de estimación no supere los 4kg?.
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Disponemos de una variable dicotómica o dicotomizada con valores éxito y fracaso. Llamando:
A: al número de elementos de la población que presentan el atributo considerado (total de éxitos) a: total de éxitos en la muestra
: la proporción de éxitos en la población P: la proporción de éxitos en la muestra P = a/n
ai es una variable aleatoria que toma dos valores ai = 1 si es éxito ai = 0 si es fracaso La dM de la proporción, P, es una distribución binomial con parámetros
π
π== PPE )( nP)1(2 ππσ −⋅
=
IC de la proporción poblacional
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
En una distribución binomial….
Sabemos que la distribución binomial se aproxima a la normal a medida que aumenta el tamaño de la muestra, n. Esta aproximación es bastante buena a partir de n>25
π== PPE )(
nP)ˆ1(ˆ2 ππσ −⋅
=
La Distribución Muestral de la proporción
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
maxEpli −=
maxEpls +=
nppZpli )1(
2/1−⋅
⋅−= −α
IC de la proporción
pZE σα ⋅= − 2/1max
nppZp
)1(2/1
−⋅⋅= −ασ
nppZpls )1(
2/1−⋅
⋅+= −α
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
En una muestra distinguimos dos tipos de varianza:
La cuasi-varianza muestral:
La varianza muestral
La VARIANZA es un estimador SESGADO mientras que la CUASIVARIANZA es el estimador INSESGADO de la varianza poblacional
nyy
S in∑ −
=2
2 )(
1)( 2
21 −
−= ∑− n
yyS i
n
Distribución muestral de la varianza
1
22
1 −⋅
=− nSnS n
n
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
22/;1
212
22/1;1
21 )1()1(
αα χσ
χ −
−
−−
− −≤≤
−
n
n
n
n snsn
Intervalo de confianza:
1)( :varianza-uasi
22
1 −−
= ∑− nyy
S
C
inn
yyS i
n∑ −
=2
2 )( :Varianza
2
2
2
212
1-n)1(
σσχ nn SnSn ⋅
=⋅−
= −
IC de la varianza
Se define una nueva variable aleatoria:
22/;1
22
22/1;1
2
αα χσ
χ −−−
⋅≤≤
⋅
n
n
n
n snsn
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
n = 31
22025.0;30975.0;30== χχ
41 =−ns 1- α = 0.95
22/;1
212
22/1;1
21 )1()1(
αα χσ
χ −
−
−−
− −≤≤
−
n
n
n
n snsn
22/;1
22
22/1;1
2
αα χσ
χ −−−
⋅≤≤
⋅
n
n
n
n snsn
Estimar el intervalo de confianza de la varianza poblacional
Ejemplo
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
IC de la varianza poblacional con muestras grandes
Ejemplo: Un grupo de 150 alumnos de secundaria seleccionados al azar en una determinada Comunidad realizan un test de comprensión verbal de la lengua de su comunidad autónoma. Las puntuaciones obtenidas se distribuyen normalmente con media 120 y varianza 36. Con una probabilidad de 0’90, ¿entre que valores se encontrará la varianza en comprensión verbal de todos los alumnos de secundaria de esa Comunidad?
Tuto
ría:
Dis
eños
y A
nális
is d
e da
tos
Pedro Rodríguez-Miñón
Media
Varianza poblacional conocida
Varianza poblacional desconocida
Varianza (n>100)
Proporción
Tamaño de la muestra TEMA 1: Cuadro 1.1. Calculo del tamaño de la muestra en función de la precisión de la estimación