1a.- tema i estimación de parámetros

38
Tutoría: Diseños y Análisis de datos Pedro Rodríguez-Miñón TEMA 1: Estimación de parámetros y contraste de hipótesis Saber cómo es la distribución muestral de los estadísticos media, varianza y proporción. Calcular intervalos de confianza de los parámetros poblacionales media, varianza y proporción. Calcular el tamaño de la muestra en función de la precisión de la estimación. Comprender e interpretar la lógica de la metodología del contraste de hipótesis. Reconocer e identificar los errores y riesgos de todo contraste de hipótesis. Objetivos:

Upload: veronica-perez

Post on 08-Dec-2015

227 views

Category:

Documents


0 download

DESCRIPTION

psicología

TRANSCRIPT

Page 1: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

TEMA 1: Estimación de parámetros y contraste de

hipótesis

Saber cómo es la distribución muestral de los estadísticos media, varianza y proporción.

Calcular intervalos de confianza de los parámetros poblacionales media, varianza y proporción.

Calcular el tamaño de la muestra en función de la precisión de la estimación.

Comprender e interpretar la lógica de la metodología del contraste de hipótesis.

Reconocer e identificar los errores y riesgos de todo contraste de hipótesis.

Objetivos:

Page 2: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Conceptos fundamentales

Inferencia estadística Error de estimación Distribución en la muestra

• Estadísticos

Distribución poblacional • Parámetros

Distribución muestral Propiedades de un buen estimador Estimación puntual y estimación por intervalos Nivel de confianza y nivel de significación Procedimiento general del contraste de hipótesis

Page 3: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Conceptos fundamentales

Inferencia estadística: conocer las características de la población a partir del conocimiento de las características de la muestra. Se hacen siempre en términos probabilísticos (no hay certeza, solo probabilidad razonable de acertar), siempre y cuando la muestra sea representativa de la población (m.a.s.)

Error de estimación: la diferencia entre el resultado obtenido en la muestra y el que se habría obtenido si hubiésemos hecho el estudio sobre toda la población.

Page 4: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Conceptos fundamentales Distribución en la muestra: Es la distribución de los datos

recogidos de una variable medida en una muestra . Puede ser una distribución uniforme, normal, asimétrica, etc.

ESTADÍSTICOS son los valores numéricos que describen las características de la muestra (su distribución): = estadístico media de la muestra de la variable Y = estadístico varianza de la muestra en la variable X

= es la correlación entre las variables x e y de la muestra

Y

XYr

2xS

Page 5: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Conceptos fundamentales Distribución poblacional: Distribución de los datos individuales de una población. Puede ser

una distribución uniforme, normal, asimétrica, etc. PARÁMETROS POBLACIONALES son los índices numéricos que

se calculan para describir a la distribución poblacional (media, varianza, mediana, correlación, etc), reciben este nombre y se representan con letras griegas:

= media de la población (puede llevar subíndice) = varianza de la población.

= Correlación de Pearson

µ2σXYρ

Page 6: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Distribución muestral

Distribución muestral de la media: Supongamos que una población está formada únicamente

por cuatro elementos cuyas puntuaciones en una variable Y son Y1=4; Y2=5; Y3=6; Y4= 7 cuya media y varianza son:

=2σ

0

0,2

0,4

0,6

0,8

1

1,2

4 5 6 7

Page 7: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Distribución muestral de la media

Extraemos, con reemplazamiento, todas las posibles muestras de dos elementos (de tamaño n=2). ¿Con cuántas muestras contaremos?. Sabemos por el cálculo combinatorio que en total serán las variaciones con repetición de los cuatro elementos de la población, tomados de dos en dos: VR4,2 = muestras distintas.

yyymuestra muestra muestra muestra y

Page 8: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

f

4 4.5 5 5.5 6 6.5 7

16 88/16 494/16

y )( yf )( yfy ⋅ )(2 yfy ⋅

[ ] =−== 2)()2(2)( yEyEyyV σ

Se comprueba que:

• la media de la dM de la media, coincide con la media poblacional.

• La varianza poblacional y la varianza de la dM:

==nx22 σσ

∑ ⋅== )()( yfyyyE µ

Distribución muestral de la media

Page 9: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

15 12 18

17 14 21

10 22 16

.................

=y

=y

=y

15,3

15 17,3 1ª muestra

2ª muestra

3ª muestra

POBLACIÓN

Distribución muestral de la media

Page 10: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Distribución muestral de la media

Si conocemos la desviación típica poblacional σ, y podemos asumir que la variable en la población se distribuye normalmente, o bien, que, n>30 entonces consideramos que la dM del estadístico media es también normal, cuya media y desviación típica (o error típico de la media) son, respectivamente:

Si se desconoce la varianza de la variable en la población, la

dM de la media es la distribución t de StudenT, siendo la media de esta distribución igual que la media de la población y su desviación típica igual a:

µµ =y nyσσ =

µµ =y nnS

y1−=σ

Page 11: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Distribución muestral

Podemos obtener todas las muestras posibles de un determinado tamaño y procedentes de esa población, calcular para cada una de ellas un estadístico “l”; la distribución de probabilidad de estos valores constituye la distribución muestral del estadístico “l”.

Los “parámetros” de la misma se designarán por letras latinas con su correspondiente subíndice:

= media y varianza de la distribución muestral del estadístico “l”

2, ll σµ

Page 12: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Distribución muestral

La desviación típica de la distribución muestral de un estadístico se la conoce como ERROR TÍPICO de ese estadístico.

Objetivo: El estadístico “l” nos sirve para estimar una característica poblacional L y, por ello, se dice que “l” es un estimador de L, que se simbolizaría como

Ll ˆ=

Page 13: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Inferencia o Estimación

POR PUNTOS POR INTERVALOS

• De la Media poblacional • De la proporción • De la varianza • De la correlación • De la regresión, etc

Page 14: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Estimador y Estimación En la estimación puntual se utiliza el valor del estadístico obtenido

en la muestra como estimación del parámetro poblacional.

El resultado numérico de cada uno de los valores estadísticos que se obtienen en la muestra es lo que se conoce como “estimación”.

Cuando tengamos un estadístico “l” tal que la media de su distribución muestral (µl ) coincida con el parámetro poblacional (µl = µ ) se dirá que “l” es un:

ESTIMADOR INSESGADO

Objetivo: obtener estimadores insesgados además de otras propiedades.

Page 15: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Propiedades de los estimadores

Insesgados: Un estimador “l” de un parámetro poblacional “L” es insesgado, si la media de su dM coicide con el parámetro poblacional

Eficientes o precisos: Cuanto menor es la varianza de la dM del estimador, mayor es la eficiencia

Suficientes: Cuanto mayor información utiliza en la muestra para estimar el parámetro.

Consistentes: Si al aumentar el tamaño de la muestra aumenta la probabilidad de que la estimación coincida con el parámetro.

Page 16: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

En lugar de indicar simplemente un único valor como estimación puntual del parámetro poblacional θ, lo que haremos es ofrecer un intervalo de valores en el que se tiene cierta probabilidad (confianza) de que se encuentre el verdadero valor de θ.

Lsli <<θ maxmaxˆˆ EE +<<− θθθ

Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el parámetro.

Límites de los intervalos de confianza: Son los dos valores extremos del intervalo de confianza.

Estimación por intervalos

Page 17: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

La idea es crear unos intervalos de confianza de manera que sepamos en qué porcentaje de casos el valor del parámetro poblacional estará dentro del intervalo crítico.

Es decir, cuantificar la probabilidad de que el valor real del parámetro θ se encuentre dentro del intervalo.

αθθθ −=+<<− 1)ˆˆ( maxmax EEPGrado o nivel de confianza

Nivel de significación (N. S.)

Amplitud y precisión del IC

Page 18: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Supongamos que la variable en la población sigue una distribución normal, o aproximadamente normal, con cierta media µ. Utilizaremos como estimador puntual para la media poblacional la media muestral:

(1) Si conocemos la varianza poblacional σ2, la dM de la media es normal y:

La media de la distribución muestral de medias coincide con la media poblacional µ y su varianza es:

(2) Pero si se desconoce la varianza poblacional σ2, entonces la distribución

muestral de la media es la distribución t de Student cuya media coincide también con la media poblacional pero su varianza, es:

Veremos dos casos para calcular intervalos de confianza, bajo las condiciones en las que:

• conocemos la varianza poblacional σ2 y • no la conocemos.

Intervalo de confianza para la media

ny22 σσ =µµ =y

Page 19: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Población normal con varianza conocida

ασ

µαα −=

<

−<− − 1

/ 2/12/ zn

yzP

Page 20: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Ejemplo: n = 100 20=y 5=σ

Nivel de Confianza = 0.95 ⇒ α = 0.05

)98.20;02.19(∈µ

Buscamos en las tablas N(0,1) los valores de z que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:

¿Entre qué valores se encontrará la media poblacional con una seguridad del 95%?

Page 21: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Sabemos que la distribución muestral del estadístico “media muestral” no es una distribución normal, sino una distribución t de Student con n -1 grados de libertad.:

Población con varianza desconocida

nyt

/σ̂µ−

=

Page 22: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

n = 81 20=y 51 =−nS

Nivel de Confianza = 0.95 ⇒ α = 0.05

Buscamos en las tablas ……………………..los valores de t que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:

¿Entre qué valores se encontrará la media poblacional con una seguridad del 95%? Ejemplo

Page 23: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Si n es grande (n > 100), la distribución muestral de la media se aproxima a la distribución normal N(0;1). Pero en todo caso el intervalo de confianza es:

ασµσαα −=

+<<− − 1

ˆˆ2/12/ n

tyn

tyP

Varianza poblacional desconocida y n>100

y los valores de t, cuando n>100 hay que buscarlos en la tabla de Z.

Page 24: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Si conocemos la varianza poblacional (situación poco habitual en la práctica), el intervalo de confianza es:

( ) αµ −=+<<− 1maxmax EyEyP

Resumen

nzE σ

α ⋅= − 2/1max

Page 25: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Pero si no conocemos la varianza poblacional (el caso realista), tenemos como intervalo de confianza:

Resumen

que se aproxima a la distribución normal a medida que aumenta el tamaño, n, de la muestra.

( ) αµ −=+<<− 1maxmax EyEyP

ntE σ

αˆ

2/1max ⋅= −

Page 26: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Precisión del IC

La precisión del Intervalo de confianza de la media poblacional, depende del:

Nivel de confianza Tamaño de la muestra Error típico de la distribución muestral

Page 27: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Vamos a comparar dos situaciones variando el NC.

Caso 1. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 95%

Caso 2. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 99%

En tal caso, tendremos más seguridad de que el parámetro de interés se halle en los límites del intervalo. El problema es que incrementar la confianza aumenta la amplitud del intervalo.

Nivel de confianza y precisión del Intervalo

Page 28: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Observemos cómo a medida que el tamaño muestral aumenta, la amplitud del intervalo disminuye. Dejamos el mismo 1- α = 0.95:

Caso 1: Media muestral =10, varianza poblacional = 4, tamaño muestral =12.

Caso 2. Media muestral =10, varianza poblacional = 4, tamaño muestral = 20.

Tamaño de la muestra y precisión del IC

Page 29: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Error típico

La amplitud de un intervalo de confianza depende de varios factores: el nivel de confianza, el tamaño de la muestra, n, y el error típico de la distribución muestral del estadístico. Este último factor está en proporción inversa al tamaño de la muestra: cuanto mayor es el tamaño de la muestra, menor es el error típico. Esta relación es fundamental, pues permite ajustar el intervalo de confianza el grado de precisión que se desee

+=

−=⇒⋅±=±=

nzyl

nzyl

nZyEyIC

s

i

σ

σσ

α

α

2/1

2/1

max

2max

22

max EZn

nZE ⋅=⇒⋅= σσ Ver cuadro 1.1.

Page 30: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Ejemplo

En una ciudad se quiere estimar, mediante un IC con un NC del 95% el peso medio de sus habitantes mayores de 18 años. Por estudios anteriores se sabe que la desviación típica poblacional estimada vale 12kg. ¿Cuál debe ser el tamaño de la muestra necesario para que el error máximo de estimación no supere los 4kg?.

Page 31: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Disponemos de una variable dicotómica o dicotomizada con valores éxito y fracaso. Llamando:

A: al número de elementos de la población que presentan el atributo considerado (total de éxitos) a: total de éxitos en la muestra

: la proporción de éxitos en la población P: la proporción de éxitos en la muestra P = a/n

ai es una variable aleatoria que toma dos valores ai = 1 si es éxito ai = 0 si es fracaso La dM de la proporción, P, es una distribución binomial con parámetros

π

π== PPE )( nP)1(2 ππσ −⋅

=

IC de la proporción poblacional

Page 32: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

En una distribución binomial….

Sabemos que la distribución binomial se aproxima a la normal a medida que aumenta el tamaño de la muestra, n. Esta aproximación es bastante buena a partir de n>25

π== PPE )(

nP)ˆ1(ˆ2 ππσ −⋅

=

La Distribución Muestral de la proporción

Page 33: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

maxEpli −=

maxEpls +=

nppZpli )1(

2/1−⋅

⋅−= −α

IC de la proporción

pZE σα ⋅= − 2/1max

nppZp

)1(2/1

−⋅⋅= −ασ

nppZpls )1(

2/1−⋅

⋅+= −α

Page 34: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

En una muestra distinguimos dos tipos de varianza:

La cuasi-varianza muestral:

La varianza muestral

La VARIANZA es un estimador SESGADO mientras que la CUASIVARIANZA es el estimador INSESGADO de la varianza poblacional

nyy

S in∑ −

=2

2 )(

1)( 2

21 −

−= ∑− n

yyS i

n

Distribución muestral de la varianza

1

22

1 −⋅

=− nSnS n

n

Page 35: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

22/;1

212

22/1;1

21 )1()1(

αα χσ

χ −

−−

− −≤≤

n

n

n

n snsn

Intervalo de confianza:

1)( :varianza-uasi

22

1 −−

= ∑− nyy

S

C

inn

yyS i

n∑ −

=2

2 )( :Varianza

2

2

2

212

1-n)1(

σσχ nn SnSn ⋅

=⋅−

= −

IC de la varianza

Se define una nueva variable aleatoria:

22/;1

22

22/1;1

2

αα χσ

χ −−−

⋅≤≤

n

n

n

n snsn

Page 36: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

n = 31

22025.0;30975.0;30== χχ

41 =−ns 1- α = 0.95

22/;1

212

22/1;1

21 )1()1(

αα χσ

χ −

−−

− −≤≤

n

n

n

n snsn

22/;1

22

22/1;1

2

αα χσ

χ −−−

⋅≤≤

n

n

n

n snsn

Estimar el intervalo de confianza de la varianza poblacional

Ejemplo

Page 37: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

IC de la varianza poblacional con muestras grandes

Ejemplo: Un grupo de 150 alumnos de secundaria seleccionados al azar en una determinada Comunidad realizan un test de comprensión verbal de la lengua de su comunidad autónoma. Las puntuaciones obtenidas se distribuyen normalmente con media 120 y varianza 36. Con una probabilidad de 0’90, ¿entre que valores se encontrará la varianza en comprensión verbal de todos los alumnos de secundaria de esa Comunidad?

Page 38: 1a.- Tema I Estimación de Parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

Media

Varianza poblacional conocida

Varianza poblacional desconocida

Varianza (n>100)

Proporción

Tamaño de la muestra TEMA 1: Cuadro 1.1. Calculo del tamaño de la muestra en función de la precisión de la estimación