1a.- tema i estimación de parámetros

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos

Pedro Rodríguez-Miñón

TEMA 1: Estimación de parámetros y contraste de

hipótesis

Saber cómo es la distribución muestral de los estadísticos media, varianza y proporción.

Calcular intervalos de confianza de los parámetros poblacionales media, varianza y proporción.

Calcular el tamaño de la muestra en función de la precisión de la estimación.

Comprender e interpretar la lógica de la metodología del contraste de hipótesis.

Reconocer e identificar los errores y riesgos de todo contraste de hipótesis.

Objetivos:

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Conceptos fundamentales

Inferencia estadística Error de estimación Distribución en la muestra

• Estadísticos

Distribución poblacional • Parámetros

Distribución muestral Propiedades de un buen estimador Estimación puntual y estimación por intervalos Nivel de confianza y nivel de significación Procedimiento general del contraste de hipótesis

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Conceptos fundamentales

Inferencia estadística: conocer las características de la población a partir del conocimiento de las características de la muestra. Se hacen siempre en términos probabilísticos (no hay certeza, solo probabilidad razonable de acertar), siempre y cuando la muestra sea representativa de la población (m.a.s.)

Error de estimación: la diferencia entre el resultado obtenido en la muestra y el que se habría obtenido si hubiésemos hecho el estudio sobre toda la población.

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Conceptos fundamentales Distribución en la muestra: Es la distribución de los datos

recogidos de una variable medida en una muestra . Puede ser una distribución uniforme, normal, asimétrica, etc.

ESTADÍSTICOS son los valores numéricos que describen las características de la muestra (su distribución): = estadístico media de la muestra de la variable Y = estadístico varianza de la muestra en la variable X

= es la correlación entre las variables x e y de la muestra

Y

XYr

2xS

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Conceptos fundamentales Distribución poblacional: Distribución de los datos individuales de una población. Puede ser

una distribución uniforme, normal, asimétrica, etc. PARÁMETROS POBLACIONALES son los índices numéricos que

se calculan para describir a la distribución poblacional (media, varianza, mediana, correlación, etc), reciben este nombre y se representan con letras griegas:

= media de la población (puede llevar subíndice) = varianza de la población.

= Correlación de Pearson

µ2σXYρ

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Distribución muestral

Distribución muestral de la media: Supongamos que una población está formada únicamente

por cuatro elementos cuyas puntuaciones en una variable Y son Y1=4; Y2=5; Y3=6; Y4= 7 cuya media y varianza son:

=µ

=2σ

0

0,2

0,4

0,6

0,8

1

1,2

4 5 6 7

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Distribución muestral de la media

Extraemos, con reemplazamiento, todas las posibles muestras de dos elementos (de tamaño n=2). ¿Con cuántas muestras contaremos?. Sabemos por el cálculo combinatorio que en total serán las variaciones con repetición de los cuatro elementos de la población, tomados de dos en dos: VR4,2 = muestras distintas.

yyymuestra muestra muestra muestra y

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


f

4 4.5 5 5.5 6 6.5 7

16 88/16 494/16

y )( yf )( yfy ⋅ )(2 yfy ⋅

[ ] =−== 2)()2(2)( yEyEyyV σ

Se comprueba que:

• la media de la dM de la media, coincide con la media poblacional.

• La varianza poblacional y la varianza de la dM:

==nx22 σσ

∑ ⋅== )()( yfyyyE µ


Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


15 12 18

17 14 21

10 22 16

.................

=y

=y

=y

15,3

15 17,3 1ª muestra

2ª muestra

3ª muestra

POBLACIÓN


Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos



Si conocemos la desviación típica poblacional σ, y podemos asumir que la variable en la población se distribuye normalmente, o bien, que, n>30 entonces consideramos que la dM del estadístico media es también normal, cuya media y desviación típica (o error típico de la media) son, respectivamente:

Si se desconoce la varianza de la variable en la población, la

dM de la media es la distribución t de StudenT, siendo la media de esta distribución igual que la media de la población y su desviación típica igual a:

µµ =y nyσσ =

µµ =y nnS

y1−=σ

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos



Podemos obtener todas las muestras posibles de un determinado tamaño y procedentes de esa población, calcular para cada una de ellas un estadístico “l”; la distribución de probabilidad de estos valores constituye la distribución muestral del estadístico “l”.

Los “parámetros” de la misma se designarán por letras latinas con su correspondiente subíndice:

= media y varianza de la distribución muestral del estadístico “l”

2, ll σµ

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos



La desviación típica de la distribución muestral de un estadístico se la conoce como ERROR TÍPICO de ese estadístico.

Objetivo: El estadístico “l” nos sirve para estimar una característica poblacional L y, por ello, se dice que “l” es un estimador de L, que se simbolizaría como

Ll ˆ=

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Inferencia o Estimación

POR PUNTOS POR INTERVALOS

• De la Media poblacional • De la proporción • De la varianza • De la correlación • De la regresión, etc

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Estimador y Estimación En la estimación puntual se utiliza el valor del estadístico obtenido

en la muestra como estimación del parámetro poblacional.

El resultado numérico de cada uno de los valores estadísticos que se obtienen en la muestra es lo que se conoce como “estimación”.

Cuando tengamos un estadístico “l” tal que la media de su distribución muestral (µl ) coincida con el parámetro poblacional (µl = µ ) se dirá que “l” es un:

ESTIMADOR INSESGADO

Objetivo: obtener estimadores insesgados además de otras propiedades.

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Propiedades de los estimadores

Insesgados: Un estimador “l” de un parámetro poblacional “L” es insesgado, si la media de su dM coicide con el parámetro poblacional

Eficientes o precisos: Cuanto menor es la varianza de la dM del estimador, mayor es la eficiencia

Suficientes: Cuanto mayor información utiliza en la muestra para estimar el parámetro.

Consistentes: Si al aumentar el tamaño de la muestra aumenta la probabilidad de que la estimación coincida con el parámetro.

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


En lugar de indicar simplemente un único valor como estimación puntual del parámetro poblacional θ, lo que haremos es ofrecer un intervalo de valores en el que se tiene cierta probabilidad (confianza) de que se encuentre el verdadero valor de θ.

Lsli <<θ maxmaxˆˆ EE +<<− θθθ

Intervalo de confianza: Es el intervalo de las estimaciones (probables) sobre el parámetro.

Límites de los intervalos de confianza: Son los dos valores extremos del intervalo de confianza.

Estimación por intervalos

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


La idea es crear unos intervalos de confianza de manera que sepamos en qué porcentaje de casos el valor del parámetro poblacional estará dentro del intervalo crítico.

Es decir, cuantificar la probabilidad de que el valor real del parámetro θ se encuentre dentro del intervalo.

αθθθ −=+<<− 1)ˆˆ( maxmax EEPGrado o nivel de confianza

Nivel de significación (N. S.)

Amplitud y precisión del IC

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Supongamos que la variable en la población sigue una distribución normal, o aproximadamente normal, con cierta media µ. Utilizaremos como estimador puntual para la media poblacional la media muestral:

(1) Si conocemos la varianza poblacional σ2, la dM de la media es normal y:

La media de la distribución muestral de medias coincide con la media poblacional µ y su varianza es:

(2) Pero si se desconoce la varianza poblacional σ2, entonces la distribución

muestral de la media es la distribución t de Student cuya media coincide también con la media poblacional pero su varianza, es:

Veremos dos casos para calcular intervalos de confianza, bajo las condiciones en las que:

• conocemos la varianza poblacional σ2 y • no la conocemos.

Intervalo de confianza para la media

ny22 σσ =µµ =y

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Población normal con varianza conocida

ασ

µαα −=

<

−<− − 1

/ 2/12/ zn

yzP

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Ejemplo: n = 100 20=y 5=σ

Nivel de Confianza = 0.95 ⇒ α = 0.05

)98.20;02.19(∈µ

Buscamos en las tablas N(0,1) los valores de z que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:

¿Entre qué valores se encontrará la media poblacional con una seguridad del 95%?

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Sabemos que la distribución muestral del estadístico “media muestral” no es una distribución normal, sino una distribución t de Student con n -1 grados de libertad.:

Población con varianza desconocida

nyt

/σ̂µ−

=

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


n = 81 20=y 51 =−nS

Nivel de Confianza = 0.95 ⇒ α = 0.05

⇒

Buscamos en las tablas ……………………..los valores de t que dejan 0.05 / 2 = 0.025 de probabilidad por abajo y 0.05 / 2 = 0.025 de probabilidad por arriba:

¿Entre qué valores se encontrará la media poblacional con una seguridad del 95%? Ejemplo

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Si n es grande (n > 100), la distribución muestral de la media se aproxima a la distribución normal N(0;1). Pero en todo caso el intervalo de confianza es:

ασµσαα −=

+<<− − 1

ˆˆ2/12/ n

tyn

tyP

Varianza poblacional desconocida y n>100

y los valores de t, cuando n>100 hay que buscarlos en la tabla de Z.

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Si conocemos la varianza poblacional (situación poco habitual en la práctica), el intervalo de confianza es:

( ) αµ −=+<<− 1maxmax EyEyP

Resumen

nzE σ

α ⋅= − 2/1max

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Pero si no conocemos la varianza poblacional (el caso realista), tenemos como intervalo de confianza:

Resumen

que se aproxima a la distribución normal a medida que aumenta el tamaño, n, de la muestra.

( ) αµ −=+<<− 1maxmax EyEyP

ntE σ

αˆ

2/1max ⋅= −

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Precisión del IC

La precisión del Intervalo de confianza de la media poblacional, depende del:

Nivel de confianza Tamaño de la muestra Error típico de la distribución muestral

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Vamos a comparar dos situaciones variando el NC.

Caso 1. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 95%

Caso 2. Media muestral = 10, varianza poblacional = 4, tamaño muestral = 12. Intervalo al 99%

En tal caso, tendremos más seguridad de que el parámetro de interés se halle en los límites del intervalo. El problema es que incrementar la confianza aumenta la amplitud del intervalo.

Nivel de confianza y precisión del Intervalo

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Observemos cómo a medida que el tamaño muestral aumenta, la amplitud del intervalo disminuye. Dejamos el mismo 1- α = 0.95:

Caso 1: Media muestral =10, varianza poblacional = 4, tamaño muestral =12.

Caso 2. Media muestral =10, varianza poblacional = 4, tamaño muestral = 20.

Tamaño de la muestra y precisión del IC

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Error típico

La amplitud de un intervalo de confianza depende de varios factores: el nivel de confianza, el tamaño de la muestra, n, y el error típico de la distribución muestral del estadístico. Este último factor está en proporción inversa al tamaño de la muestra: cuanto mayor es el tamaño de la muestra, menor es el error típico. Esta relación es fundamental, pues permite ajustar el intervalo de confianza el grado de precisión que se desee

+=

−=⇒⋅±=±=

−

−

nzyl

nzyl

nZyEyIC

s

i

σ

σσ

α

α

2/1

2/1

max

2max

22

max EZn

nZE ⋅=⇒⋅= σσ Ver cuadro 1.1.

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Ejemplo

En una ciudad se quiere estimar, mediante un IC con un NC del 95% el peso medio de sus habitantes mayores de 18 años. Por estudios anteriores se sabe que la desviación típica poblacional estimada vale 12kg. ¿Cuál debe ser el tamaño de la muestra necesario para que el error máximo de estimación no supere los 4kg?.

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Disponemos de una variable dicotómica o dicotomizada con valores éxito y fracaso. Llamando:

A: al número de elementos de la población que presentan el atributo considerado (total de éxitos) a: total de éxitos en la muestra

: la proporción de éxitos en la población P: la proporción de éxitos en la muestra P = a/n

ai es una variable aleatoria que toma dos valores ai = 1 si es éxito ai = 0 si es fracaso La dM de la proporción, P, es una distribución binomial con parámetros

π

π== PPE )( nP)1(2 ππσ −⋅

=

IC de la proporción poblacional

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


En una distribución binomial….

Sabemos que la distribución binomial se aproxima a la normal a medida que aumenta el tamaño de la muestra, n. Esta aproximación es bastante buena a partir de n>25

π== PPE )(

nP)ˆ1(ˆ2 ππσ −⋅

=

La Distribución Muestral de la proporción

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


maxEpli −=

maxEpls +=

nppZpli )1(

2/1−⋅

⋅−= −α

IC de la proporción

pZE σα ⋅= − 2/1max

nppZp

)1(2/1

−⋅⋅= −ασ

nppZpls )1(

2/1−⋅

⋅+= −α

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


En una muestra distinguimos dos tipos de varianza:

La cuasi-varianza muestral:

La varianza muestral

La VARIANZA es un estimador SESGADO mientras que la CUASIVARIANZA es el estimador INSESGADO de la varianza poblacional

nyy

S in∑ −

=2

2 )(

1)( 2

21 −

−= ∑− n

yyS i

n

Distribución muestral de la varianza

1

22

1 −⋅

=− nSnS n

n

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


22/;1

212

22/1;1

21 )1()1(

αα χσ

χ −

−

−−

− −≤≤

−

n

n

n

n snsn

Intervalo de confianza:

1)( :varianza-uasi

22

1 −−

= ∑− nyy

S

C

inn

yyS i

n∑ −

=2

2 )( :Varianza

2

2

2

212

1-n)1(

σσχ nn SnSn ⋅

=⋅−

= −

IC de la varianza

Se define una nueva variable aleatoria:

22/;1

22

22/1;1

2

αα χσ

χ −−−

⋅≤≤

⋅

n

n

n

n snsn

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


n = 31

22025.0;30975.0;30== χχ

41 =−ns 1- α = 0.95

22/;1

212

22/1;1

21 )1()1(

αα χσ

χ −

−

−−

− −≤≤

−

n

n

n

n snsn

22/;1

22

22/1;1

2

αα χσ

χ −−−

⋅≤≤

⋅

n

n

n

n snsn

Estimar el intervalo de confianza de la varianza poblacional

Ejemplo

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


IC de la varianza poblacional con muestras grandes

Ejemplo: Un grupo de 150 alumnos de secundaria seleccionados al azar en una determinada Comunidad realizan un test de comprensión verbal de la lengua de su comunidad autónoma. Las puntuaciones obtenidas se distribuyen normalmente con media 120 y varianza 36. Con una probabilidad de 0’90, ¿entre que valores se encontrará la varianza en comprensión verbal de todos los alumnos de secundaria de esa Comunidad?

Tuto

ría:

Dis

eños

y A

nális

is d

e da

tos


Media

Varianza poblacional conocida

Varianza poblacional desconocida

Varianza (n>100)

Proporción

Tamaño de la muestra TEMA 1: Cuadro 1.1. Calculo del tamaño de la muestra en función de la precisión de la estimación

1a.- tema i estimación de parámetros

Documents