estadística 2009 maestría en finanzas universidad del cema · crítico para la distribución...
TRANSCRIPT
Estadística2010
Clase 4
Maestría en FinanzasUniversidad del CEMA
Profesor: Alberto Landro
Asistente: Julián R. Siri
Clase 4
1. Test de Hipótesis
2. Propiedades de los estimadores
• Problema: Nuevamente tenemos una v.a. X con una FDP conocida .
Después de obtener una muestra aleatoria n, obtenemos el estimador puntual, .
Pero este estimador que obtuvimos, ¿es compatible con algún valor específico
de bajo hipótesis?
• Para comprobar la hipótesis nula se utiliza la información muestral para obtener el
estadístico de prueba, un estimador puntual del parámetro desconocido. Entonces
pasamos a averiguar la distribución muestral del estadístico de prueba y utilizar el
método de intervalos de confianza para probar dicha hipótesis nula.
;f x
TEST
de
HIPOTESIS
*
0
*
1
: Hipótesis nula
: Hipótesis alternativa
H
H
Simples Compuestas
1. Test de Hipótesis
• Un test de hipótesis puede ser entendido como un procedimientoestadístico simple cuya finalidad es corroborar o desmentir algunaafirmación que se hace con relación a un parámetro poblacional. En definitiva, es una regla de decisión sobre determinadas características de los parámetros poblacionales de nuestro interés.
Hipótesis nula: Suposición inicial sobre el parámetro poblacional bajo estudio que sirve para iniciar el procedimiento de prueba o verificación.
Hipótesis alternativa: Hipótesis que se establece como alternativade la hipótesis nula; si la H0 es rechazada, entonces será la hipótesis alternativa la que se tomará tentativamente como válida.
1. Test de Hipótesis
1. Test de Hipótesis
• Nivel de significación de una prueba: Se llama así a la probabilidad máxima de cometer un error de tipo I. A dicha probabilidad se la suele denotar con la letra griega α.
• Lo más usual es que al principio uno establezca cuál es el valor de α que desea aplicar en la prueba. A la probabilidad máxima de cometer un error de tipo II se le denota con la letra griega β.
1. Test de Hipótesis
7
Ejemplo 1: Se juzga a un individuo por la presunta comisión de un delito
• H0: Hipótesis nula
– Es inocente
• H1: Hipótesis alternativa
– Es culpable
Los datos pueden refutarla.
La que se acepta si las pruebas no
indican lo contrario.
Rechazarla por error tiene graves
consecuencias.
No debería ser aceptada sin una gran evidencia a favor.
Rechazarla por error tiene
consecuencias consideradas menos
graves que la anterior.
1. Test de Hipótesis: Tipos de error al tomar una decisión
8
Realidad
Inocente Culpable
Veredicto
Inocente OK Error
Menos grave
Culpable Error
Muy grave
OK
1. Test de Hipótesis: Tipos de error al tomar una decisión
9
Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados
Ejemplo 3: Parece que hay una incidencia de enfermedad más alta de lo normal
• H0: Hipótesis nula– (Ej.1) Es inocente
– (Ej.2) El nuevo tratamiento no tiene efecto
– (Ej.3) No hay nada que destacar
• H1: Hipótesis alternativa– (Ej.1) Es culpable
– (Ej.2) El nuevo tratamiento es útil
– (Ej. 3) Hay una situación anormal
No especulativa
Especulativa
1. Test de Hipótesis: Tipos de error al tomar una decisión
Terminología: el intervalo de confianza que se construye se denomina la región de
aceptación y el o las áreas por fuera de ella se conocen como regiones críticas,
o de rechazo. Por último, los límites inferior y superior de la región de
aceptación se denominan valores críticos.
Deseable: minimizar los errores tipo I y tipo II. Pero, para cualquier tamaño de
muestra dado, no es posible minimizar ambos simultáneamente. Es preferible
tener baja probabilidad de cometer un error de tipo I y luego tratar de minimizar
al máximo la probabilidad de incurrir en un error de tipo II.
ERRORES TIPO I y TIPO II
Decisión H0 es verdadera H0 es falsa
Rechazar Error tipo I No hay error
No rechazar No hay error Error tipo II
Estado de la naturaleza
1. Test de Hipótesis
• Un test de hipótesis se llama bilateral (o de dos colas) cuando lahipótesis alternativa involucra el signo “≠” para el parámetro que se somete a prueba.
1. Test de Hipótesis
- z/2+ z/2
1 -
Región de aceptación
• Un test de hipótesis se llama unilateral (o de una cola) cuando lahipótesis alternativa involucra el signo “<” (test unilateral izquierdo) o bien el signo “>” (test unilateral derecho).
1. Test de Hipótesis
Unilateral izquierdoUnilateral derecho
H1: m < 40 H1: m > 40
Dado que tenemos a , podemos inferir que el estadístico de prueba
está distribuido como
Entonces, si conocemos la distribución de probabilidades de , ¿cómo establecemos
si un intervalo de confianza de para , basado en este último,
contiene al planteo de nuestra hipótesis nula? Veamos los pasos a seguir:
1. Puesto que , se cumple que:
2. Entonces, de la tabal de distribución normal se sabe que:
2,X N nm
X
2,iX N m
100 1 m
0,1i
XZ N
n
m
2,X N nm
2 2 100 1 %iP Z Z Z
1. Test de Hipótesis: Método del intervalo de confianza
3. Reordenando y sustituyendo términos da:
Éste es un intervalo de confianza al para . Lo único que se debe
hacer es ver si se encuentra en este intervalo. Si se encuentra no
podemos rechazar la hipótesis nula, en caso contrario sí.
2 2Pr 100 1 %X Z X Zn n
m
m*m m
100 1
1. Test de Hipótesis: Método del intervalo de confianza
Terminología:
• Nivel de significancia : probabilidad de cometer un error de tipo I.
• Potencia de la prueba: dado que la probabilidad de un error tipo II está
representada por , la probabilidad de no cometerlo se denomina de esta
última forma (entiéndase como la capacidad de rechazar una hipótesis nula
falsa).
P-value de un estadístico de prueba:
• También conocido como nivel exacto de significancia, es el nivel más bajo de
significancia al cual puede rechazarse una hipótesis nula.
1. Test de Hipótesis: Método del intervalo de confianza
• Inversamente, dado que en cualquier aplicación dada, conocemos tanto a y
n, pero los verdaderos valores de y no se conocen. Si es especificado,
y asumimos un valor determinado de mediante la hipótesis nula, podemos
calcular un estadístico Z,
Y consultar en la tabla de la distribución qué probabilidad asociada tiene. La idea
clave es el estadístico de prueba y su distribución de probabilidad bajo el valor
supuesto . La prueba se conoce como prueba Z.
Cuando se dice que un estadístico de prueba es significativo, quiere decirse que se
puede rechazar la hipótesis nula.
Xm
m
*
0,1i
XZ N
n
m
*m m
1. Test de Hipótesis: Método de la prueba de significancia
• A fin de realizar un test de hipótesis sobre un parámetro poblacional, es recomendable seguir los siguientes 5 pasos:
P1. Emitir una hipótesis nula (H0) relativa a algún parámetro de la población. La hipótesis debe involucrar alguno de los signos “=”, “≥” o “≤”, pero no puede involucrar ninguno de los signos “<”, “>”, ni tampoco “≠”.
P2. Especificar un nivel de significación α a emplear. Lo convencional es emplear los niveles del 5% ( α = 0,05) o del 1% ( α = 0,01).
P3. Extraer de la población una muestra aleatoria de tamaño n, ycalcular el estadístico de prueba apropiado (z, t, etc.).
P4. Comparar el valor numérico obtenido para el estadístico de prueba con un valor tabulado (valor crítico - z*, t*, etc. -) de la distribución estadística teórica correspondiente.
P5. Decidir si se rechaza o no la hipótesis nula.
1. Test de Hipótesis
• Veamos dos casos de tests para la media poblacional
1- Los paquetes de harina marca XYZ de medio kilogramo afirmancontener en su etiqueta un contenido neto de 500 gr. Supongamosque deseamos evaluar dicha afirmación a partir de nuestra creenciade que los paquetes contienen menor cantidad de harina. Para ello, se eligen al azar 50 paquetes y se los pesa con una balanza deprecisión, obteniendo los siguientes datos muestrales:
Planteamos entonces la hipótesis nula y alternativa:
Para la realización del test, usaremos un nivel de significación delα = 0,05.
492 .
34,4 .
X gr
S gr
1. Test de Hipótesis
0
1
: 500 .
: 500 .
H gr
H gr
m
m
Aunque desconocemos cómo se distribuye el peso de los paquetes,por tratarse de una muestra grande (n > 30) usaremos la distribución normal estándar a fin de hallar nuestro valor crítico. Para un nivel de significación de 0,05 la tabla correspondiente arroja un valor de z* = -1,645.
1. Test de Hipótesis
El estadístico que utilizaremos es:
Reemplazando en el mismo por los datos del ejercicio se obtiene
que:
Dado que -1,645 < -1,6444, el valor calculado del estadístico de
prueba no alcanza a caer en zona de rechazo. Por lo tanto, al nivel
de significación del 5% no se puede rechazar la hipótesis nula.
Es decir, no existen argumentos para afirmar que los paquetes
de harina XYZ contienen (en promedio) menos que lo
anunciado en sus etiquetas.
x
n
m
1. Test de Hipótesis
492 5001,644
34,4 7,07z
• Supongamos que ahora deseamos realizar un test de hipótesis relativo a la varianza o la desviación estándar poblacionales. Para ello, deberemos usar el estadístico de prueba llamado chi−cuadrado muestral, definido como sigue:
• En un test unilateral a la derecha (o de cola derecha), la hipótesis nula será:
y la hipótesis alternativa será:
• Para un nivel de significación α, la región de rechazo se busca en
tablas de la distribución chi−cuadrada con ν = n −1 grados de
libertad.
1. Test de Hipótesis
2
2
2
1n S
2 2
0 0:H
2 2
1 0:H
• En cambio, en un test unilateral a la izquierda (o de cola izquierda), la hipótesis nula es:
o bien ,
y la hipótesis alternativa es:
Por último, para un test bilateral (o de dos colas), se tiene:
y la hipótesis alternativa es:
1. Test de Hipótesis
2 2
1 0:H
2 2
0 0:H 2 2
0 0:H
2 2
1 0:H
2 2
0 0:H
• Veamos un ejemplo. Supongamos que estamos analizando el tiempo (en minutos) de espera de los clientes en la ventanilla de un banco.
Antes de un curso de capacitación para los empleados de atención al público se sabía que la desviación estándar era 2,3 minutos. Luego del curso de capacitación, el tiempo de espera de 10 clientes tomados al azar fue de: 1,8; 5,2; 4,3; 6,6; 2,5; 3,4; 2,6; 5,6; 4,7 y 4,0.
Por lo tanto:
con α = 0,05. ¿Sirvió el curso de capacitación para disminuir lavarianza de los tiempos de espera?
1. Test de Hipótesis
22
0
22
1
: 2,3
: 2,3
H
H
De los datos muestrales, hallamos que S = 1,5166 minutos. A primera vista podríamos sospechar que el curso sí sirvió, pero veamos: el valor crítico para la distribución chi−cuadrado con 9 grados de libertad es de 3,32.
Si reemplazamos en el estadístico de prueba por los datos delejercicio, obtendremos que:
Por lo tanto, no existe suficiente evidencia estadística en contra de la hipótesis H0, así que se concluye que probablemente el curso de capacitación no sirvió para disminuir la varianza de manera perceptible (o significativa).
1. Test de Hipótesis
2
2
9 1,51663,913 3,32
2,3
• Insesgamiento
– Un estimador es insesgado si el valor esperado del mismo es igual al parámetro a
estimar, es decir,
• Mínima Varianza
– Se dice que un estimador es de mínima varianza del parámetro, si la varianza del
mismo es menor igual que la del resto de los estimadores.
• Linealidad
– Un estimador es lineal con respecto al parámetro, si es una función lineal de las
observaciones muestrales. Así, por ejemplo la media muestral definida como
es un estimador lineal de X.
0E E
1
1 1...i nX X x x
n n
2. Propiedades de los estimadores: muestras pequeñas
• Mejor estimador lineal insesgado
– Si es lineal, es insesgado y tiene mínima varianza entre todos los estimadores
lineales e insesgados de , entonces se denomina MELI.
• Error Medio Cuadrático (EMC)
– Definimos al EMC de un estimador como
Haciendo contraste con la varianza de , la cual está definida como
Esta última mide la dispersión de la distribución de alrededor de su media,
mientras que EMC mide la dispersión alrededor del verdadero valor del
parámetro. El criterio es buscar un estimador cuyo EMC sea el menor en un conjunto
de estimadores comparables.
2
( )EMC E
2
var( ) E E
( )
2. Propiedades de los estimadores: muestras pequeñas
• Insesgamiento asintótico
– Un estimador es asintóticamente insesgado si
• Consistencia
– Se dice que es un estimador consistente si se aproxima al verdadero valor de a medida que el tamaño de la muestra aumenta.
• Eficiencia asintótica
– Si es consistente y su varianza asintótica es menor que la varianza asintótica de todos los demás estimadores consistentes de , entonces es llamado asintóticamente eficiente.
• Normalidad asintótica
– Se dice que un estimador está normalmente distribuido asintóticamente si su distribución muestral tiende a aproximarse a la distribución normal a medida que el tamaño de la muestra aumenta de manera indefinida
lim 1 >0n
P
lim nn
E
plimn
2. Propiedades de los estimadores: muestras grandes