sesiones d3/m1 test de hipotesis -...
TRANSCRIPT
ESTADISTICA AVANZADA
MODULO I
Sesiones D3/m1 • Test de Hipotesis
• Intervalos de Confianza
M1 Estudio de Causas
Ishikawa
AMFE
M2 Test de Hipótesis
T-Test
Intervalos de
Confianza
T1 Ejercicio Grupal.
T2 Regresión Simple.
Residuos
Hacer un test de hipótesis es tomar una desición
Rechazar H0 o no Rechazar H0
Los dos errores del Analista de Datos
Error de Tipo I
• Rechazar una hipótesis nula que es cierta.
• Representado por a – Es el nivel de Significancia del Test
a
m0
Rechazo H0
Error de Tipo II
• No rechazar una hipótesis nula falsa
• Representado por b
a
b
Tipo I – Rechazar H0 cierta
Tipo II– No rechazar H0
falsa
El valor obtenido corresponde a la
hipótesis alternativa, pero no rechazamos H0
El dato hallado viene de la población definida en
H0, pero lo rechazamos.
Errores Tipo I y II.
H0 Cierta
H0
Falsa
Rechazo
No
Rechazo
Error Tipo I
Ok !
Ok ! Error Tipo II
Si H0 es cierta y no la rechazamos,
¿qué desición tomamos?
Si H0 es falsa y la rechazamos, ¿qué desición tomamos?
Si H0 es cierta y la rechazamos, ¿qué desición tomamos?
Si H0 es falsa y no la rechazamos,
¿qué desición tomamos?
a
b
Analicemos un Juicio por Homicidio
Cuáles son las hipótesis?
Error Tipo I –
Consecuencia:
Error Tipo II–
Consecuencia :
Decidir que el acusado es culpable cuando es inocente
Un inocente va a prisión.
Decidir que el acusado es inocente cuando es culpable
Un culpable queda libre.
H0: el acusado es inocente
Ha: el acusado es culpable
¿Cuál de ambos errores considera la sociedad más grave?
Tipo I - por eso debe haber evidencia más allá de cualquier duda! No queremos mandar un
inocente a la carcel ! ¿Cuáles son… H0: Ha:?
¿Cuál es el error de Tipo
I?
¿Cuál es el error de tipo II?
¿Cuál es la consecuencia de cometer un error de Tipo I?
¿Cuál es la consecuencia de cometer un error de Tipo II?
Si el factor es ruido y lo
consideramos importante, ¿qué desición tomamos?
Si el factor es una señal pero lo consideramos
ruido, ¿qué desición
tomamos?
Si el factor es sólo ruido y lo descartamos, ¿qué desición tomamos?
Si el factor es señal y lo
consideramos significativo, ¿qué desición tomamos?
Errores Tipo I y II en DOE.
El Factor No Afecta
Factor Importante
Decido que Influye
Lo Descarto
Falsa Alarma
Ok !
Ok ! Señal Perdida
a
b
Comparación de Procesos
1
2
1
2
Estadísticamente significativo ≠ importante del punto de vista práctico
LSE LIE
Diferencia
Estadísticamente
Significativa
Diferencia
Estadísticamente
NO Significativa
Debes detectar una diferencia antes de poder
estimar legítimamente esa diferencia, y solo
entonces puedes establecer la importancia práctica
de esa diferencia.
D.Wheeler (Axioma 8 del análisis de datos)
Detectar diferencia entre medias
1 2 = ¿ ?
METODO I: Graficos de Comportamiento del Proceso
1
2
Si una de las condiciones genera señales de causa especial
usando los límites de la otra, la diferencia entre condiciones
es detectable.
METODO 2: TEST DE HIPÓTESIS
• Determinar
– Desvío estandar aproximado del proceso
– Magnitud de diferencia a detectar
– Riesgo alfa
– Riesgo beta
• Calcular el tamaño muestral
• Recolectar muestras en forma
aleatoria
• Chequear la hipótesis μ2- μ1=0
Determinación Riesgos
• Desvío estándar
– Se puede usar el rango de variación natural dividido seis.
– O revisar la historia reciente con SPAC y tomar el desvio estandar del
histograma.
• Delta: ¿Cuánto es una diferencia entre los promedios de las
máquinas de importancia en la realidad?
– No vale la pena planificar un test para detectar una diferencia
muy pequeña, porque no justifica realizar ningún cambio.
• Alfa: ¿Qué tan grave es decidir que las máquinas son diferentes
aunque en realidad son iguales?
– Si al tomar esta decisión se cambiará una de las máquinas y se
incurrirá en un alto costo, quizas debamos considerar un alfa
bajo.
• Beta: ¿Qué tan grave es no hacer nada aunque las máquinas
difieren en más de Delta?
– Si es muy importante detectar la existencia de la diferencia, se
debe bajar el riesgo Beta.
Cálculo con SPAC FL
Toma de Datos
1° Click en esta
columna
2° Control-Click en
esta columna
En el test de Normalidad,
un p-Value alto nos
confirma consistencia de
los datos con la
distribución Normal
En el test de Varianzas,
un p-Value alto nos indica
que las variabilidades de
ambas máquinas son
similares.
Un p-Value inferior a
0.05 sugiere rechazar
la hipótesis de
igualdad entre las
máquinas
Distribución teórica si las máquinas fueran
iguales. Corresponde a la distribución t de Student centrada en cero (porque se
analiza la diferencia entre ambas máquinas) y con n1+n2-2 grados de
libertad
Datos hallados no son consistentes
con esta hipótesis nula. El area roja de las colas indican el area de rechazo de
la hipótesis (usando un alfa del 5%)
Haciendo Click en el botón
de Intervalo de Confianza
Intervalo de Confianza 95% para la diferencia
entre ambas máquinas. Representa un intervalo que, si realizamos el experimento muchas veces,
contendría el verdadero valor de la diferencia entre máquinas.
El Intervalo obtenido no incluye el
valor cero. Es decir que el resultado NO ES CONSISTENTE con que
las máquinas sean iguales (diferencia cero).
Población
Conjunto de datos de interés a los que se referirán los resultados de
la investigación.
Muestra
Subjconjunto de unidades seleccionadas de la población sobre
la cual recaen las observaciones.
Muestra Probabilística
Cada elemento de la población tiene una probabilidad conocida de ser
seleccionado.
Población y Muestra
Parámetro (característica constante de la
población)
Estadístico (variable obtenida de un fórmula basada en datos
muestrales)
?m ? S
Población (toda la
producción por mes)
Muestra
(representativa de la
producción del mes)
PARAMETROS
(siempre desconocidos)
ESTADÍSTICOS
(conocidos)
(Afirmaciones válidas acerca de la
población o proceso con base en
la información contenida en la
muestra)
Inferencia
Parámetros y Estadísticos
Puntual (estadístico que estima un valor
específico de un parámetro )
Por Intervalo (Rango donde se estima que
está el valor de una parámetro poblacional)
mn
St 2/X a
n
St 2/X a
2
1
12
,2/
2
n
Sn
a
1
12
,2/1
2
n
Sn
a
p n
ppzp
ˆ1ˆˆ
2/
a
n
ppzp
ˆ1ˆˆ
2/
a
Parámetro Límite inferior Límite superior
m
Característica Población Muestra
X
R
S
Promedio
Rango
Desvío estándar
Estimación
Se trata de encontrar dos números L y U, tales que el parámetro se encuentre entre ellos con una
probabilidad de 1-alfa
Estimación por Intervalos
n
SS
XX
am 1)( ULP
nSt
m
Xa
maa
1
X2/2/ t
nStP am aa
1XX 2/2/
n
St
n
StP
Error
Estándar
Intervalos de Confianza para la media
Tamaño de Muestra para estimar una media
Tamaño de Muestra para estimar una proporción
2
22
1,2/
E
Stn
n
a
Error de
Estimación
n
StE n 1,2/ a
2
2
2/ )ˆ1(ˆ
E
ppZn
a
Error de
Estimación
n
ppZE
)ˆ1(ˆ2/
a
Tamaño de la muestra
Ejemplo – IC para la media
Los datos que a continuación se dan son los pesos en gramos del contenido de 16 cajas de cereal
que se seleccionaron de un proceso de llenado con el propósito de verificar el peso promedio:
Peso
506
508
499
503
504
510
497
512
514
505
493
496
506
502
509
496
Si el peso de las cajas es una variable aleatoria normal con una desviación estándar
σ=5g, obtener el intervalo de confianza estimado del 95%, para la medida de llenado de
este proceso.
α = 0,05 ; P(Z>1.96)=0,025 Z0.975 = 1,96
𝑃 −𝑍0,975𝜎
𝑛< 𝑥 − 𝜇 < 𝑍0,975
𝜎
𝑛
𝑃 −1,965
16< 503,75 < 1,96
5
16
503,75 ± 1,965
16 𝑃 501,3 < 𝜇 < 506,2
Ejemplo – Tamaño de la muestra
Se desea establecer el tamaño de muestra necesario para la estimación de la media. Considerando
un error máximo de estimación de 2g
2
22
2
596,1n
n
StE n 1,2/ a
24n
2
22
1,2/
E
Stn
n
a