sesiones d3/m1 test de hipotesis -...

ESTADISTICA AVANZADA

MODULO I

Sesiones D3/m1 • Test de Hipotesis

• Intervalos de Confianza

M1 Estudio de Causas

Ishikawa

AMFE

M2 Test de Hipótesis

T-Test

Intervalos de

Confianza

T1 Ejercicio Grupal.

T2 Regresión Simple.

Residuos

Hacer un test de hipótesis es tomar una desición

Rechazar H0 o no Rechazar H0

Los dos errores del Analista de Datos

Error de Tipo I

• Rechazar una hipótesis nula que es cierta.

• Representado por a – Es el nivel de Significancia del Test

a

m0

Rechazo H0

Error de Tipo II

• No rechazar una hipótesis nula falsa

• Representado por b

a

b

Tipo I – Rechazar H0 cierta

Tipo II– No rechazar H0

falsa

El valor obtenido corresponde a la

hipótesis alternativa, pero no rechazamos H0

El dato hallado viene de la población definida en

H0, pero lo rechazamos.

Errores Tipo I y II.

H0 Cierta

H0

Falsa

Rechazo

No

Rechazo

Error Tipo I

Ok !

Ok ! Error Tipo II

Si H0 es cierta y no la rechazamos,

¿qué desición tomamos?

Si H0 es falsa y la rechazamos, ¿qué desición tomamos?

Si H0 es cierta y la rechazamos, ¿qué desición tomamos?

Si H0 es falsa y no la rechazamos,

¿qué desición tomamos?

a

b

Analicemos un Juicio por Homicidio

Cuáles son las hipótesis?

Error Tipo I –

Consecuencia:

Error Tipo II–

Consecuencia :

Decidir que el acusado es culpable cuando es inocente

Un inocente va a prisión.

Decidir que el acusado es inocente cuando es culpable

Un culpable queda libre.

H0: el acusado es inocente

Ha: el acusado es culpable

¿Cuál de ambos errores considera la sociedad más grave?

Tipo I - por eso debe haber evidencia más allá de cualquier duda! No queremos mandar un

inocente a la carcel ! ¿Cuáles son… H0: Ha:?

¿Cuál es el error de Tipo

I?

¿Cuál es el error de tipo II?

¿Cuál es la consecuencia de cometer un error de Tipo I?

¿Cuál es la consecuencia de cometer un error de Tipo II?

Si el factor es ruido y lo

consideramos importante, ¿qué desición tomamos?

Si el factor es una señal pero lo consideramos

ruido, ¿qué desición

tomamos?

Si el factor es sólo ruido y lo descartamos, ¿qué desición tomamos?

Si el factor es señal y lo

consideramos significativo, ¿qué desición tomamos?

Errores Tipo I y II en DOE.

El Factor No Afecta

Factor Importante

Decido que Influye

Lo Descarto

Falsa Alarma

Ok !

Ok ! Señal Perdida

a

b

Comparación de Procesos

1

2

1

2

Estadísticamente significativo ≠ importante del punto de vista práctico

LSE LIE

Diferencia

Estadísticamente

Significativa

Diferencia

Estadísticamente

NO Significativa

Debes detectar una diferencia antes de poder

estimar legítimamente esa diferencia, y solo

entonces puedes establecer la importancia práctica

de esa diferencia.

D.Wheeler (Axioma 8 del análisis de datos)

Detectar diferencia entre medias

1 2 = ¿ ?

METODO I: Graficos de Comportamiento del Proceso

1

2

Si una de las condiciones genera señales de causa especial

usando los límites de la otra, la diferencia entre condiciones

es detectable.

METODO 2: TEST DE HIPÓTESIS

• Determinar

– Desvío estandar aproximado del proceso

– Magnitud de diferencia a detectar

– Riesgo alfa

– Riesgo beta

• Calcular el tamaño muestral

• Recolectar muestras en forma

aleatoria

• Chequear la hipótesis μ2- μ1=0

Determinación Riesgos

• Desvío estándar

– Se puede usar el rango de variación natural dividido seis.

– O revisar la historia reciente con SPAC y tomar el desvio estandar del

histograma.

• Delta: ¿Cuánto es una diferencia entre los promedios de las

máquinas de importancia en la realidad?

– No vale la pena planificar un test para detectar una diferencia

muy pequeña, porque no justifica realizar ningún cambio.

• Alfa: ¿Qué tan grave es decidir que las máquinas son diferentes

aunque en realidad son iguales?

– Si al tomar esta decisión se cambiará una de las máquinas y se

incurrirá en un alto costo, quizas debamos considerar un alfa

bajo.

• Beta: ¿Qué tan grave es no hacer nada aunque las máquinas

difieren en más de Delta?

– Si es muy importante detectar la existencia de la diferencia, se

debe bajar el riesgo Beta.

Cálculo con SPAC FL

Toma de Datos

1° Click en esta

columna

2° Control-Click en

esta columna

En el test de Normalidad,

un p-Value alto nos

confirma consistencia de

los datos con la

distribución Normal

En el test de Varianzas,

un p-Value alto nos indica

que las variabilidades de

ambas máquinas son

similares.

Un p-Value inferior a

0.05 sugiere rechazar

la hipótesis de

igualdad entre las

máquinas

Distribución teórica si las máquinas fueran

iguales. Corresponde a la distribución t de Student centrada en cero (porque se

analiza la diferencia entre ambas máquinas) y con n1+n2-2 grados de

libertad

Datos hallados no son consistentes

con esta hipótesis nula. El area roja de las colas indican el area de rechazo de

la hipótesis (usando un alfa del 5%)

Haciendo Click en el botón

de Intervalo de Confianza

Intervalo de Confianza 95% para la diferencia

entre ambas máquinas. Representa un intervalo que, si realizamos el experimento muchas veces,

contendría el verdadero valor de la diferencia entre máquinas.

El Intervalo obtenido no incluye el

valor cero. Es decir que el resultado NO ES CONSISTENTE con que

las máquinas sean iguales (diferencia cero).

Población

Conjunto de datos de interés a los que se referirán los resultados de

la investigación.

Muestra

Subjconjunto de unidades seleccionadas de la población sobre

la cual recaen las observaciones.

Muestra Probabilística

Cada elemento de la población tiene una probabilidad conocida de ser

seleccionado.

Población y Muestra

Parámetro (característica constante de la

población)

Estadístico (variable obtenida de un fórmula basada en datos

muestrales)

?m ? S

Población (toda la

producción por mes)

Muestra

(representativa de la

producción del mes)

PARAMETROS

(siempre desconocidos)

ESTADÍSTICOS

(conocidos)

(Afirmaciones válidas acerca de la

población o proceso con base en

la información contenida en la

muestra)

Inferencia

Parámetros y Estadísticos

Puntual (estadístico que estima un valor

específico de un parámetro )

Por Intervalo (Rango donde se estima que

está el valor de una parámetro poblacional)

mn

St 2/X a

n

St 2/X a

2

1

12

,2/

2

n

Sn

a

1

12

,2/1

2

n

Sn

a

p n

ppzp

ˆ1ˆˆ

2/

a

n

ppzp

ˆ1ˆˆ

2/

a

Parámetro Límite inferior Límite superior

m

Característica Población Muestra

X

R

S

Promedio

Rango

Desvío estándar

Estimación

Se trata de encontrar dos números L y U, tales que el parámetro se encuentre entre ellos con una

probabilidad de 1-alfa

Estimación por Intervalos

n

SS

XX

am 1)( ULP

nSt

m

Xa

maa

1

X2/2/ t

nStP am aa

1XX 2/2/

n

St

n

StP

Error

Estándar

Intervalos de Confianza para la media

Tamaño de Muestra para estimar una media

Tamaño de Muestra para estimar una proporción

2

22

1,2/

E

Stn

n

a

Error de

Estimación

n

StE n 1,2/ a

2

2

2/ )ˆ1(ˆ

E

ppZn

a

Error de

Estimación

n

ppZE

)ˆ1(ˆ2/

a

Tamaño de la muestra

Ejemplo – IC para la media

Los datos que a continuación se dan son los pesos en gramos del contenido de 16 cajas de cereal

que se seleccionaron de un proceso de llenado con el propósito de verificar el peso promedio:

Peso

506

508

499

503

504

510

497

512

514

505

493

496

506

502

509

496

Si el peso de las cajas es una variable aleatoria normal con una desviación estándar

σ=5g, obtener el intervalo de confianza estimado del 95%, para la medida de llenado de

este proceso.

α = 0,05 ; P(Z>1.96)=0,025 Z0.975 = 1,96

𝑃 −𝑍0,975𝜎

𝑛< 𝑥 − 𝜇 < 𝑍0,975

𝜎

𝑛

𝑃 −1,965

16< 503,75 < 1,96

5

16

503,75 ± 1,965

16 𝑃 501,3 < 𝜇 < 506,2

Ejemplo – Tamaño de la muestra

Se desea establecer el tamaño de muestra necesario para la estimación de la media. Considerando

un error máximo de estimación de 2g

2

22

2

596,1n

n

StE n 1,2/ a

24n

2

22

1,2/

E

Stn

n

a

sesiones d3/m1 test de hipotesis -...

Documents