anÁlisis e interpretaciÓn de resultados estadisticos

ANÁLISIS E ANÁLISIS E INTERPRETACIÓN DE INTERPRETACIÓN DE

RESULTADOS ESTADISTICOS RESULTADOS ESTADISTICOS

TIPOS DE ANALISIS ESTADISTICOS

-Anàlisis Paramétricos-Anàlisis No paramètricos

Cada uno posee caracteristicas que le son propias.

Sin embargo puede darse el caso de que se empleen ambos en una misma investigacion, ( hipotesis y variables

en uno y en otro caso).

CARACTERISTICAS DEL ANALISIS PARAMETRICO

LA DISTRIBUCION POBLACIONAL DE LA VARIABLE DEPENDIENTE ES NORMAL. (DISTRIBUCION NORMAL)

EL NIVEL DE MEDICION DE LA VARIABLE DEPENDIENTE ES POR INTERVALO ( Ademas de orden o jerarquia entre

categorias se establecen intervalos iguales entre medicion) o DE RAZON (Ademas de lo anterior se incorpora al cero real.)

CUANDO DOS O MAS POBLACIONES SON ESTUDIADAS ESTAS TIENEN UNA VARIANZA HOMOGENEA

0 10

1 2 3 4 5 - - - - - - - - - - - - - - - -

PRUEBAS PARAMETRICAS MAS UTILIZADAS

- Coeficiente de Correlacion de Pearson. - La Regresión Lineal. - La prueba de contraste de la diferencia de proporciones. - Análisis de Varianza unidireccional.(ANOVA) - Análisis de Varianza factorial. - Análisis de Covarianza (ANCOVA)

COEFICIENTE DE CORRELACION DE PEARSON

ES UNA PRUEBA ESTADISTICA PARA ANALIZAR LA RELACION ENTRE DOS

VARIABLES MEDIDAS EN UN NIVEL POR INTERVALO O POR RAZON.

SE SIMBOLIZA POR “ r ”

El coeficiente de correlación

Es la raíz cuadrada del coeficiente de determinación.

Sus valores oscilan entre -1 y 1

Cuando r es positivo, indica que X e Y están directamente relacionados.

r = r2

Cuando r es negativo, indica que X e Y están inversamente relacionados.

El coeficiente r tiene el mismo signo que el coeficiente b1 en la ecuación de

regresión

El coeficiente de correlación

Interpretación del coeficiente de correlación de Pearson

-1 0 0,5 0,9 1-0,9 -0,5Perfecta

Negativa

Perfecta

Positiva

FuerteNegativa

DébilNegativa

DébilPositiva

ModeradaPositiva

FuertePositiva

ModeradaNegativa

No existe correlación

r2= 0,707Ejemplo:

0,707=rr = 0,84

el signo es positivo ya que X e Y están relacionados directamente como lo indica el signo del coeficiente b1 en la ecuación de regresión 1,576X7,479 Y

Interpretación: El incremento de peso (Y) y el consumo del complemento nutricional (X) se encuentran directamente asociados.

COEFICIENTE DE CORRELACION DE PEARSON

LAS HIPOTESIS A COMPROBAR SON DEL TIPO :

“A mayor X, mayor Y” o “ A menor X menor Y”. “Altos valores en X están asociados con altos

valores en Y. “ Altos valores en X se asocian con bajos

valores de Y”

VARIABLES INVOLUCRADAS

DOS son las variables involucradas. No interesa el hecho de ser independiente o

dependiente. No mide causalidad.

El “ r ” se calcula a partir de las puntuaciones obtenidas en una muestra con

dos variables. Los puntajes obtenidos se relacionan entre

si.

NIVEL DE MEDICION DE VARIABLES

INTERVALO O DE RAZON

INTERPRETACION

El coeficiente de Pearson “r” puede variar entre +1.00 y -1.00

-1.00 =Correlacion negativa perfecta + 1.00 = Correlacion positiva perfecta

En ambos casos y de manera proporcional cada vez que X aumenta una unidad, Y

disminuye siempre una cantidad constante. También se aplica a “ a menor X, mayor Y”

EVALUACIONES POR OBSERVACION

- 0.90 = Correlacion negativa muy fuerte. - 0.75 = Correlacion negativa considerable. - 0.50 = Correlacion negativa media. - 0.10 = Correlacion negativa débil. 0.00 = NO EXISTE CORRELACION. + 0.10 = Correlacion positiva débil. + 0.50 = Correlacion positiva media. + 0.75 = Correlacion positiva considerable. + 0.90 = Correlacion positiva fuerte. + 1.00 = Correlacion positiva perfecta

CONSIDERACIONES

El signo ( +.- )indica la dirección de la correlacion.

El valor numérico indica la magnitud de la correlacion.

El programa SPSS reporta para el caso :s = 0.001 ……………. Significancia

0.7831 ………………. Valor del Coef.

Si “s” es menor que 0.05 se dice que el Coef. es significativo al nivel del 0.05 ( 95% de la correlacion es verdadera con un 5% de probabilidad de error).

CONSIDERACIONES

Si “s” es menor que 0.01 se dice que el Coef. es significativo al nivel del 0.01

( 99% de que la correlacion sea verdadera y 1% de probabilidad de

error).

Cuando “r” se eleva al cuadrado el resultado indica la varianza de

factores comunes, y lo explica en porcentaje.

EJEMPLO 1:

Entre la “productividad” y la “asistencia” como variables existe una correlacion de

0.80. Al elevar al cuadrado 0.80 se tiene “r²”= 0.64

Lo que permite interpretar que la productividad contribuye o explica el 64%

de la variación de la otra variable “asistencia”.

EJEMPLO 2:

En otros artículos o revistas aparecen informaciones de la siguiente manera:

0.48* p < 0.05

Esto significa que el coeficiente es significativo al nivel del =.05.

La probabilidad, de error es menor del 5%. Ahora bien si p < 0.1 el coeficiente es

significativo a nivel de 0.01

EJEMPLO 3: En textos especializados

y algunas Tesis aparecen informaciones de la siguiente manera:

La variable Z tiene un error del orden del 1%

con una significancia del orden del. 99%

La variable X tiene un error del orden del 5% y

una significancia del orden del 95%

X

Y .11

Z .62**

X .47*

•p < 0.05•** p < 0.01

Siendo Y,Z y X variables.

EJEMPLO 4

Hi: “ a mayor motivación intrínseca mayor

puntualidad”

Resultados: “r” = .721

s = .0001

Interpretacion: Se acepta la hipótesis a nivel de 0.01 . La correlacion entre la Motivación y la Puntualidad es considerable.

EL DIAGRAMA DE DISPERSIÓN

Es un gráfico que permite detectar la existencia de una relación entre dos variables.

Visualmente se puede buscar patrones que indiquen el tipo de relación que se da entre las variables.

• •

• •

• • •

•

•

• • • • •

• • •

• •

•

•

• • •

• •

• • • •

• • •

•

• •

•

• • •

•

• •

• • • •

• • •

•

•

•

• •

• • •

•

•

•

• • •

• •

• • •

•

•

•

•

• • • •

• • •

•

• • • • •

• • • •

• •

• • •

• • •

(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa

(d) Curvilinea inversa (e) Lineal inversacon más dispersión

(d) Ninguna relación

Y

X

Y

X

Y

X

Y

X

Y

X

Y

X

Relaciones posibles entre X y Y vistos en diagramas de dispersión

Aplicación

Los datos siguientes muestran las cantidades consumidas de complemento nutricional (en Kg.) y el aumento de peso de niños con signos de desnutrición.

PACIENTE 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

EN Kg: X

AUMENTO DE8 10 9 12 14 13 15 17 14 14

PESO : Y

Presente la información en un diagrama de dispersión

Procedimiento

1er Paso: Reúna pares de datos (X,Y), cuya relación desea estudiar y organice la información en una tabla.

PACIENTE 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5

EN Kg.: X

AUMENTO DE8 10 9 12 14 13 15 17 14 14

PESO : Y

2do Paso: Encuentre los valores mínimos y máximos para X e Y. Elija las escalas que se usarán en los ejes horizontal y vertical, de manera que ambas longitudes sean aproximadamente iguales, facilitando la lectura del diagrama.

0

5

10

15

20

0.0 2.0 4.0 6.0

3er Paso: Registre los datos en el gráfico. Cuando se obtengan los mismos valores en diferentes observaciones, muestre estos puntos haciendo círculos concéntricos (o), o registre el segundo punto muy cerca del primero.

0

5

10

15

20

0.0 2.0 4.0 6.0

4to Paso: Agregue toda la información que puede ser de utilidad para entender el diagrama, tal como: título del diagrama, período de tiempo, número de pares de datos, nombre de la variable y unidades de cada eje, entre otros.

Relación complemento nutricional y aumento de peso

0

5

10

15

20

0.0 2.0 4.0 6.0

Complemento nutricional (Kg)

Au

men

to d

e p

eso

(K

g)

LAS ECUACIONES LINEALES SIMPLES

Si dos variables, como X e Y, están relacionadas, se puede expresar como una relación, por ejemplo:

Y = 3 + 1,5X

Al conocer la ecuación se puede:

a) Calcular el valor de Y para cualquier valor dado de X

b) Conocer el cambio en Y, cuando X varía en 1

Valor Valor Cambio dado de Xcalculado de Y de Y

1 4,5 -2 6,0 1,53 7,5 1,54 9,0 1,55 10,5 1,5

Por ejemplo: Y = 3 + 1,5X

El aumento en Y, cuando X varía en una unidad, está dado por el coeficiente de X.

Ejemplo:

En Y = 10 + 2Xcuando X aumenta en 1, Y aumenta en 2

En Y = 5 - 0,8Xcuando X aumenta en 1, Y disminuye en 0,8

A) Tipos de VariablesEn una ecuación como Y = 30 + 3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le llama variable independiente.

Y = b0 + b1 X

VariableDependiente

VariableIndependiente

B) Tipo de Relaciones

Cuando cambios en X provoca cambios en Y en igual sentido (aumentos o disminuciones), las variables están directamente relacionadas. Se observa el signo +

X

o

o

o

o

o

o

o

o

oYEjemplo:Y = 30 + 5X

Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o viceversa), las variables están inversamente relacionadas. Se observa en la ecuación el signo -.

o

o

o

o

o

o

o

o

X

YEjemplo:Y = 20 - 3X

La ecuación es de primer grado si la variable independiente está elevada al exponente 1. Su gráfica genera una línea recta (por lo que también se le llama ecuación lineal)

Ejemplo: Y = 30 + 4 X

C) Grado de la ecuación:

Si la variable independiente está elevada a un exponente diferente a 1, la ecuación toma el valor del exponente. Su gráfica no es una línea recta.

Ejemplo:

Y = 10 + 3 X + 4 X2 : ecuación de segundo grado

Y = 3 + 7X + 5 X3 : ecuación de tercer grado

D) Ecuaciones simples y múltiples: Simples: Muestra la relación entre dos variables

Y = 30 + 2X

Y = 10 - 3X2

Múltiple: Muestra la relación entre tres o más variables

Y = 3X + 8 Z

Y = 5 + 2X2 + 4W

D) Gráfica de una ecuación de primer grado:

Ejemplo: Y = 3 + 1,5X

Los cinco pares de valores se diagraman de la forma siguiente.

121110987654321

1 2 3 4 5

Y

.

X

.. . .

(1,4.5)

(4,9)

(3,7.5)

(2,6)

(5,10.5)

X 1 2 3 4 5Y 4 , 5 6 , 0 7 , 5 9 , 0 1 0 , 5

E) Forma general:

La ecuación simple de primer grado tiene la siguiente forma general

Y = b0 + b1 X

Donde:

b1: pendiente, o sea, el cambio en Y cuando X = 1.

b0: el valor autónomo, es decir, Y = b0 cuando X = 0. En la gráfica es la intersección con el eje Y

Ejemplo:

Y = 3 + 1.5X .b0 = 3

Y

X

REGRESIÓN LINEAL SIMPLE

Es una técnica estadística que permite determinar la mejor ecuación que represente la relación entre dos variables relacionadas.

Para poder establecer la relación cuantitativa entre X e Y es necesario disponer de pares de observaciones. Cada par ha sido registrado a la misma unidad elemental.

A) Suposiciones de regresión y correlación

a) Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X.

b) Homoscedasticidad: la variación alrededor de la línea de regresión sea constante para todos los valores de X.

c) Independencia de error: el error (diferenciaresidual entre un valor observado y uno

estimado de Y) sea independientemente de cada valor de X.

d) Linealidad: la relación entre las variables es lineal.

La ecuación general = b0 + b1X se llama ecuación de regresión y permite estimar o predecir los valores de Y.

Es el procedimiento matemático utilizado para determinar los valores numéricos de los coeficientes de regresión: b0 y b1

Y

B) El método de Mínimos Cuadrados

Yi - Y = error

Min Y - Yi

2

El método consiste en determinar una ecuación que la suma de los errores al cuadrado sea mínima.

X

Y

Error= 2

2 4 6 8 10 12 14

10

8

6

4

2 • •

Error= -6•

Línea deestimación

.

. Y

El método utiliza un sistema de ecuación llamado ecuaciones normales, que tienen la siguiente forma:

Para aplicar las fórmulas, tenemos que confeccionar un cuadro como el siguiente:

2

10

10

XbXbXY

X b + nbY

YX XY 2X

X Y X2 XY

1.0 8.0 1.0 8.0

1.5 10.0 2.3 15.0

2.0 9.0 4.0 18.0

2.5 12.0 6.3 30.0

3.0 14.0 9.0 42.0

3.5 13.0 12.3 45.5

4.0 15.0 16.0 60.0

4.5 17.0 20.3 76.5

5.0 14.0 25.0 70.0

5.5 14.0 30.3 77.0

32.5 126.0 126.3 442.0

Sustituyendo los valores , n = 5,

y ,en las ecuaciones normales, obtenemos el siguiente sistema de ecuaciones.

126 = 10b0 + 32,5b1

442 = 32,5b0 + 126,3b1

Resolviendo el sistema tenemos: b0 = 7,479 b1= 1,576 ,por lo tanto,

0,261Y 5,23X 424XY 3,126

2X

1,576X7,479 Y

c) Interpretación

b0 = 7,478 : Es probable que un paciente desnutrido que no sea considerado dentro del Programa de Alimentación Complementaria tenga un peso de 7,478 Kg.

b1 = 1,576:Por cada Kg. del alimento complementario, se espera que probablemente el niño aumento su peso en 1,576 Kg.

D) Valor observado y valor estimado de Y

El valor observado (Yi) se refiere al nivel efectivo u observado de la variable Y (peso del niño), mientras que el valor estimado ( ), es el nivel estimado de la variable (peso esperado), obtenido utilizando la ecuación de regresión.

iY

X

Y

Valorestimado

Valorobservado

YiY..

xo

X Y

1.0 8.0 9.055

1.5 10.0 9.843

2.0 9.0 10.630

2.5 12.0 11.418

3.0 14.0 12.206

3.5 13.0 12.994

4.0 15.0 13.782

4.5 17.0 14.570

5.0 14.0 15.358

5.5 14.0 16.146

Y

Síntesis con que se comparan las medias o proporciones de dos muestras probabilísticas independientes

Comparación

Dos proporciones

Dos medias

Dos medias

¿Es cada n> 30?

Se usa t tomado de l tabla de distribución t para el nivel de significancia deseado

Sí No

El número de grados de libertad (g.l.)

Los valores críticos de son

Se usa Z tomada de la tabla de distribución normal para el nivel de significancia deseado

Los valores criticos de

son 21 XX

2

22

1

1

n

s

n

sz0

21 XX

2121

222

211

n

1

n

1

2nn

s1ns1nt0

Dos proporciones

Se usa Z tomada de la tabla de distribución normal para el nivel de significancia deseado

Los valores críticos de son

donde

21 PP

21 n

1

n

1P1PZ0

21

2211

nnPnPn

P

El Nivel Critico de la prueba estadística (p)

El significado de p: Es el valor de la probabilidad de rechazar la hipótesis nula cuando se supone que es verdadera y obtenida con los resultados de la muestra.

Si p > α No hay evidencia para rechazar Ho Si p < α Se rechaza Ho.

Nivel crítico de la prueba

Nivel crítico p = P[rechazar H0 con los resultados obtenidos en la muestra observada, bajo el supuesto de que H0 es verdadera]

Nivel crítico Indica que la diferencia encontrada Conclusión p > 0.05 Es no significativa y puede deberse No rechazar H0 al azar del muestreo

0.01< p 0.05 Es significativa y probablemente ya Rechazar H0

no se deba al azar del muestreo

p 0.01 Es muy significativa y probablemente Rechazar H0

se deba a que hay diferencias en la po- blación

Prueba T para la media de las diferencias (datos apareados)

Hipótesis:

a) H0: d = d0 H1: d d0

b) H0: d d0 H1: d > d0

c) H0: d d0 H1: d < d0 n

Sd

Td

d 0

El objetivo en las pruebas de comparaciones apareadas es eliminar un número máximo de fuentes de variación externa, haciendo a las parejas semejantes con respecto a las demás variables inherentes a los elementos de estudio, que podrían hacer variar el resultado esperado al margen del efecto del tratamiento.

En lugar de llevar a cabo el análisis con observaciones individuales, se utiliza como variable de interés la diferencia entre pares individuales de observaciones.

Estadística de la prueba


Se realizó un experimento para estudiar la efectividad de cierta dieta, combinada con un programa de ejercicio, en la reducción de los niveles de colesterol en suero en al menos 10 unidades. En el experimento participaron 12 personas. A continuación, se muestra los niveles de colesterol en suero, al principio del programa (Antes) y al final del mismo (Después).

38.12S ;00.18d d 38.12S ;00.18d d

N° Persona 1 2 3 4 5 6 7 8 9 10 11 12

Colesterol antes 181 210 201 237 207 216 297 214 218 243 258 190

Colesterol después 175 214 195 211 194 195 268 176 187 224 235 182

Diferencia di 6 -4 6 26 13 21 29 38 31 19 23 8


H0: d 10

La dieta no es efectiva para reducir los niveles de colesterol en suero en al menos 10 unidades

H0: d > 10

La dieta es efectiva para reducir los niveles de colesterol en suero en al menos 10 unidades

24.212/38.12

1000.18

n/S

dT

d

d 24.212/38.12

1000.18

n/S

dT

d

d p=0.0234

t(11)2.24

La dieta combinada con un programa de ejercicios es efectiva para reducir los niveles de colesterol en suero en al menos 10 unidades (p < 0.05)

PRUEBA DE DOS COLASPRUEBA DE DOS COLAS

Región de rechazo

0.025

Escala de t0-1.96

Valor crítico

Región de rechazo

0.025

-1.96Valor crítico

0.95

Región de aceptación H0

=o oT<-t1-/2 o T> t1-/2

Cuando n es mayor a 200

La Prueba Ji-CuadradoDistribución Ji-Cuadrado

n21 Z , ... , Z , ZSupóngase que se tiene una serie de variables aleatorias independientes con distribución normal estándar, , entonces la variable aleatoria

, sigue una distribución Ji-Cuadrado.

2n

21 Z...ZX

FUNCIÓN DE DENSIDAD MEDIA Y VARIANZA.

2χ

Hipótesis nula:Las variables son independientes

Se construye o se obtiene una tabla de tabulación cruzada para las frecuencias reales

observadas (Oij )

Procedimientos para usar el análisis de ji cuadrada y Procedimientos para usar el análisis de ji cuadrada y probar la independencia de dos variables nominales probar la independencia de dos variables nominales

Suponiendo que las variables son independientes, se construye una tabla de

tabulación cruzada para las frecuencias teóricas ( Eij)

Se determina el nivel de significado deseado en la prueba.

Se determina el valor calculado del estadístico ji

cuadrada

r

1i

c

1j ij

2ijij2

E

EO

Tabla 4. Distribución de ji-cuadrado

Probabilidad de un valor superior

Grados de libertad 0,1 0,05 0,025 0,01 0,005

1 2,71 3,84 5,02 6,63 7,88

2 4,61 5,99 7,38 9,21 10,60

3 6,25 7,81 9,35 11,34 12,84

4 7,78 9,49 11,14 13,28 14,86

5 9,24 11,07 12,83 15,09 16,75

6 10,64 12,59 14,45 16,81 18,55

7 12,02 14,07 16,01 18,48 20,28

8 13,36 15,51 17,53 20,09 21,95

9 14,68 16,92 19,02 21,67 23,59

10 15,99 18,31 20,48 23,21 25,19

Uso de la tabla

α]χχ[P 2n,α

2

2n,αχ

αEl área sombreada de naranja representa la probabilidad que se determinada por , donde:

es el valor critico del margen superior de la tabla, y

son los grados de libertad del margen izquierdo de la tabla.

n

Tabla 4. Distribución de ji-cuadrado

Probabilidad de un valor superior

Grados de libertad 0,1 0,05 0,025 0,01 0,005

1 2,71 3,84 5,02 6,63 7,88

2 4,61 5,99 7,38 9,21 10,60

3 6,25 7,81 9,35 11,34 12,84

4 7,78 9,49 11,14 13,28 14,86

5 9,24 11,07 12,83 15,09 16,75

6 10,64 12,59 14,45 16,81 18,55

7 12,02 14,07 16,01 18,48 20,28

8 13,36 15,51 17,53 20,09 21,95

9 14,68 16,92 19,02 21,67 23,59

10 15,99 18,31 20,48 23,21 25,19

Uso de la tabla Ji-Cuadrado

10.0]10n | χ99.15 [ P 2

05.0]5n | χ07.11 [ P 2

Martha Revilla, directora de mantenimiento de la calidad en MEGA, elige 29 bicicletas y halla una varianza en la distancia entre ejes de 32.7 pulgadas cuadradas. Si la señora Revilla tienen que garantizar que la variación no supere 27 pulgadas cuadradas ¿indica esto que se cumplen las normas de producción? (α=0.05)

EJEMPLOEJEMPLO

HipótesisHipótesisHipótesisHipótesis 27H 27H 21

20 27H 27H 2

12

0

Prueba de una cola a la derechaPrueba de una cola a la derecha

277.32s

29n

2

2

91.33

277.32129s1n

2

22

91.33

277.32129s1n

2

22

0.05

41.33733.91

2

2f

Como X2=33.91<41.337 la señora Revilla no rechazará la H0 y confiará al 95% en que se cumplen las normas de producción

Como X2=33.91<41.337 la señora Revilla no rechazará la H0 y confiará al 95% en que se cumplen las normas de producción

337.41228;05.0 337.412

28;05.0

¿Que pasaría, si las instrucciones de la señora Revilla fueran que la variación se mantuviera inferior a 27 pulgadas cuadradas?

27H 27H 21

20 27H 27H 2

12

0

Prueba de una cola a la izquierdaPrueba de una cola a la izquierda

33.91

2

2f

0.05

X2 =33.91, la señora Revilla no rechazará la H0 y confiará al 95% en que se cumplen las normas de producción

X2 =33.91, la señora Revilla no rechazará la H0 y confiará al 95% en que se cumplen las normas de producción

16.928

928.16228;95.0 928.162

28;95.0

La señora Revilla, ahora elabora un intervalo de confianza del 90% para la varianza de la distancia entre ejes.

16.928 2

2f

0.05

Revilla puede confiar al 90% en que la varianza de la distancia entre ejes se encuentra entre 22.15 y 54.09 pulgadas cuadradas

Revilla puede confiar al 90% en que la varianza de la distancia entre ejes se encuentra entre 22.15 y 54.09 pulgadas cuadradas

0.050.90

41.3370.95

2

28;95.0

22

228;05.0

2 s1ns1n

228;95.0

22

228;05.0

2 s1ns1n

09.5415.22

928.167.32129

337.417.32129

2

2

09.5415.22

928.167.32129

337.417.32129

2

2

Prueba Ji-Cuadrado para comparación de proporciones

Grupo Categ. 1 ...... Categ. s Muestra

Grupo 1 O11 ...... O1s n1

......... ....... ...... ....... .....

Grupo r Or1 ...... Ors nr

Total C1 ...... Cs n

H0: La proporción de elementos en cada categoría es la misma para todos los grupos (los grupos son

homogéneos).

Prueba Ji-Cuadrado para comparación de proporciones

Estadística

0

1 0

2 0

3 0

4 0

5 0

6 0

7 0

8 0

G r u p o 1 G r u p o 2 G r u p o 3 G r u p o 4

C a t . 1

C a t . 2

r

i

c

j ij

ijij

E

)EO(X

1 1

22

n

CnE,donde ji

ij

21

2x

.C.R

Ejemplo de Prueba Ji-Cuadrado para comparación de proporciones

Se supone que se tienen datos experimentales correspondientes a 300

individuos de los que se ha recogido el valor que presentan en dos

variables cualitativas Var1 (de 2 niveles: Cat1 / Cat2) y Var2 (de 4 niveles:

Grupo 1 / Grupo 2 / Grupo 3 / Grupo 4), para comparar la distribución por

grupos entre las categorías. Los datos se presentan en la Tabla:

Var1 / Var2 Cat1 Cat2 Total

Grupo 1 62 88 150

Grupo 2 46 64 110

Grupo 3 12 20 32

Grupo 4 6 2 8

Total 126 174 300

H1: Hay diferencia, en la distribución por grupos, entre las categorías.

H1: Hay diferencia, en la distribución por grupos, entre las categorías.

Var1 / Var2 Cat1 Cat2 Total

Grupo 1 63.063.0 87.087.0 150Grupo 2 46.246.2 63.863.8 110Grupo 3 13.413.4 18.618.6 32Grupo 4 3.43.4 4.64.6 8

Total 126 174 300

H0: No hay diferencia, en la distribución por grupos, entre las categorías.

H0: No hay diferencia, en la distribución por grupos, entre las categorías.

Frecuencias Esperadas:

n

CnE ji

ij n

CnE ji

ij

0.63

300126150

nCn

E 1111 Por ejemplo:

Estadística

0

1 0

2 0

3 0

4 0

5 0

6 0

7 0

8 0

G r u p o 1 G r u p o 2 G r u p o 3 G r u p o 4

C a t . 1

C a t . 2

4

1i

2

1j ij

2ijij2

E

)EO(

n

CnE,donde ji

ij

21

205.0

.C.R

871.330052

...6362

nE

O

E

EO

22

4

1i

2

1j ij

2ij

4

1i

2

1j ij

2ijij2

871.330052

...6362

nE

O

E

EO

22

4

1i

2

1j ij

2ij

4

1i

2

1j ij

2ijij2

Que sigue una distribución Ji-cuadrado con (n-1)*(C-1)=( 4-1)*(2-1)=3 grados de libertad


276.0871.3Pp 23 276.0871.3Pp 2

3

En conclusión, no se ha encontrado diferencia significativa, en la distribución por grupo, para cada categoría (p 0.05)

En conclusión, no se ha encontrado diferencia significativa, en la distribución por grupo, para cada categoría (p 0.05)

Prueba Ji-Cuadrado de Independencia

Y

X Categ. 1 ...... Categ. s Total

Cat. 1 O11 ...... O1s R1

......... ....... ...... ....... .....

Cat. r Or1 ...... Ors Rr

Total C1 ...... Cs n

H0: Las variables X e Y son independientes H1: Existe asociación entre X e Y

Prueba Ji-Cuadrado de Independencia

Estadística

0

1 0

2 0

3 0

4 0

5 0

6 0

7 0

8 0

A l t o M e d i o B a j o

S i N o

r

1i

c

1j ij

2ijij2

E

)EO(

n

CRE,donde ji

ij

21

2

.C.R

Ejemplo de Prueba Ji-Cuadrado de independencia

Para verificar la suposición de que la fabricación de cierto producto está asociado con enfermedades respiratorias, a 450 trabajadores de una empresa que fabrica el producto se evaluó respecto a la presencia de síntomas de alteraciones respiratorias y se los clasificó a su vez de acuerdo al nivel de exposición al producto. Los resultados se presentan en la tabla siguiente:

Presencia de Síntoma

Nivel de ExposiciónTotal

Alto Medio Bajo

Si 175 43 27 245

No 90 60 55 205

Total 265 103 82 450

H1: Las alteraciones respiratorias están asociadas a la exposición al producto

H1: Las alteraciones respiratorias están asociadas a la exposición al producto

H0: Las alteraciones respiratorias son independientes de la exposición al producto.

H0: Las alteraciones respiratorias son independientes de la exposición al producto.

Frecuencias Esperadas:

n

CRE ji

ij n

CRE ji

ij

4.37

45082205

nCR

E 3223 Por ejemplo:

Presencia de Síntoma

Nivel de ExposiciónTotal

Alto Medio Bajo

Si 144.3144.3 56.156.1 44.644.6 245

No 120.7120.7 46.946.9 37.437.4 205

Total 265 103 82 450

Estadística

0

1 0

2 0

3 0

4 0

5 0

6 0

7 0

8 0

A l t o M e d i o B a j o

S i N o

2

1i

3

1j ij

2ijij2

E

)EO(

n

CRE,donde ji

ij

21

205.0

.C.R

4.364504.37

55...

3.144175

nE

O

22

2

1i

3

1j ij

2ij2

4.364504.37

55...

3.144175

nE

O

22

2

1i

3

1j ij

2ij2



005.0250.000000014.36Pp 22 005.0250.000000014.36Pp 2

2

En conclusión, se rechaza la H0 (p < 0.05), es decir las alteraciones respiratorias están asociadas a la exposición al producto

En conclusión, se rechaza la H0 (p < 0.05), es decir las alteraciones respiratorias están asociadas a la exposición al producto

Distribución F de SnedecorSi y son variables Ji-cuadrado distribuidas en forma independiente con y grados de libertad, respectivamente, la variable

sigue la distribución F con y grados de libertad.

2X

22

11

kZkZ

F 1X

1k 2k

1k 2k

Tabla F de Fisher

α=0.05 con letra normal.

α=0.01 con letra negrita

Ejemplo de uso de la tabla F de Fisher

Ejemplo de Aplicación

De dos aulas de 5ª año de secundaria se tomaron muestras de tamaños 10 y 15 de las notas promedios de alumnos para probar si la dispersión de las notas es la misma para las dos aulas. Los resultados obtenidos son los siguientes:

Aula 1: 15, 16, 12, 14, 14, 15, 16, 13, 14, 15. Aula 2: 12, 14, 15, 16, 16, 17, 15, 16, 18, 14, 12, 15, 16, 14, 13.

40.14x1

87.14x2 600.1S2

1

981.2S22

10n1

15n2

Deseamos probar las hipótesis:

22

210 :H 2

2211 :H

Luego

Si , entonces para las cuantilas y

5367.0981.2600.1

F 05.0

)14,9(F 2/ 2/1

26.0F )14,9( 025.0 21.3F )14,9( 025.0

025.0 025.0

5367.0

Luego concluimos que la dispersión de las notas entre los alumnos para las dos aulas de 5ª año son las mismas, pues no se encuentra diferencia significativa.

26.0 21.3

La compañía llantera Good Year del Perú, ha efectuado un estudio sobre los hábitos de manejo de varios grupos ocupacionales. En una muestra de 35 profesores universitarios, el número promedio de kilómetros recorridos al año fue de 14,500 con una desviación standart de 3,200 km. En una muestra de 40 dentistas, el kilometraje fue de 13,400, con una desviación standart de 1,950 km.

EJEMPLOEJEMPLO

Se tieneSe tieneSe tieneSe tiene04n ,950,1s ,450,13X

35n ,200,3s ,500,14X

222

111

Primero se verificará la condición siguiente: 1 2

04n 3802500,s ,950,1s ,450,13X35n 10240000,s ,200,3s ,500,14X

22122

12111

Planteamos las Hipótesis:

22

211

22

210 :H :H

22

211

22

210 :H :H

693.23802500

10240000F 693.2

380250010240000

F

Para α=0.05

0.515

0.0250.95

1.9

0.025

9.1F )39,34( 975.0 515.0F )39,34( 025.0

Se rechaza la H0, es decir que 1 2 Se rechaza la H0, es decir que 1 2

2.693

Valores críticosValores críticosValores críticosValores críticos

3.220,10

6.62296.10s*Z0

21 XX

3.220,106.62296.10

s*Z021 XX

211210 :H :H 211210 :H :H

6.62240950,1

35200,3

ns

ns

s22

2

22

1

21

XX 21

6.622

40950,1

35200,3

ns

ns

s22

2

22

1

21

XX 21

Y los valores críticos son: -1,220.3 y +1,220.3Y los valores críticos son: -1,220.3 y +1,220.3Y los valores críticos son: -1,220.3 y +1,220.3Y los valores críticos son: -1,220.3 y +1,220.3

Diferencia de lasmedias muestrales .Km050,1450,13500,14XX 21

Luego, se prueba la hipótesis:

-1220.3Valor critico

+1220.3Valor critico

+1050 = diferencia observada entre las medias muestrales.

millas 6.622s

2X1X

021 XX

Z= -1.96 Z= +1.96Área =0.025Área =0.025

Se Rechaza Se Rechaza

Se acepta la hipótesis nula

Ejercicio

Como la diferencia entre las medias muestrales es de 1050 millas y se acepta un margen de error de 1220 millas, en consecuencia, no hay diferencias significativas entre los dos grupos

Freddy Lopez, operador de la cadena de restaurantes “Las Tejas””, ha hecho una encuesta entre los clientes en dos ciudades, pues desea averiguar si les gustaría que en el menú se incluyeran sandwiches de jamón y queso. De las 500 personas encuestadas en la capital, 200 contestaron afirmativamente, mientras que 150 de las 300 encuestadas en una ciudad cercana también contestaron afirmativamente. Freddy quiere saber si, en un nivel de 0.05 esos resultados son significativamente diferente.

EJEMPLOEJEMPLO

En resumenEn resumenEn resumenEn resumen030n ,50.0300/150P

500n ,40.0500/200P

22

11

Primero se determinará si se cumple lo siguiente: 1 ≠ 2

Se tieneSe tieneSe tieneSe tiene

Planteamos las Hipótesis:

22

211

22

210 :H :H

22

211

22

210 :H :H

576.00.000830.00048

F 576.00.000830.00048

F

00083.0

30050.050.0

s ,030n ,50.0300/150P

00048.0500

60.040.0s 500,n ,40.0500/200P

2222

2111

Para α=0.05

0.0250.95

0.576

0.025

228.1F )299,499( 975.0 8184.0F )299,499( 025.0

Se rechaza la H0, es decir que 1 ≠ 2 Se rechaza la H0, es decir que 1 ≠ 2

0.8184 1.228

Valores críticosValores críticosValores críticosValores críticos

071.000362.096.10

s*Z021 PP

071.000362.096.10

s*Z021 PP

211210 P P :H P P :H 211210 P P :H P P :H

0362.0n1

n1

P1Ps

n,n de valoreslos como asi

s de fórmula laen 0.4375 p mplazandoRe

4375.0300500

50.030040.0500nn

PnPnP

21PP

21

PP

21

2211

21

21

0362.0n1

n1

P1Ps

n,n de valoreslos como asi

s de fórmula laen 0.4375 p mplazandoRe

4375.0300500

50.030040.0500nn

PnPnP

21PP

21

PP

21

2211

21

21

Y los valores críticos son: -0.071 y +0.071Y los valores críticos son: -0.071 y +0.071Y los valores críticos son: -0.071 y +0.071Y los valores críticos son: -0.071 y +0.071

Diferencia de lasproporciones muestrales

10.050.040.0PP 21

Luego, se prueba la hipótesis:

Se acepta la hipótesis nula

Se rechaza Se rechaza

Z= -1.96 Z= +1.96Área =0.025Área =0.025

021 PP

0362.0s21 PP

-0.071Valor critico

+0.071Valor critico

Diferencia observada entre las proporciones muestrales = (0.40-.050) =-0.10

Ejercicio

Como la diferencia entre las proporciones muestrales es de -0.10 y se acepta un margen de error de 0.0710.071, en consecuencia, si hay diferencias significativas entre los dos grupos

anÁlisis e interpretaciÓn de resultados estadisticos

Documents