anÁlisis e interpretaciÓn de resultados estadisticos
DESCRIPTION
ANÁLISIS E INTERPRETACIÓN DE RESULTADOS ESTADISTICOS. TIPOS DE ANALISIS ESTADISTICOS. Anàlisis Paramétricos Anàlisis No paramètricos Cada uno posee caracteristicas que le son propias. Sin embargo puede darse el caso de que se empleen - PowerPoint PPT PresentationTRANSCRIPT
ANÁLISIS E ANÁLISIS E INTERPRETACIÓN DE INTERPRETACIÓN DE
RESULTADOS ESTADISTICOS RESULTADOS ESTADISTICOS
TIPOS DE ANALISIS ESTADISTICOS
-Anàlisis Paramétricos-Anàlisis No paramètricos
Cada uno posee caracteristicas que le son propias.
Sin embargo puede darse el caso de que se empleen ambos en una misma investigacion, ( hipotesis y variables
en uno y en otro caso).
CARACTERISTICAS DEL ANALISIS PARAMETRICO
LA DISTRIBUCION POBLACIONAL DE LA VARIABLE DEPENDIENTE ES NORMAL. (DISTRIBUCION NORMAL)
EL NIVEL DE MEDICION DE LA VARIABLE DEPENDIENTE ES POR INTERVALO ( Ademas de orden o jerarquia entre
categorias se establecen intervalos iguales entre medicion) o DE RAZON (Ademas de lo anterior se incorpora al cero real.)
CUANDO DOS O MAS POBLACIONES SON ESTUDIADAS ESTAS TIENEN UNA VARIANZA HOMOGENEA
0 10
1 2 3 4 5 - - - - - - - - - - - - - - - -
PRUEBAS PARAMETRICAS MAS UTILIZADAS
- Coeficiente de Correlacion de Pearson. - La Regresión Lineal. - La prueba de contraste de la diferencia de proporciones. - Análisis de Varianza unidireccional.(ANOVA) - Análisis de Varianza factorial. - Análisis de Covarianza (ANCOVA)
COEFICIENTE DE CORRELACION DE PEARSON
ES UNA PRUEBA ESTADISTICA PARA ANALIZAR LA RELACION ENTRE DOS
VARIABLES MEDIDAS EN UN NIVEL POR INTERVALO O POR RAZON.
SE SIMBOLIZA POR “ r ”
El coeficiente de correlación
Es la raíz cuadrada del coeficiente de determinación.
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y están directamente relacionados.
r = r2
Cuando r es negativo, indica que X e Y están inversamente relacionados.
El coeficiente r tiene el mismo signo que el coeficiente b1 en la ecuación de
regresión
El coeficiente de correlación
Interpretación del coeficiente de correlación de Pearson
-1 0 0,5 0,9 1-0,9 -0,5Perfecta
Negativa
Perfecta
Positiva
FuerteNegativa
DébilNegativa
DébilPositiva
ModeradaPositiva
FuertePositiva
ModeradaNegativa
No existe correlación
r2= 0,707Ejemplo:
0,707=rr = 0,84
el signo es positivo ya que X e Y están relacionados directamente como lo indica el signo del coeficiente b1 en la ecuación de regresión 1,576X7,479 Y
Interpretación: El incremento de peso (Y) y el consumo del complemento nutricional (X) se encuentran directamente asociados.
COEFICIENTE DE CORRELACION DE PEARSON
LAS HIPOTESIS A COMPROBAR SON DEL TIPO :
“A mayor X, mayor Y” o “ A menor X menor Y”. “Altos valores en X están asociados con altos
valores en Y. “ Altos valores en X se asocian con bajos
valores de Y”
VARIABLES INVOLUCRADAS
DOS son las variables involucradas. No interesa el hecho de ser independiente o
dependiente. No mide causalidad.
El “ r ” se calcula a partir de las puntuaciones obtenidas en una muestra con
dos variables. Los puntajes obtenidos se relacionan entre
si.
NIVEL DE MEDICION DE VARIABLES
INTERVALO O DE RAZON
INTERPRETACION
El coeficiente de Pearson “r” puede variar entre +1.00 y -1.00
-1.00 =Correlacion negativa perfecta + 1.00 = Correlacion positiva perfecta
En ambos casos y de manera proporcional cada vez que X aumenta una unidad, Y
disminuye siempre una cantidad constante. También se aplica a “ a menor X, mayor Y”
EVALUACIONES POR OBSERVACION
- 0.90 = Correlacion negativa muy fuerte. - 0.75 = Correlacion negativa considerable. - 0.50 = Correlacion negativa media. - 0.10 = Correlacion negativa débil. 0.00 = NO EXISTE CORRELACION. + 0.10 = Correlacion positiva débil. + 0.50 = Correlacion positiva media. + 0.75 = Correlacion positiva considerable. + 0.90 = Correlacion positiva fuerte. + 1.00 = Correlacion positiva perfecta
CONSIDERACIONES
El signo ( +.- )indica la dirección de la correlacion.
El valor numérico indica la magnitud de la correlacion.
El programa SPSS reporta para el caso :s = 0.001 ……………. Significancia
0.7831 ………………. Valor del Coef.
Si “s” es menor que 0.05 se dice que el Coef. es significativo al nivel del 0.05 ( 95% de la correlacion es verdadera con un 5% de probabilidad de error).
CONSIDERACIONES
Si “s” es menor que 0.01 se dice que el Coef. es significativo al nivel del 0.01
( 99% de que la correlacion sea verdadera y 1% de probabilidad de
error).
Cuando “r” se eleva al cuadrado el resultado indica la varianza de
factores comunes, y lo explica en porcentaje.
EJEMPLO 1:
Entre la “productividad” y la “asistencia” como variables existe una correlacion de
0.80. Al elevar al cuadrado 0.80 se tiene “r²”= 0.64
Lo que permite interpretar que la productividad contribuye o explica el 64%
de la variación de la otra variable “asistencia”.
EJEMPLO 2:
En otros artículos o revistas aparecen informaciones de la siguiente manera:
0.48* p < 0.05
Esto significa que el coeficiente es significativo al nivel del =.05.
La probabilidad, de error es menor del 5%. Ahora bien si p < 0.1 el coeficiente es
significativo a nivel de 0.01
EJEMPLO 3: En textos especializados
y algunas Tesis aparecen informaciones de la siguiente manera:
La variable Z tiene un error del orden del 1%
con una significancia del orden del. 99%
La variable X tiene un error del orden del 5% y
una significancia del orden del 95%
X
Y .11
Z .62**
X .47*
•p < 0.05•** p < 0.01
Siendo Y,Z y X variables.
EJEMPLO 4
Hi: “ a mayor motivación intrínseca mayor
puntualidad”
Resultados: “r” = .721
s = .0001
Interpretacion: Se acepta la hipótesis a nivel de 0.01 . La correlacion entre la Motivación y la Puntualidad es considerable.
EL DIAGRAMA DE DISPERSIÓN
Es un gráfico que permite detectar la existencia de una relación entre dos variables.
Visualmente se puede buscar patrones que indiquen el tipo de relación que se da entre las variables.
• •
• •
• • •
•
•
• • • • •
• • •
• •
•
•
• • •
• •
• • • •
• • •
•
• •
•
• • •
•
• •
• • • •
• • •
•
•
•
• •
• • •
•
•
•
• • •
• •
• • •
•
•
•
•
• • • •
• • •
•
• • • • •
• • • •
• •
• • •
• • •
(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa
(d) Curvilinea inversa (e) Lineal inversacon más dispersión
(d) Ninguna relación
Y
X
Y
X
Y
X
Y
X
Y
X
Y
X
Relaciones posibles entre X y Y vistos en diagramas de dispersión
Aplicación
Los datos siguientes muestran las cantidades consumidas de complemento nutricional (en Kg.) y el aumento de peso de niños con signos de desnutrición.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE8 10 9 12 14 13 15 17 14 14
PESO : Y
Presente la información en un diagrama de dispersión
Procedimiento
1er Paso: Reúna pares de datos (X,Y), cuya relación desea estudiar y organice la información en una tabla.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg.: X
AUMENTO DE8 10 9 12 14 13 15 17 14 14
PESO : Y
2do Paso: Encuentre los valores mínimos y máximos para X e Y. Elija las escalas que se usarán en los ejes horizontal y vertical, de manera que ambas longitudes sean aproximadamente iguales, facilitando la lectura del diagrama.
0
5
10
15
20
0.0 2.0 4.0 6.0
3er Paso: Registre los datos en el gráfico. Cuando se obtengan los mismos valores en diferentes observaciones, muestre estos puntos haciendo círculos concéntricos (o), o registre el segundo punto muy cerca del primero.
0
5
10
15
20
0.0 2.0 4.0 6.0
4to Paso: Agregue toda la información que puede ser de utilidad para entender el diagrama, tal como: título del diagrama, período de tiempo, número de pares de datos, nombre de la variable y unidades de cada eje, entre otros.
Relación complemento nutricional y aumento de peso
0
5
10
15
20
0.0 2.0 4.0 6.0
Complemento nutricional (Kg)
Au
men
to d
e p
eso
(K
g)
LAS ECUACIONES LINEALES SIMPLES
Si dos variables, como X e Y, están relacionadas, se puede expresar como una relación, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuación se puede:
a) Calcular el valor de Y para cualquier valor dado de X
b) Conocer el cambio en Y, cuando X varía en 1
Valor Valor Cambio dado de Xcalculado de Y de Y
1 4,5 -2 6,0 1,53 7,5 1,54 9,0 1,55 10,5 1,5
Por ejemplo: Y = 3 + 1,5X
El aumento en Y, cuando X varía en una unidad, está dado por el coeficiente de X.
Ejemplo:
En Y = 10 + 2Xcuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8Xcuando X aumenta en 1, Y disminuye en 0,8
A) Tipos de VariablesEn una ecuación como Y = 30 + 3X, el valor de Y depende del valor que toma X, por eso a Y se le llama variable dependiente, y a X se le llama variable independiente.
Y = b0 + b1 X
VariableDependiente
VariableIndependiente
B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en igual sentido (aumentos o disminuciones), las variables están directamente relacionadas. Se observa el signo +
X
o
o
o
o
o
o
o
o
oYEjemplo:Y = 30 + 5X
Cuando cambios en X, provoca variaciones en Y en sentido inverso (X aumenta, Y disminuye o viceversa), las variables están inversamente relacionadas. Se observa en la ecuación el signo -.
o
o
o
o
o
o
o
o
X
YEjemplo:Y = 20 - 3X
La ecuación es de primer grado si la variable independiente está elevada al exponente 1. Su gráfica genera una línea recta (por lo que también se le llama ecuación lineal)
Ejemplo: Y = 30 + 4 X
C) Grado de la ecuación:
Si la variable independiente está elevada a un exponente diferente a 1, la ecuación toma el valor del exponente. Su gráfica no es una línea recta.
Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuación de segundo grado
Y = 3 + 7X + 5 X3 : ecuación de tercer grado
D) Ecuaciones simples y múltiples: Simples: Muestra la relación entre dos variables
Y = 30 + 2X
Y = 10 - 3X2
Múltiple: Muestra la relación entre tres o más variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W
D) Gráfica de una ecuación de primer grado:
Ejemplo: Y = 3 + 1,5X
Los cinco pares de valores se diagraman de la forma siguiente.
121110987654321
1 2 3 4 5
Y
.
X
.. . .
(1,4.5)
(4,9)
(3,7.5)
(2,6)
(5,10.5)
X 1 2 3 4 5Y 4 , 5 6 , 0 7 , 5 9 , 0 1 0 , 5
E) Forma general:
La ecuación simple de primer grado tiene la siguiente forma general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autónomo, es decir, Y = b0 cuando X = 0. En la gráfica es la intersección con el eje Y
Ejemplo:
Y = 3 + 1.5X .b0 = 3
Y
X
REGRESIÓN LINEAL SIMPLE
Es una técnica estadística que permite determinar la mejor ecuación que represente la relación entre dos variables relacionadas.
Para poder establecer la relación cuantitativa entre X e Y es necesario disponer de pares de observaciones. Cada par ha sido registrado a la misma unidad elemental.
A) Suposiciones de regresión y correlación
a) Normalidad: los valores de Y estarán distribuidos normalmente a cada valor de X.
b) Homoscedasticidad: la variación alrededor de la línea de regresión sea constante para todos los valores de X.
c) Independencia de error: el error (diferenciaresidual entre un valor observado y uno
estimado de Y) sea independientemente de cada valor de X.
d) Linealidad: la relación entre las variables es lineal.
La ecuación general = b0 + b1X se llama ecuación de regresión y permite estimar o predecir los valores de Y.
Es el procedimiento matemático utilizado para determinar los valores numéricos de los coeficientes de regresión: b0 y b1
Y
B) El método de Mínimos Cuadrados
Yi - Y = error
Min Y - Yi
2
El método consiste en determinar una ecuación que la suma de los errores al cuadrado sea mínima.
X
Y
Error= 2
2 4 6 8 10 12 14
10
8
6
4
2 • •
Error= -6•
Línea deestimación
.
. Y
El método utiliza un sistema de ecuación llamado ecuaciones normales, que tienen la siguiente forma:
Para aplicar las fórmulas, tenemos que confeccionar un cuadro como el siguiente:
2
10
10
XbXbXY
X b + nbY
YX XY 2X
X Y X2 XY
1.0 8.0 1.0 8.0
1.5 10.0 2.3 15.0
2.0 9.0 4.0 18.0
2.5 12.0 6.3 30.0
3.0 14.0 9.0 42.0
3.5 13.0 12.3 45.5
4.0 15.0 16.0 60.0
4.5 17.0 20.3 76.5
5.0 14.0 25.0 70.0
5.5 14.0 30.3 77.0
32.5 126.0 126.3 442.0
Sustituyendo los valores , n = 5,
y ,en las ecuaciones normales, obtenemos el siguiente sistema de ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479 b1= 1,576 ,por lo tanto,
0,261Y 5,23X 424XY 3,126
2X
1,576X7,479 Y
c) Interpretación
b0 = 7,478 : Es probable que un paciente desnutrido que no sea considerado dentro del Programa de Alimentación Complementaria tenga un peso de 7,478 Kg.
b1 = 1,576:Por cada Kg. del alimento complementario, se espera que probablemente el niño aumento su peso en 1,576 Kg.
D) Valor observado y valor estimado de Y
El valor observado (Yi) se refiere al nivel efectivo u observado de la variable Y (peso del niño), mientras que el valor estimado ( ), es el nivel estimado de la variable (peso esperado), obtenido utilizando la ecuación de regresión.
iY
X
Y
Valorestimado
Valorobservado
YiY..
xo
X Y
1.0 8.0 9.055
1.5 10.0 9.843
2.0 9.0 10.630
2.5 12.0 11.418
3.0 14.0 12.206
3.5 13.0 12.994
4.0 15.0 13.782
4.5 17.0 14.570
5.0 14.0 15.358
5.5 14.0 16.146
Y
Síntesis con que se comparan las medias o proporciones de dos muestras probabilísticas independientes
Comparación
Dos proporciones
Dos medias
Dos medias
¿Es cada n> 30?
Se usa t tomado de l tabla de distribución t para el nivel de significancia deseado
Sí No
El número de grados de libertad (g.l.)
Los valores críticos de son
Se usa Z tomada de la tabla de distribución normal para el nivel de significancia deseado
Los valores criticos de
son 21 XX
2
22
1
1
n
s
n
sz0
21 XX
2121
222
211
n
1
n
1
2nn
s1ns1nt0
Dos proporciones
Se usa Z tomada de la tabla de distribución normal para el nivel de significancia deseado
Los valores críticos de son
donde
21 PP
21 n
1
n
1P1PZ0
21
2211
nnPnPn
P
El Nivel Critico de la prueba estadística (p)
El significado de p: Es el valor de la probabilidad de rechazar la hipótesis nula cuando se supone que es verdadera y obtenida con los resultados de la muestra.
Si p > α No hay evidencia para rechazar Ho Si p < α Se rechaza Ho.
Nivel crítico de la prueba
Nivel crítico p = P[rechazar H0 con los resultados obtenidos en la muestra observada, bajo el supuesto de que H0 es verdadera]
Nivel crítico Indica que la diferencia encontrada Conclusión p > 0.05 Es no significativa y puede deberse No rechazar H0 al azar del muestreo
0.01< p 0.05 Es significativa y probablemente ya Rechazar H0
no se deba al azar del muestreo
p 0.01 Es muy significativa y probablemente Rechazar H0
se deba a que hay diferencias en la po- blación
Prueba T para la media de las diferencias (datos apareados)
Hipótesis:
a) H0: d = d0 H1: d d0
b) H0: d d0 H1: d > d0
c) H0: d d0 H1: d < d0 n
Sd
Td
d 0
El objetivo en las pruebas de comparaciones apareadas es eliminar un número máximo de fuentes de variación externa, haciendo a las parejas semejantes con respecto a las demás variables inherentes a los elementos de estudio, que podrían hacer variar el resultado esperado al margen del efecto del tratamiento.
En lugar de llevar a cabo el análisis con observaciones individuales, se utiliza como variable de interés la diferencia entre pares individuales de observaciones.
Estadística de la prueba
Prueba T para la media de las diferencias (datos apareados)
Se realizó un experimento para estudiar la efectividad de cierta dieta, combinada con un programa de ejercicio, en la reducción de los niveles de colesterol en suero en al menos 10 unidades. En el experimento participaron 12 personas. A continuación, se muestra los niveles de colesterol en suero, al principio del programa (Antes) y al final del mismo (Después).
38.12S ;00.18d d 38.12S ;00.18d d
N° Persona 1 2 3 4 5 6 7 8 9 10 11 12
Colesterol antes 181 210 201 237 207 216 297 214 218 243 258 190
Colesterol después 175 214 195 211 194 195 268 176 187 224 235 182
Diferencia di 6 -4 6 26 13 21 29 38 31 19 23 8
Prueba T para la media de las diferencias (datos apareados)
H0: d 10
La dieta no es efectiva para reducir los niveles de colesterol en suero en al menos 10 unidades
H0: d > 10
La dieta es efectiva para reducir los niveles de colesterol en suero en al menos 10 unidades
24.212/38.12
1000.18
n/S
dT
d
d 24.212/38.12
1000.18
n/S
dT
d
d p=0.0234
t(11)2.24
La dieta combinada con un programa de ejercicios es efectiva para reducir los niveles de colesterol en suero en al menos 10 unidades (p < 0.05)
PRUEBA DE DOS COLASPRUEBA DE DOS COLAS
Región de rechazo
0.025
Escala de t0-1.96
Valor crítico
Región de rechazo
0.025
-1.96Valor crítico
0.95
Región de aceptación H0
=o oT<-t1-/2 o T> t1-/2
Cuando n es mayor a 200
La Prueba Ji-CuadradoDistribución Ji-Cuadrado
n21 Z , ... , Z , ZSupóngase que se tiene una serie de variables aleatorias independientes con distribución normal estándar, , entonces la variable aleatoria
, sigue una distribución Ji-Cuadrado.
2n
21 Z...ZX
FUNCIÓN DE DENSIDAD MEDIA Y VARIANZA.
2χ
Hipótesis nula:Las variables son independientes
Se construye o se obtiene una tabla de tabulación cruzada para las frecuencias reales
observadas (Oij )
Procedimientos para usar el análisis de ji cuadrada y Procedimientos para usar el análisis de ji cuadrada y probar la independencia de dos variables nominales probar la independencia de dos variables nominales
Suponiendo que las variables son independientes, se construye una tabla de
tabulación cruzada para las frecuencias teóricas ( Eij)
Se determina el nivel de significado deseado en la prueba.
Se determina el valor calculado del estadístico ji
cuadrada
r
1i
c
1j ij
2ijij2
E
EO
Tabla 4. Distribución de ji-cuadrado
Probabilidad de un valor superior
Grados de libertad 0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
Uso de la tabla
α]χχ[P 2n,α
2
2n,αχ
αEl área sombreada de naranja representa la probabilidad que se determinada por , donde:
es el valor critico del margen superior de la tabla, y
son los grados de libertad del margen izquierdo de la tabla.
n
Tabla 4. Distribución de ji-cuadrado
Probabilidad de un valor superior
Grados de libertad 0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
Uso de la tabla Ji-Cuadrado
10.0]10n | χ99.15 [ P 2
05.0]5n | χ07.11 [ P 2
Martha Revilla, directora de mantenimiento de la calidad en MEGA, elige 29 bicicletas y halla una varianza en la distancia entre ejes de 32.7 pulgadas cuadradas. Si la señora Revilla tienen que garantizar que la variación no supere 27 pulgadas cuadradas ¿indica esto que se cumplen las normas de producción? (α=0.05)
EJEMPLOEJEMPLO
HipótesisHipótesisHipótesisHipótesis 27H 27H 21
20 27H 27H 2
12
0
Prueba de una cola a la derechaPrueba de una cola a la derecha
277.32s
29n
2
2
91.33
277.32129s1n
2
22
91.33
277.32129s1n
2
22
0.05
41.33733.91
2
2f
Como X2=33.91<41.337 la señora Revilla no rechazará la H0 y confiará al 95% en que se cumplen las normas de producción
Como X2=33.91<41.337 la señora Revilla no rechazará la H0 y confiará al 95% en que se cumplen las normas de producción
337.41228;05.0 337.412
28;05.0
¿Que pasaría, si las instrucciones de la señora Revilla fueran que la variación se mantuviera inferior a 27 pulgadas cuadradas?
27H 27H 21
20 27H 27H 2
12
0
Prueba de una cola a la izquierdaPrueba de una cola a la izquierda
33.91
2
2f
0.05
X2 =33.91, la señora Revilla no rechazará la H0 y confiará al 95% en que se cumplen las normas de producción
X2 =33.91, la señora Revilla no rechazará la H0 y confiará al 95% en que se cumplen las normas de producción
16.928
928.16228;95.0 928.162
28;95.0
La señora Revilla, ahora elabora un intervalo de confianza del 90% para la varianza de la distancia entre ejes.
16.928 2
2f
0.05
Revilla puede confiar al 90% en que la varianza de la distancia entre ejes se encuentra entre 22.15 y 54.09 pulgadas cuadradas
Revilla puede confiar al 90% en que la varianza de la distancia entre ejes se encuentra entre 22.15 y 54.09 pulgadas cuadradas
0.050.90
41.3370.95
2
28;95.0
22
228;05.0
2 s1ns1n
228;95.0
22
228;05.0
2 s1ns1n
09.5415.22
928.167.32129
337.417.32129
2
2
09.5415.22
928.167.32129
337.417.32129
2
2
Prueba Ji-Cuadrado para comparación de proporciones
Grupo Categ. 1 ...... Categ. s Muestra
Grupo 1 O11 ...... O1s n1
......... ....... ...... ....... .....
Grupo r Or1 ...... Ors nr
Total C1 ...... Cs n
H0: La proporción de elementos en cada categoría es la misma para todos los grupos (los grupos son
homogéneos).
Prueba Ji-Cuadrado para comparación de proporciones
Estadística
0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
G r u p o 1 G r u p o 2 G r u p o 3 G r u p o 4
C a t . 1
C a t . 2
r
i
c
j ij
ijij
E
)EO(X
1 1
22
n
CnE,donde ji
ij
21
2x
.C.R
Ejemplo de Prueba Ji-Cuadrado para comparación de proporciones
Se supone que se tienen datos experimentales correspondientes a 300
individuos de los que se ha recogido el valor que presentan en dos
variables cualitativas Var1 (de 2 niveles: Cat1 / Cat2) y Var2 (de 4 niveles:
Grupo 1 / Grupo 2 / Grupo 3 / Grupo 4), para comparar la distribución por
grupos entre las categorías. Los datos se presentan en la Tabla:
Var1 / Var2 Cat1 Cat2 Total
Grupo 1 62 88 150
Grupo 2 46 64 110
Grupo 3 12 20 32
Grupo 4 6 2 8
Total 126 174 300
H1: Hay diferencia, en la distribución por grupos, entre las categorías.
H1: Hay diferencia, en la distribución por grupos, entre las categorías.
Var1 / Var2 Cat1 Cat2 Total
Grupo 1 63.063.0 87.087.0 150Grupo 2 46.246.2 63.863.8 110Grupo 3 13.413.4 18.618.6 32Grupo 4 3.43.4 4.64.6 8
Total 126 174 300
H0: No hay diferencia, en la distribución por grupos, entre las categorías.
H0: No hay diferencia, en la distribución por grupos, entre las categorías.
Frecuencias Esperadas:
n
CnE ji
ij n
CnE ji
ij
0.63
300126150
nCn
E 1111 Por ejemplo:
Estadística
0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
G r u p o 1 G r u p o 2 G r u p o 3 G r u p o 4
C a t . 1
C a t . 2
4
1i
2
1j ij
2ijij2
E
)EO(
n
CnE,donde ji
ij
21
205.0
.C.R
871.330052
...6362
nE
O
E
EO
22
4
1i
2
1j ij
2ij
4
1i
2
1j ij
2ijij2
871.330052
...6362
nE
O
E
EO
22
4
1i
2
1j ij
2ij
4
1i
2
1j ij
2ijij2
Que sigue una distribución Ji-cuadrado con (n-1)*(C-1)=( 4-1)*(2-1)=3 grados de libertad
Que sigue una distribución Ji-cuadrado con (n-1)*(C-1)=( 4-1)*(2-1)=3 grados de libertad
276.0871.3Pp 23 276.0871.3Pp 2
3
En conclusión, no se ha encontrado diferencia significativa, en la distribución por grupo, para cada categoría (p 0.05)
En conclusión, no se ha encontrado diferencia significativa, en la distribución por grupo, para cada categoría (p 0.05)
Prueba Ji-Cuadrado de Independencia
Y
X Categ. 1 ...... Categ. s Total
Cat. 1 O11 ...... O1s R1
......... ....... ...... ....... .....
Cat. r Or1 ...... Ors Rr
Total C1 ...... Cs n
H0: Las variables X e Y son independientes H1: Existe asociación entre X e Y
Prueba Ji-Cuadrado de Independencia
Estadística
0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
A l t o M e d i o B a j o
S i N o
r
1i
c
1j ij
2ijij2
E
)EO(
n
CRE,donde ji
ij
21
2
.C.R
Ejemplo de Prueba Ji-Cuadrado de independencia
Para verificar la suposición de que la fabricación de cierto producto está asociado con enfermedades respiratorias, a 450 trabajadores de una empresa que fabrica el producto se evaluó respecto a la presencia de síntomas de alteraciones respiratorias y se los clasificó a su vez de acuerdo al nivel de exposición al producto. Los resultados se presentan en la tabla siguiente:
Presencia de Síntoma
Nivel de ExposiciónTotal
Alto Medio Bajo
Si 175 43 27 245
No 90 60 55 205
Total 265 103 82 450
H1: Las alteraciones respiratorias están asociadas a la exposición al producto
H1: Las alteraciones respiratorias están asociadas a la exposición al producto
H0: Las alteraciones respiratorias son independientes de la exposición al producto.
H0: Las alteraciones respiratorias son independientes de la exposición al producto.
Frecuencias Esperadas:
n
CRE ji
ij n
CRE ji
ij
4.37
45082205
nCR
E 3223 Por ejemplo:
Presencia de Síntoma
Nivel de ExposiciónTotal
Alto Medio Bajo
Si 144.3144.3 56.156.1 44.644.6 245
No 120.7120.7 46.946.9 37.437.4 205
Total 265 103 82 450
Estadística
0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
A l t o M e d i o B a j o
S i N o
2
1i
3
1j ij
2ijij2
E
)EO(
n
CRE,donde ji
ij
21
205.0
.C.R
4.364504.37
55...
3.144175
nE
O
22
2
1i
3
1j ij
2ij2
4.364504.37
55...
3.144175
nE
O
22
2
1i
3
1j ij
2ij2
Que sigue una distribución Ji-cuadrado con (n-1)*(C-1)=( 2-1)*(3-1)=2 grados de libertad
Que sigue una distribución Ji-cuadrado con (n-1)*(C-1)=( 2-1)*(3-1)=2 grados de libertad
005.0250.000000014.36Pp 22 005.0250.000000014.36Pp 2
2
En conclusión, se rechaza la H0 (p < 0.05), es decir las alteraciones respiratorias están asociadas a la exposición al producto
En conclusión, se rechaza la H0 (p < 0.05), es decir las alteraciones respiratorias están asociadas a la exposición al producto
Distribución F de SnedecorSi y son variables Ji-cuadrado distribuidas en forma independiente con y grados de libertad, respectivamente, la variable
sigue la distribución F con y grados de libertad.
2X
22
11
kZkZ
F 1X
1k 2k
1k 2k
Tabla F de Fisher
α=0.05 con letra normal.
α=0.01 con letra negrita
Ejemplo de uso de la tabla F de Fisher
Ejemplo de Aplicación
De dos aulas de 5ª año de secundaria se tomaron muestras de tamaños 10 y 15 de las notas promedios de alumnos para probar si la dispersión de las notas es la misma para las dos aulas. Los resultados obtenidos son los siguientes:
Aula 1: 15, 16, 12, 14, 14, 15, 16, 13, 14, 15. Aula 2: 12, 14, 15, 16, 16, 17, 15, 16, 18, 14, 12, 15, 16, 14, 13.
40.14x1
87.14x2 600.1S2
1
981.2S22
10n1
15n2
Deseamos probar las hipótesis:
22
210 :H 2
2211 :H
Luego
Si , entonces para las cuantilas y
5367.0981.2600.1
F 05.0
)14,9(F 2/ 2/1
26.0F )14,9( 025.0 21.3F )14,9( 025.0
025.0 025.0
5367.0
Luego concluimos que la dispersión de las notas entre los alumnos para las dos aulas de 5ª año son las mismas, pues no se encuentra diferencia significativa.
26.0 21.3
La compañía llantera Good Year del Perú, ha efectuado un estudio sobre los hábitos de manejo de varios grupos ocupacionales. En una muestra de 35 profesores universitarios, el número promedio de kilómetros recorridos al año fue de 14,500 con una desviación standart de 3,200 km. En una muestra de 40 dentistas, el kilometraje fue de 13,400, con una desviación standart de 1,950 km.
EJEMPLOEJEMPLO
Se tieneSe tieneSe tieneSe tiene04n ,950,1s ,450,13X
35n ,200,3s ,500,14X
222
111
Primero se verificará la condición siguiente: 1 2
04n 3802500,s ,950,1s ,450,13X35n 10240000,s ,200,3s ,500,14X
22122
12111
Planteamos las Hipótesis:
22
211
22
210 :H :H
22
211
22
210 :H :H
693.23802500
10240000F 693.2
380250010240000
F
Para α=0.05
0.515
0.0250.95
1.9
0.025
9.1F )39,34( 975.0 515.0F )39,34( 025.0
Se rechaza la H0, es decir que 1 2 Se rechaza la H0, es decir que 1 2
2.693
Valores críticosValores críticosValores críticosValores críticos
3.220,10
6.62296.10s*Z0
21 XX
3.220,106.62296.10
s*Z021 XX
211210 :H :H 211210 :H :H
6.62240950,1
35200,3
ns
ns
s22
2
22
1
21
XX 21
6.622
40950,1
35200,3
ns
ns
s22
2
22
1
21
XX 21
Y los valores críticos son: -1,220.3 y +1,220.3Y los valores críticos son: -1,220.3 y +1,220.3Y los valores críticos son: -1,220.3 y +1,220.3Y los valores críticos son: -1,220.3 y +1,220.3
Diferencia de lasmedias muestrales .Km050,1450,13500,14XX 21
Luego, se prueba la hipótesis:
-1220.3Valor critico
+1220.3Valor critico
+1050 = diferencia observada entre las medias muestrales.
millas 6.622s
2X1X
021 XX
Z= -1.96 Z= +1.96Área =0.025Área =0.025
Se Rechaza Se Rechaza
Se acepta la hipótesis nula
Ejercicio
Como la diferencia entre las medias muestrales es de 1050 millas y se acepta un margen de error de 1220 millas, en consecuencia, no hay diferencias significativas entre los dos grupos
Freddy Lopez, operador de la cadena de restaurantes “Las Tejas””, ha hecho una encuesta entre los clientes en dos ciudades, pues desea averiguar si les gustaría que en el menú se incluyeran sandwiches de jamón y queso. De las 500 personas encuestadas en la capital, 200 contestaron afirmativamente, mientras que 150 de las 300 encuestadas en una ciudad cercana también contestaron afirmativamente. Freddy quiere saber si, en un nivel de 0.05 esos resultados son significativamente diferente.
EJEMPLOEJEMPLO
En resumenEn resumenEn resumenEn resumen030n ,50.0300/150P
500n ,40.0500/200P
22
11
Primero se determinará si se cumple lo siguiente: 1 ≠ 2
Se tieneSe tieneSe tieneSe tiene
Planteamos las Hipótesis:
22
211
22
210 :H :H
22
211
22
210 :H :H
576.00.000830.00048
F 576.00.000830.00048
F
00083.0
30050.050.0
s ,030n ,50.0300/150P
00048.0500
60.040.0s 500,n ,40.0500/200P
2222
2111
Para α=0.05
0.0250.95
0.576
0.025
228.1F )299,499( 975.0 8184.0F )299,499( 025.0
Se rechaza la H0, es decir que 1 ≠ 2 Se rechaza la H0, es decir que 1 ≠ 2
0.8184 1.228
Valores críticosValores críticosValores críticosValores críticos
071.000362.096.10
s*Z021 PP
071.000362.096.10
s*Z021 PP
211210 P P :H P P :H 211210 P P :H P P :H
0362.0n1
n1
P1Ps
n,n de valoreslos como asi
s de fórmula laen 0.4375 p mplazandoRe
4375.0300500
50.030040.0500nn
PnPnP
21PP
21
PP
21
2211
21
21
0362.0n1
n1
P1Ps
n,n de valoreslos como asi
s de fórmula laen 0.4375 p mplazandoRe
4375.0300500
50.030040.0500nn
PnPnP
21PP
21
PP
21
2211
21
21
Y los valores críticos son: -0.071 y +0.071Y los valores críticos son: -0.071 y +0.071Y los valores críticos son: -0.071 y +0.071Y los valores críticos son: -0.071 y +0.071
Diferencia de lasproporciones muestrales
10.050.040.0PP 21
Luego, se prueba la hipótesis:
Se acepta la hipótesis nula
Se rechaza Se rechaza
Z= -1.96 Z= +1.96Área =0.025Área =0.025
021 PP
0362.0s21 PP
-0.071Valor critico
+0.071Valor critico
Diferencia observada entre las proporciones muestrales = (0.40-.050) =-0.10
Ejercicio
Como la diferencia entre las proporciones muestrales es de -0.10 y se acepta un margen de error de 0.0710.071, en consecuencia, si hay diferencias significativas entre los dos grupos