Download - Trabajo de factorial
UNIVERSIDAD DE ORIENTENÚCLEO NUEVA ESPARTA
ESCUELA DE HOTELERÍA Y TURISMOLICENCIATURA EN ESTADÍSTICA
CÁTEDRA: ANÁLISIS MULTIVARIANTE II
Bachilleres:
Br. Velásquez, Anyely C.I: 17.848.310
Br. Quijada, Marianny C.I: 18.940.660
Guatamare, Marzo del 2011
INTRODUCCIÓN
El Análisis Factorial según García, Gil y Rodríguez, (2000) “Es una técnica
estadística multivariante cuyo principal propósito es sintetizar las interrelaciones
observadas entre un conjunto de variables en una forma concisa y segura como una
ayuda a la construcción de nuevos conceptos y teorías”. Para ello utiliza un conjunto
de variables aleatorias inobservables llamados factores comunes, de forma que todas
las covarianzas o correlaciones son explicadas por dichos factores y cualquier porción
de la varianza inexplicada por los factores comunes se asigna a términos de error
residuales llamados factores únicos o específicos.
Este análisis busca el estudio de la estructura de las interrelaciones entre un
gran número de variables no exigiendo ninguna distinción entre variables
dependientes e independientes. Utilizando esta información, calcula un conjunto de
dimensiones latentes, conocidas como factores, que buscan explicar dichas
interrelaciones. En esta técnica de reducción de datos si se cumplen sus hipótesis, la
información contenida en la matriz de datos puede expresarse, sin mucha distorsión,
en un número menor de dimensiones representadas por dichos factores.
PLANTEAMIENTO DEL PROBLEMA
De cierta industria productora de café, se tomaron 90 datos relacionados con
tres condiciones del mismo (óptimo, punto fermento y fermentado), con el fin de
llevar un estudio que permita conocer la relación existente de un conjunto de
variables físico-químicas: Soluble e Insoluble, Acidez, Humedad y Ph observadas en
los tipos del café. Además saber el comportamiento global de estas variables y el
efecto que éstas producen en los tipos de café. Para lograr esto se realizará un análisis
factorial para posteriormente emitir conclusiones válidas con respecto a la situación
de estudio.
VARIABLES EN ESTUDIO PARA EL ANÁLISIS FACTORIAL:
OBJETIVOS
Aplicar un Análisis Factorial para agrupar variables físico-químicas que estén
relacionadas para la condición del café.
MARCO TEORICO
Variables Físico-Químicas
Solubles Insolubles Acidez Humedad PH
Análisis factorial
El Análisis Factorial es una técnica estadística multivalente cuyo principal
propósito es sintetizar las interrelaciones observadas entre un conjunto de variables en
una forma concisa y segura como una ayuda a la construcción de nuevos conceptos y
teorías. Para ello utiliza un conjunto de variables aleatorias inobservables, que
llamaremos factores comunes, de forma que todas las covarianzas o correlaciones son
explicadas por dichos factores y cualquier porción de la varianza inexplicada por los
factores comunes se asigna a términos de error residuales que llamaremos factores
únicos o específicos. El Análisis Factorial puede ser exploratorio o confirmatorio. El
análisis exploratorio se caracteriza porque no se conocen a priori el número de
factores y es en la aplicación empírica donde se determina este número. Por el
contrario, en el análisis de tipo confirmatorio los factores están fijados a priori,
utilizándose contrastes de hipótesis para su corroboración.
El modelo matemático del Análisis Factorial es parecido al de la regresión
múltiple. Cada variable se expresa como una combinación lineal de factores no
directamente observables.
Xij = F1i ai1 + F2i ai2+....+Fki aik + Vi
Siendo:
Xij la puntuación del individuo i en la variable j .
Fij son los coeficientes factoriales.
aij son las puntuaciones factoriales.
Vi es el factor único de cada variable.
Un análisis factorial resultará adecuado cuando existan altas correlaciones entre
las variables, que es cuando podemos suponer que se explican por factores comunes.
El análisis de la matriz de correlaciones será pues el primer paso a dar.
Analíticamente, podemos comprobar el grado de correlación con las siguientes
pruebas o test:
Test de esfericidad de Bartlett.
Es necesario suponer la normalidad de las variables. Contrasta la H0 de que la
matriz de correlaciones es una matriz identidad (incorrelación lineal entre las
variables). Si, como resultado del contraste, no pudiésemos rechazar esta H0, y el
tamaño de la muestra fuese razonablemente grande, deberíamos reconsiderar la
realización de un AF, ya que las variables no están correlacionadas.
El estadístico de contraste del test de Bartlett es:
B=-(n-1-(2p+5)/6)ln|R* |
bajo la hipótesis nula resulta X 2(p2 - p)/2
donde:
p es el número de variables y
| R* | es el determinante de la matriz de correlaciones muestrales.
Índice KMO de Kaiser, Meyer y Olkin
El KMO es un índice útil para comparar los valores de los coeficientes de
correlación observados con los coeficientes de correlación parcial, de tal forma que
valores pequeños indican que el análisis de componentes principales no es
aconsejable. George y Mallery (1995) recomiendan como límite de aceptación de este
índice KMO valores superiores al 0,5.
Índice KMO de Kaiser-Meyer-Olkin:
Fórmula KMO=∑i ≠ j
∑j ≠i
rij2
∑i≠ j
∑j ≠i
rij2 +∑
i≠ j∑j ≠ i
aij2
donde...
rij= correlación simple.
aij= correlación parcial.
Para mayor exactitud Kaiser (1974), propone la siguiente interpretación para
los valores KMO: 0,90 maravilloso o muy bueno; 0,80 meritorio; 0,70 medio o
normal; 0,60 mediocre; 0,50despreciable o bajo; y un valor menor que 0,50
totalmente inaceptable.
Fases del Análisis Factorial
1. Extracción de los factores comunes.
2. Rotación de los factores con objeto de facilitar su interpretación.
3. Puntuaciones factoriales.
Extracción de Factores Comunes
Existen distintos métodos de estimación de los coeficientes de la matriz
factorial: los más comunes (para un AF exploratorio) son el método de las
Componentes Principales y el método de Ejes Factoriales.
Método 1: AF de Componentes Principales (ACP)
El método de componentes principales se basa en suponer que los factores
comunes explican el comportamiento de las variables originales en su totalidad.
Las comunalidades iniciales de cada variable son igual a 1, porque el 100% de
la variabilidad de las p variable se explicará por los p factores. Evidentemente,
carecería de interés sustituir las p variables originales por p factores que, en
ocasiones, son de difícil interpretación. No obstante, si las correlaciones entre las p
variables fuesen muy altas, sería de esperar que unos pocos factores explicasen gran
parte de la variabilidad total. Supongamos que decidimos seleccionar r factores. La
comunalidad final de cada variable indicará la proporción de variabilidad total que
explican los r factores finalmente seleccionados. La estimación de los
coeficientes l j se obtiene diagonalizando la matriz de correlaciones.
Método 2: AF de Ejes Factoriales (PAF)
En este método partimos de la base de que sólo una parte de la variabilidad
total de cada variable depende de factores comunes y, por tanto, la comunalidad
inicial no será 1. Estima dichas comunalidades mediante los coeficientes de
determinación múltiple de cada variable con el resto. Se sustituyen estos valores en la
diagonal principal de la matriz R* y se procede a efectuar un ACP. Una vez obtenido
el resultado, se estiman de nuevo las comunalidades, se vuelven a sustituir en la
diagonal principal de la matriz R* y el proceso se retroalimenta hasta alcanzar un
criterio de parada (por ejemplo cuando la diferencia entre lasa comunalidades de dos
iteraciones sucesivas sea menor que una cantidad prefijada).
La elección de uno u otro método (ACP o PAF) depende de los objetivos
del AF. Así el ACP es adecuado cuando el objetivo es resumir la mayoría de la
información original (varianza total) con una cantidad mínima de factores con
propósitos de predicción. El AFC resulta adecuado para identificar los factores
subyacentes o las dimensiones que reflejan qué tienen en común las variables. El
inconveniente del método PAF es que el cálculo de las comunalidades requiere
mucho tiempo y muchos recursos informáticos y, además, no siempre se pueden
estimar o, incluso, pueden ser no válidas (comunalidades menores que 0 o mayores
que 1).
ANALISIS DE RESULTADOS
Para llevar a cabo un análisis factorial se debe verificar la adecuación del
modelo y esto se mide a través del indicador KMO.
Según el KMO (Tabla Nº 1) se puede aplicar adecuadamente el análisis
factorial ya que este se encuentra en el rango de buenos resultados y además el
estadístico Ji-Cuadrado es significativo (p<0.05).
TABLA Nº 1: Medida de Adecuación de Kaiser-Meyer-Olkin (KMO)
Fuente: Salida generada por el paquete de Computo SPSS. Versión 15.0
Todas las variables tienen una correlación anti-imagen mayor a 0,5 (Tabla Nº2),
es decir, que todas ellas deben permanecer en el análisis. Estas correlaciones se
observan en la diagonal de la matriz.
TABLA Nº 2: Matriz Anti-Imagen
KMO y prueba de Bartlett
,834
309,848
10
,000
Medida de adecuación muestral deKaiser-Meyer-Olkin.
Chi-cuadradoaproximado
gl
Sig.
Prueba de esfericidadde Bartlett
Matrices anti-imagen
,367 ,224 -,059 -,052 ,012
,224 ,441 -,002 -,004 -,053
-,059 -,002 ,255 -,086 ,144
-,052 -,004 -,086 ,385 ,096
,012 -,053 ,144 ,096 ,253
,825a ,556 -,193 -,138 ,039
,556 ,812a -,005 -,010 -,158
-,193 -,005 ,821a -,275 ,566
-,138 -,010 -,275 ,901a ,308
,039 -,158 ,566 ,308 ,820a
solubles
INSOLUBLES
acidez
humedad
ph
solubles
INSOLUBLES
acidez
humedad
ph
Covarianza anti-imagen
Correlación anti-imagen
solubles INSOLUBLES acidez humedad ph
Medida de adecuación muestrala.
Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0
En cuanto a las comunalidades se puede decir que la proporción de varianza
explicada por los factores comunes es alta (Tabla Nº 3), con valores que varían entre
0,611 y 0,806.
TABLA Nº 3: Comunalidades
Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0
Para seleccionar el numero de factores no hay un criterio único, solo hay unos
criterios subjetivos. Algunos autores recomiendan como primer paso tomar un
conjunto inicial de factores de acuerdo a los criterios de selección de componentes
principales. El criterio más usado es que las componentes principales expliquen al
menos un 70% de la variabilidad de los datos.
De acuerdo a este criterio se toma un factor ya que este explica más del 70%
(72,92%), de la varianza inicial de las variables originales. (Tabla Nº 4).
TABLA Nº 4: Varianza inicial de las variables originales
Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0
Sin embargo a al momento de seleccionar el número de componentes
principales se debe tomar en cuenta otros criterios como el de revisar el número de
residuales que en valor absoluto sea mayor a 0,05, y establecen que esta cantidad no
debe superar al 20%.
Debido al porcentaje de residuales no redundantes (Tabla Nº 5), este único
factor explicado por el 72, 92% de varianza no es adecuado ya que el porcentaje de
estos residuales es mayor (70% > 20%) y hay residuales mayores a 0,05. Por lo tanto
se debe incluir otro factor para verificar el comportamiento de estos residuales.
TABLA Nº 5: Residuales no Redundantes
Varianza total explicada
3,646 72,920 72,920 3,646 72,920 72,920
,652 13,041 85,961
,284 5,678 91,639
,259 5,176 96,815
,159 3,185 100,000
Componente1
2
3
4
5
Total% de lavarianza % acumulado Total
% de lavarianza % acumulado
Autovalores inicialesSumas de las saturaciones al cuadrado
de la extracción
Método de extracción: Análisis de Componentes principales.
Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0
Al incluir un segundo factor se observa que el porcentaje de varianza, (Tabla Nº
6) aumentó a 85,96%.
TABLA Nº 6: Varianza inicial de las variables originales al incluir un segundo
factor
Correlaciones reproducidas
,714b -,661 ,714 -,758 ,756
-,661 ,611b -,661 ,702 -,700
,714 -,661 ,714b -,758 ,756
-,758 ,702 -,758 ,806b -,803
,756 -,700 ,756 -,803 ,801b
-,071 -,116 ,121 -,102
-,071 ,156 -,118 ,141
-,116 ,156 ,011 -,013
,121 -,118 ,011 -,033
-,102 ,141 -,013 -,033
solubles
INSOLUBLES
humedad
ph
acidez
solubles
INSOLUBLES
humedad
ph
acidez
Correlación reproducida
Residuala
solubles INSOLUBLES humedad ph acidez
Método de extracción: Análisis de Componentes principales.
Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (70,0%) residualesno redundantes con valores absolutos mayores que 0,05.
a.
Comunalidades reproducidasb.
Varianza total explicada
3,646 72,920 72,920 3,646 72,920 72,920 2,471 49,425 49,425
,652 13,041 85,961 ,652 13,041 85,961 1,827 36,535 85,961
,284 5,678 91,639
,259 5,176 96,815
,159 3,185 100,000
Componente1
2
3
4
5
Total% de lavarianza % acumulado Total
% de lavarianza % acumulado Total
% de lavarianza % acumulado
Autovalores inicialesSumas de las saturaciones al cuadrado
de la extracciónSuma de las saturaciones al cuadrado
de la rotación
Método de extracción: Análisis de Componentes principales.
Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0
El porcentaje de residuales no redundantes disminuyó a 30% y solo hay 3
residuales mayor a 0,05, lo que indica que sigue superando al 20%. (Tabla Nº 7). Por
lo tanto no se puede incluir un tercer factor ya que esto ocasionaría carga alta en una
sola variable (> 0,5) y los factores serian triviales. Sin embargo, Dalas Johnson
establece otro criterio donde sugiere que no debe haber muchos residuales en valores
absolutos mayores a 0,25 o unos cuantos mayores a 0,40. Este criterio si se cumple en
estos residuales (hay 18 residuales menores a 0,25), es decir, que es conveniente
seleccionar solo dos factores. (Tabla Nº 7).
TABLA Nº 7: Residuales no Redundantes al incluir un segundo factor
Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0
Al incluirse este segundo factor la proporción de varianza explicada por los
factores comunes aumentó con respecto a la primera (Tabla Nº 8), con valores que
varían entre 0,821 y 0,901. Es decir, que esta varianza explicada por los factores
comunes es alta.
TABLA Nº 8: Comunalidades al incluir un segundo factor
Correlaciones reproducidas
,844b -,855 ,596 -,670 ,664
-,855 ,901b -,485 ,570 -,562
,596 -,485 ,821b -,838 ,840
-,670 ,570 -,838 ,865b -,866
,664 -,562 ,840 -,866 ,867b
,123 ,002 ,033 -,009
,123 -,020 ,014 ,003
,002 -,020 ,091 -,097
,033 ,014 ,091 ,030
-,009 ,003 -,097 ,030
solubles
INSOLUBLES
humedad
ph
acidez
solubles
INSOLUBLES
humedad
ph
acidez
Correlación reproducida
Residuala
solubles INSOLUBLES humedad ph acidez
Método de extracción: Análisis de Componentes principales.
Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 3 (30,0%) residualesno redundantes con valores absolutos mayores que 0,05.
a.
Comunalidades reproducidasb.
Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0
Nota: El KMO no aumentó ni disminuyó al incluirse un segundo factor.
Para este análisis no existen factores triviales, es decir, carga alta (> 0,5) en
una sola variable (Tabla Nº 9). El factor 1 está relacionado con las variables
Humedad, Acidez y Ph, con cargas factoriales 0,863; 0,858 y -0,853 respectivamente,
donde la variable Humedad y Acidez se contraponen (signos opuestos en las cargas
factoriales) con la variable Ph. Este factor indica las propiedades químicas del café.
El factor 2 se relaciona con las variables Solubles e insolubles con cargas
factoriales altas 0,810 y -0,909 respectivamente, donde la variable soluble se
contrapone con la variable insoluble. Este factor indica las propiedades físicas del
café.
TABLA Nº 9: Matriz de componentes rotados
Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0
CONCLUSIÓN
Las variables físico-químicas: Soluble e Insoluble, Acidez, Humedad y Ph
resultaron agrupadas en dos (2) factores. Donde el factor 1 representa las propiedades
químicas del café (Humedad, Acidez y Ph), mientras que el factor 2 las propiedades
físicas.
BIBLIOGRAFÍA
GARCIA JIMÉNEZ, E.; GIL FLORES, J. y RODRIGUEZ GOMEZ,
G. (2000). Análisis Factorial. Cuadernos de Estadística.
Editorial La Muralla. WWW.tgrajales.net/estfactorial.pdf
JHONSON, D. (1998). “Métodos Multivariados
Aplicados al Análisis de Datos”. Internacional Thomson
Publishing. Primera Edición.
JOHN POULSEN. (2001) “Análisis Multivariante de
La Varianza”
http://userwww.sfsu.edu/~efc/classes/biol710/
manova/manovanew.
htm.