Download - Trabajo de factorial

UNIVERSIDAD DE ORIENTENÚCLEO NUEVA ESPARTA

ESCUELA DE HOTELERÍA Y TURISMOLICENCIATURA EN ESTADÍSTICA

CÁTEDRA: ANÁLISIS MULTIVARIANTE II

Bachilleres:

Br. Velásquez, Anyely C.I: 17.848.310

Br. Quijada, Marianny C.I: 18.940.660

Guatamare, Marzo del 2011

INTRODUCCIÓN

El Análisis Factorial según García, Gil y Rodríguez, (2000) “Es una técnica

estadística multivariante cuyo principal propósito es sintetizar las interrelaciones

observadas entre un conjunto de variables en una forma concisa y segura como una

ayuda a la construcción de nuevos conceptos y teorías”. Para ello utiliza un conjunto

de variables aleatorias inobservables llamados factores comunes, de forma que todas

las covarianzas o correlaciones son explicadas por dichos factores y cualquier porción

de la varianza inexplicada por los factores comunes se asigna a términos de error

residuales llamados factores únicos o específicos.

Este análisis busca el estudio de la estructura de las interrelaciones entre un

gran número de variables no exigiendo ninguna distinción entre variables

dependientes e independientes. Utilizando esta información, calcula un conjunto de

dimensiones latentes, conocidas como factores, que buscan explicar dichas

interrelaciones. En esta técnica de reducción de datos si se cumplen sus hipótesis, la

información contenida en la matriz de datos puede expresarse, sin mucha distorsión,

en un número menor de dimensiones representadas por dichos factores.

PLANTEAMIENTO DEL PROBLEMA

De cierta industria productora de café, se tomaron 90 datos relacionados con

tres condiciones del mismo (óptimo, punto fermento y fermentado), con el fin de

llevar un estudio que permita conocer la relación existente de un conjunto de

variables físico-químicas: Soluble e Insoluble, Acidez, Humedad y Ph observadas en

los tipos del café. Además saber el comportamiento global de estas variables y el

efecto que éstas producen en los tipos de café. Para lograr esto se realizará un análisis

factorial para posteriormente emitir conclusiones válidas con respecto a la situación

de estudio.

VARIABLES EN ESTUDIO PARA EL ANÁLISIS FACTORIAL:

OBJETIVOS

Aplicar un Análisis Factorial para agrupar variables físico-químicas que estén

relacionadas para la condición del café.

MARCO TEORICO

Variables Físico-Químicas

Solubles Insolubles Acidez Humedad PH

Análisis factorial

El Análisis Factorial es una técnica estadística multivalente cuyo principal

propósito es sintetizar las interrelaciones observadas entre un conjunto de variables en

una forma concisa y segura como una ayuda a la construcción de nuevos conceptos y

teorías. Para ello utiliza un conjunto de variables aleatorias inobservables, que

llamaremos factores comunes, de forma que todas las covarianzas o correlaciones son

explicadas por dichos factores y cualquier porción de la varianza inexplicada por los

factores comunes se asigna a términos de error residuales que llamaremos factores

únicos o específicos. El Análisis Factorial puede ser exploratorio o confirmatorio. El

análisis exploratorio se caracteriza porque no se conocen a priori el número de

factores y es en la aplicación empírica donde se determina este número. Por el

contrario, en el análisis de tipo confirmatorio los factores están fijados a priori,

utilizándose contrastes de hipótesis para su corroboración.

El modelo matemático del Análisis Factorial es parecido al de la regresión

múltiple. Cada variable se expresa como una combinación lineal de factores no

directamente observables.

Xij = F1i ai1 + F2i ai2+....+Fki aik + Vi

Siendo:

Xij la puntuación del individuo i en la variable j .

Fij son los coeficientes factoriales.

aij son las puntuaciones factoriales.

Vi es el factor único de cada variable.

Un análisis factorial resultará adecuado cuando existan altas correlaciones entre

las variables, que es cuando podemos suponer que se explican por factores comunes.

El análisis de la matriz de correlaciones será pues el primer paso a dar.

Analíticamente, podemos comprobar el grado de correlación con las siguientes

pruebas o test:

Test de esfericidad de Bartlett.

Es necesario suponer la normalidad de las variables. Contrasta la H0 de que la

matriz de correlaciones es una matriz identidad (incorrelación lineal entre las

variables). Si, como resultado del contraste, no pudiésemos rechazar esta H0, y el

tamaño de la muestra fuese razonablemente grande, deberíamos reconsiderar la

realización de un AF, ya que las variables no están correlacionadas.

El estadístico de contraste del test de Bartlett es:

B=-(n-1-(2p+5)/6)ln|R* |

bajo la hipótesis nula resulta X 2(p2 - p)/2

donde:

p es el número de variables y

| R* | es el determinante de la matriz de correlaciones muestrales.

Índice KMO de Kaiser, Meyer y Olkin

El KMO es un índice útil para comparar los valores de los coeficientes de

correlación observados con los coeficientes de correlación parcial, de tal forma que

valores pequeños indican que el análisis de componentes principales no es

aconsejable. George y Mallery (1995) recomiendan como límite de aceptación de este

índice KMO valores superiores al 0,5.

Índice KMO de Kaiser-Meyer-Olkin:

Fórmula KMO=∑i ≠ j

∑j ≠i

rij2

∑i≠ j

∑j ≠i

rij2 +∑

i≠ j∑j ≠ i

aij2

donde...

rij= correlación simple.

aij= correlación parcial.

Para mayor exactitud Kaiser (1974), propone la siguiente interpretación para

los valores KMO: 0,90 maravilloso o muy bueno; 0,80 meritorio; 0,70 medio o

normal; 0,60 mediocre; 0,50despreciable o bajo; y un valor menor que 0,50

totalmente inaceptable.

Fases del Análisis Factorial

1. Extracción de los factores comunes.

2. Rotación de los factores con objeto de facilitar su interpretación.

3. Puntuaciones factoriales.

Extracción de Factores Comunes

Existen distintos métodos de estimación de los coeficientes de la matriz

factorial: los más comunes (para un AF exploratorio) son el método de las

Componentes Principales y el método de Ejes Factoriales.

Método 1: AF de Componentes Principales (ACP)

El método de componentes principales se basa en suponer que los factores

comunes explican el comportamiento de las variables originales en su totalidad.

Las comunalidades iniciales de cada variable son igual a 1, porque el 100% de

la variabilidad de las p variable se explicará por los p factores. Evidentemente,

carecería de interés sustituir las p variables originales por p factores que, en

ocasiones, son de difícil interpretación. No obstante, si las correlaciones entre las p

variables fuesen muy altas, sería de esperar que unos pocos factores explicasen gran

parte de la variabilidad total. Supongamos que decidimos seleccionar r factores. La

comunalidad final de cada variable indicará la proporción de variabilidad total que

explican los r factores finalmente seleccionados. La estimación de los

coeficientes l j se obtiene diagonalizando la matriz de correlaciones.

Método 2: AF de Ejes Factoriales (PAF)

En este método partimos de la base de que sólo una parte de la variabilidad

total de cada variable depende de factores comunes y, por tanto, la comunalidad

inicial no será 1. Estima dichas comunalidades mediante los coeficientes de

determinación múltiple de cada variable con el resto. Se sustituyen estos valores en la

diagonal principal de la matriz R* y se procede a efectuar un ACP. Una vez obtenido

el resultado, se estiman de nuevo las comunalidades, se vuelven a sustituir en la

diagonal principal de la matriz R* y el proceso se retroalimenta hasta alcanzar un

criterio de parada (por ejemplo cuando la diferencia entre lasa comunalidades de dos

iteraciones sucesivas sea menor que una cantidad prefijada).

La elección de uno u otro método (ACP o PAF) depende de los objetivos

del AF. Así el ACP es adecuado cuando el objetivo es resumir la mayoría de la

información original (varianza total) con una cantidad mínima de factores con

propósitos de predicción. El AFC resulta adecuado para identificar los factores

subyacentes o las dimensiones que reflejan qué tienen en común las variables. El

inconveniente del método PAF es que el cálculo de las comunalidades requiere

mucho tiempo y muchos recursos informáticos y, además, no siempre se pueden

estimar o, incluso, pueden ser no válidas (comunalidades menores que 0 o mayores

que 1).

ANALISIS DE RESULTADOS

Para llevar a cabo un análisis factorial se debe verificar la adecuación del

modelo y esto se mide a través del indicador KMO.

Según el KMO (Tabla Nº 1) se puede aplicar adecuadamente el análisis

factorial ya que este se encuentra en el rango de buenos resultados y además el

estadístico Ji-Cuadrado es significativo (p<0.05).

TABLA Nº 1: Medida de Adecuación de Kaiser-Meyer-Olkin (KMO)

Fuente: Salida generada por el paquete de Computo SPSS. Versión 15.0

Todas las variables tienen una correlación anti-imagen mayor a 0,5 (Tabla Nº2),

es decir, que todas ellas deben permanecer en el análisis. Estas correlaciones se

observan en la diagonal de la matriz.

TABLA Nº 2: Matriz Anti-Imagen

KMO y prueba de Bartlett

,834

309,848

10

,000

Medida de adecuación muestral deKaiser-Meyer-Olkin.

Chi-cuadradoaproximado

gl

Sig.

Prueba de esfericidadde Bartlett

Matrices anti-imagen

,367 ,224 -,059 -,052 ,012

,224 ,441 -,002 -,004 -,053

-,059 -,002 ,255 -,086 ,144

-,052 -,004 -,086 ,385 ,096

,012 -,053 ,144 ,096 ,253

,825a ,556 -,193 -,138 ,039

,556 ,812a -,005 -,010 -,158

-,193 -,005 ,821a -,275 ,566

-,138 -,010 -,275 ,901a ,308

,039 -,158 ,566 ,308 ,820a

solubles

INSOLUBLES

acidez

humedad

ph

solubles

INSOLUBLES

acidez

humedad

ph

Covarianza anti-imagen

Correlación anti-imagen

solubles INSOLUBLES acidez humedad ph

Medida de adecuación muestrala.

Fuente : Salida generada por el paquete de Computo SPSS. Versión 15.0

En cuanto a las comunalidades se puede decir que la proporción de varianza

explicada por los factores comunes es alta (Tabla Nº 3), con valores que varían entre

0,611 y 0,806.

TABLA Nº 3: Comunalidades


Para seleccionar el numero de factores no hay un criterio único, solo hay unos

criterios subjetivos. Algunos autores recomiendan como primer paso tomar un

conjunto inicial de factores de acuerdo a los criterios de selección de componentes

principales. El criterio más usado es que las componentes principales expliquen al

menos un 70% de la variabilidad de los datos.

De acuerdo a este criterio se toma un factor ya que este explica más del 70%

(72,92%), de la varianza inicial de las variables originales. (Tabla Nº 4).

TABLA Nº 4: Varianza inicial de las variables originales


Sin embargo a al momento de seleccionar el número de componentes

principales se debe tomar en cuenta otros criterios como el de revisar el número de

residuales que en valor absoluto sea mayor a 0,05, y establecen que esta cantidad no

debe superar al 20%.

Debido al porcentaje de residuales no redundantes (Tabla Nº 5), este único

factor explicado por el 72, 92% de varianza no es adecuado ya que el porcentaje de

estos residuales es mayor (70% > 20%) y hay residuales mayores a 0,05. Por lo tanto

se debe incluir otro factor para verificar el comportamiento de estos residuales.

TABLA Nº 5: Residuales no Redundantes

Varianza total explicada

3,646 72,920 72,920 3,646 72,920 72,920

,652 13,041 85,961

,284 5,678 91,639

,259 5,176 96,815

,159 3,185 100,000

Componente1

2

3

4

5

Total% de lavarianza % acumulado Total

% de lavarianza % acumulado

Autovalores inicialesSumas de las saturaciones al cuadrado

de la extracción

Método de extracción: Análisis de Componentes principales.


Al incluir un segundo factor se observa que el porcentaje de varianza, (Tabla Nº

6) aumentó a 85,96%.

TABLA Nº 6: Varianza inicial de las variables originales al incluir un segundo

factor

Correlaciones reproducidas

,714b -,661 ,714 -,758 ,756

-,661 ,611b -,661 ,702 -,700

,714 -,661 ,714b -,758 ,756

-,758 ,702 -,758 ,806b -,803

,756 -,700 ,756 -,803 ,801b

-,071 -,116 ,121 -,102

-,071 ,156 -,118 ,141

-,116 ,156 ,011 -,013

,121 -,118 ,011 -,033

-,102 ,141 -,013 -,033

solubles

INSOLUBLES

humedad

ph

acidez

solubles

INSOLUBLES

humedad

ph

acidez

Correlación reproducida

Residuala

solubles INSOLUBLES humedad ph acidez


Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 7 (70,0%) residualesno redundantes con valores absolutos mayores que 0,05.

a.

Comunalidades reproducidasb.

Varianza total explicada

3,646 72,920 72,920 3,646 72,920 72,920 2,471 49,425 49,425

,652 13,041 85,961 ,652 13,041 85,961 1,827 36,535 85,961

,284 5,678 91,639

,259 5,176 96,815

,159 3,185 100,000

Componente1

2

3

4

5

Total% de lavarianza % acumulado Total

% de lavarianza % acumulado Total

% de lavarianza % acumulado

Autovalores inicialesSumas de las saturaciones al cuadrado

de la extracciónSuma de las saturaciones al cuadrado

de la rotación



El porcentaje de residuales no redundantes disminuyó a 30% y solo hay 3

residuales mayor a 0,05, lo que indica que sigue superando al 20%. (Tabla Nº 7). Por

lo tanto no se puede incluir un tercer factor ya que esto ocasionaría carga alta en una

sola variable (> 0,5) y los factores serian triviales. Sin embargo, Dalas Johnson

establece otro criterio donde sugiere que no debe haber muchos residuales en valores

absolutos mayores a 0,25 o unos cuantos mayores a 0,40. Este criterio si se cumple en

estos residuales (hay 18 residuales menores a 0,25), es decir, que es conveniente

seleccionar solo dos factores. (Tabla Nº 7).

TABLA Nº 7: Residuales no Redundantes al incluir un segundo factor


Al incluirse este segundo factor la proporción de varianza explicada por los

factores comunes aumentó con respecto a la primera (Tabla Nº 8), con valores que

varían entre 0,821 y 0,901. Es decir, que esta varianza explicada por los factores

comunes es alta.

TABLA Nº 8: Comunalidades al incluir un segundo factor

Correlaciones reproducidas

,844b -,855 ,596 -,670 ,664

-,855 ,901b -,485 ,570 -,562

,596 -,485 ,821b -,838 ,840

-,670 ,570 -,838 ,865b -,866

,664 -,562 ,840 -,866 ,867b

,123 ,002 ,033 -,009

,123 -,020 ,014 ,003

,002 -,020 ,091 -,097

,033 ,014 ,091 ,030

-,009 ,003 -,097 ,030

solubles

INSOLUBLES

humedad

ph

acidez

solubles

INSOLUBLES

humedad

ph

acidez

Correlación reproducida

Residuala

solubles INSOLUBLES humedad ph acidez


Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 3 (30,0%) residualesno redundantes con valores absolutos mayores que 0,05.

a.

Comunalidades reproducidasb.


Nota: El KMO no aumentó ni disminuyó al incluirse un segundo factor.

Para este análisis no existen factores triviales, es decir, carga alta (> 0,5) en

una sola variable (Tabla Nº 9). El factor 1 está relacionado con las variables

Humedad, Acidez y Ph, con cargas factoriales 0,863; 0,858 y -0,853 respectivamente,

donde la variable Humedad y Acidez se contraponen (signos opuestos en las cargas

factoriales) con la variable Ph. Este factor indica las propiedades químicas del café.

El factor 2 se relaciona con las variables Solubles e insolubles con cargas

factoriales altas 0,810 y -0,909 respectivamente, donde la variable soluble se

contrapone con la variable insoluble. Este factor indica las propiedades físicas del

café.

TABLA Nº 9: Matriz de componentes rotados

CONCLUSIÓN

Las variables físico-químicas: Soluble e Insoluble, Acidez, Humedad y Ph

resultaron agrupadas en dos (2) factores. Donde el factor 1 representa las propiedades

químicas del café (Humedad, Acidez y Ph), mientras que el factor 2 las propiedades

físicas.

BIBLIOGRAFÍA

GARCIA JIMÉNEZ, E.; GIL FLORES, J. y RODRIGUEZ GOMEZ,

G. (2000). Análisis Factorial. Cuadernos de Estadística.

Editorial La Muralla. WWW.tgrajales.net/estfactorial.pdf

JHONSON, D. (1998). “Métodos Multivariados

Aplicados al Análisis de Datos”. Internacional Thomson

Publishing. Primera Edición.

JOHN POULSEN. (2001) “Análisis Multivariante de

La Varianza”

http://userwww.sfsu.edu/~efc/classes/biol710/

manova/manovanew.

htm.

Download - Trabajo de factorial

Top Related