analisis multivariante
DESCRIPTION
ESTADISTICATRANSCRIPT
TRABAJO DE CONSULTA
TEMA: ANÁLISIS MULTIVARIADO
NOMBRE: Martha Suárez
ANÁLISIS MULTIVARIANTE
La realidad económica circundante y la propia realidad empresarial participan de
una complejidad notable que suele traducirse en la necesidad de manejar
información sobre muchas entidades o individuos y sobre muchas de sus
características ( variables).Lógicamente el análisis empírico de esta realidad
requiere la observación de un gran número de fenómenos y la recolección de una
gran cantidad de información que se traduce en grandes masas de datos sobre
muchas variables y muchas unidades de desagregación para esos datos.
Este análisis global de una realidad compleja (cifrada en términos de realidad
multi-dato/ multi-variante ) nos lleva a la necesidad de recurrir a técnicas de
tratamiento de información multivariante. Nos lleva a recurrir a las técnicas
estadísticas de Análisis Multivariante.
La expresión análisis multivariante se emplea, en general, de forma "imprecisa
para denotar el análisis de datos que son multivariantes en el sentido de que cada
miembro toma los valores de las p variantes"(Kendal y Buckland).Se comprende
fácilmente que el análisis científico de la realidad, (el de nuestra realidad
socioeconómica, por ejemplo) exige, en numerosas ocasiones la descripción,
interpretación, clasificación, reducción y explicación de material estadístico que
proviene de la observación de más de una variable. Esta necesidad, unida al
impacto de las posibilidades informáticas de tratamiento de grandes conjuntos de
datos, ha hecho posible un desarrollo creciente y vertiginoso de todas las técnicas
de análisis multivariante y una creciente diversificación y ampliación de sus
campos de aplicación.
La información utilizada y elaborada por el análisis multivariante es, por tanto, de
carácter multidimensional, pudiendo ser de naturaleza cuantitativa, cualitativa o
mezcla de ambas. Dependiendo de la naturaleza de las variables empleadas y de
las finalidades del análisis se abre un amplio abanico de técnicas muy variadas,
que aun cuando en muchos casos tengan fundamentos estadísticos comunes, se
distinguen por sus objetivos de investigación que fundamentalmente puede
agruparse en tres tipos de operaciones distintas: reducir los datos, clasificarlos, y
explicarlos .
"En general, las variables se asimilan a variables aleatorias con una cierta
distribución multivariante. Quizás la propiedad más determinante del Análisis
Multivariante es que las n variables son dependientes (en sentido estadístico), de
naturaleza similar y que ninguna de ellas tiene una importancia superior a las
demás" (Cuadras)
Al igual que la Estadística Univariante, el Análisis Multivariante pretende describir
las variables mediante características muestrales y realizar inferencias basándose
en la información muestral y en ciertas condiciones, pero trabajando a la vez con
todas las variables, lo que exigirá una metodología más compleja pero también
más potente que abundará en recursos del álgebra, el cálculo numérico y la
geometría.
Los distintos métodos de análisis multivariante podemos clasificarlos de distintas
maneras, de acuerdo con distintos criterios taxonómicos.
De acuerdo con Cuadras, podemos diferenciar los distintos métodos según si su
área de aplicación es una o varias poblaciones y según si intervienen uno o dos
grupos de variables. Así tendremos:
a) Métodos que analizan una sola población y un solo grupo de variables de
naturaleza razonablemente homogenea: Análisis Factorial y Análisis de
Componentes Principales.
b) Métodos que analizan varias poblaciones y un solo grupo de variables: Análisis
Canónico, Análisis Discriminante y Análisis Multivariante de la Varianza.
c) Métodos que analizan una población y dos grandes grupos de variables con
naturaleza posiblemente diferente: Regresión múltiple y Análisis de Correlación
Canónica.
En esta clasificación de Cuadras, otros métodos multivariantes como el Análisis de
Proximidades o el Análisis Cluster no tendrían una ubicación clara en ninguna de
estas categorías.
Sin embargo, también podemos clasificar los distintos métodos según de dónde se
parta a la hora de establecer las semejanzas entre las observaciones para realizar
el análisis .Habría entonces:
a)Métodos que parten de la semejanza o afinidad entre las variables o
características, como la Regresión Múltiple, el Análisis Factorial, el Análisis
Canónico, el Análisis Discriminante y el Análisis Multivariable de la Varianza.
b) Métodos que parten de la semejanza o afinidad entre las unidades objeto de
estudio o individuos, como la Tipología, el Análisis Cluster o la Segmentación.
c) Métodos que parten de la semejanza de entidades más abstractas como el
Análisis Multidimensional no Métrico .
También podemos adoptar un criterio teleológico para la clasificación de las
técnicas multivariantes. Así, de acuerdo con las tres finalidades básicas del
Análisis Multivariante que proponía Sánchez Carrión (reducción de datos,
clasificación de datos y explicación de los datos de acuerdo a modelos) ,podemos
distinguir entre:
a)Técnicas de reducción de los datos como el Análisis Factorial, el Análisis de
Componentes Principales, el Análisis Factorial de Correspondencias y las Escalas
Multidimensionales.
b)Técnicas de clasificación de los datos como el Análisis Cluster y el Análisis
Discriminante.
c) Técnicas de ajuste de modelos explicativos como la Regresión Múltiple.
Maurice Kendall, considerando también los objetivos del análisis, establece otra
clasificación en la que pone el acento en si las técnicas se basan en relaciones de
dependencia entre las variables establecidas a priori, o bien, si se basan en
relaciones de interdependencia no presupuestas a priori :
a)Las técnicas basadas en relaciones de dependencia establecen a priori una
distinción entre una o más variables dependientes, a explicar o endógenas y el
resto de las variables que utilizaremos para explicar las primeras, llamadas
independientes, exógenas o predictivas. Entre estas técnicas destacan la
Regresión Múltiple, con una variable dependiente cuantitativa, el Análisis
Discriminante, con una única variable dependiente cualitativa, el Análisis
Multivariante de la Varianza, con varias variables dependientes cuantitativas o el
Análisis Canónico, con varias variables dependientes cualitativas.
b) Las técnicas basadas en relaciones de interdependencia no establecen ninguna
distinción a priori entre variables y su objetivo principal es organizar los datos de
forma que sean más manejables y comprensibles. Entre ellas podemos destacar
el Análisis Factorial, el Análisis Cluster o el Escalonamiento Métrico .
Por su parte Uriel propone una clasificación de las técnicas atendiendo a la
existencia , tipología y número de las variables dependendientes o a explicar y de
las variables dependientes y a los objetivos de cada técnica según el siguiente
cuadro:
VARIABLES
DEPENDIENTES
VARIABLES
INDEPENDIENTE
S
MÉTODO OBJETIVOS
CONTINUAS1
CATEGÓRICA ANOVA DEPENDENCIA
CONT/CATEGÓR. REGRESIÓN DEPENDENCIA
VARIAS CATEGÓRICA MANOVA DEPENDENCIA
CONT/ CATEGÓR. REGRESIÓN
MULTIPLE
DEPENDENCIA
CONT/ CATEGÓR. ANÁLISIS CANÓNICO INDEPENDENCIA
CATEGÓRICA
S
2 CAT.
CONT/CATEGOR. A.DISCRIMINANTE CLASIFICACIÓN
CONT/CATEGOR. A. LOGIT BINOMIALCLASIF/
DEPENDENCIA
> 2
CAT.
CONT/CATEGOR. A.DISCRIMINANTE CLASIFICACIÓN
CONT/CATEGOR. A. LOGIT POLINOMIALCLASIF/
DEPENDENCIA
NINGUNA
CONT/CATEGORA.
COMP.PRINCIPALESREDUCC. DIMENSIÓN
CONT/CATEGOR A. FACTORIAL REDUCC. DIMENSIÓN
CONT/CATEGORA.
CORRESPONDENCIASREDUCC. DIMENSIÓN
CONT/CATEGOR
ESCALAS
MULTIDIMENSIONALE
S
AGRUPACIÓN
CONT/CATEGOR ANÁLISIS CLUSTER AGRUPACIÓN
Veamos brevemente las características fundamentales de cada Técnica:
Análisis de la varianza (ANOVA): Tiene por objeto determinar en qué medida una
variable dependiente de naturaleza continua está condicionada por los valores que
toman variables independientes de naturaleza categórica , llamadas factores.
Modelos de Regresión Lineal: Se trata de cuantificar la influencia que ejercen las
variables explicativas sobre 1 variable dependiente de caracter continuo.
Análisis Multivariante de la Varianza (MANOVA) (ir a MANOVA):Es la
generalización del ANOVA, para el caso en que el número de variables
dependientes de naturaleza continua sea superior a uno.
Regresión multivariante y análisis canónico:Son generalizaciones del modelo
de regresión: En la regresión múltiple se trata de cuantificar la influencia de las
variables explicativas sobre un conjunto de variables dependientes. En el análisis
canónico, se trata de analizar la interdependencia entre dos conjuntos de
variables.
Análisis Discriminante: (ir análisis discriminante) Se utiliza para caractizar
mediante un conjunto de variables independientes, las diferencias existentes entre
individuos de distintos grupos y también para clasificar nuevos casos en uno de
esos grupos a partir de la información sobre las variables consideradas.
Modelo logit binomial y multinomial: Son similares a los modelos
discriminantes.Si la variable independiente (categórica) ofrece sólo dos posibles
niveles hablamos de binomial y son más los niveles de polinomial.
Análisis de Componentes Principales: Es una técnica de reducción de datos.
Que trata de tranformar un conjunto de variables en otro conjunto, de menor
dimensión ,de variables, con la particularidad de que las nuevas variables estén
incorrelacionadas entre sí.
Análisis Factorial: Su pretensión es similar al A.C.P. pero aquí se formula un
modelo teórico en el que se explica el comportamiento de las variables
observables en función de unos factor (comunes) que se pretenden obtener y
unos factores específicos.
Análisis de Correpondencias: Es similar al anterior , pero de aplicación a
variables categóricas , empleandose las correspondencias entre niveles de las
categórias, en lugar de las correlaciones.
Escalas multidimensionales: Son un conjunto de técnicas que utilizan las
proximidades entre los objetos para realizar una representación de los mismos.
Análisis Cluster: (ir análisis cluster) El objetivo es la partición de un conjunto de
individuos en grupos o subconjuntos coherentes, homógeneos internamente y bien
diferenciados entre sí
Como puede observarse, existen innumerables técnicas y métodos de análisis
multivariante. El estudio de todos y cada una de ellos nos llevaría a una labor
inacabable que, por otro lado, no tiene sentido en estas páginas. Recordemos que
aquí nos interesa remarcar únicamente la base metodológica que debe inspirar
nuestro trabajo empírico.
En este sentido, recordémoslo, necesitaremos, a menudo, procesar una gran
cantidad de datos que debemos reducir y explicar. De una gran cantidad de
variables observables deseamos obtener una pequeña cantidad de categorías
explicativas, operativas e interesantes, funciones de las primeras pero que no
serán observables directamente. En esta línea, necesitaremos utilizar técnicas de
reducción de datos y el análisis factorial y al análisis de componentes principales
como inmejorables instrumentos para ello.
Por otro lado, nos interesará también clasificar y ordenar, conglomerar y agrupar
los individuos de nuestro estudio: Las unidades vecinales, los barrios, los distritos,
los municipios, las provincias, las comunidades autónomas,las empresas
proveedoras, los clientes, los sectores económicos, las ramas de actividad, etc.
Estaremos interesados en poner orden en la configuración interna del espacio
complejo analizado. Deseamos, en consecuencia, agrupar los distintos individuos
en conglomerados homogéneos desde el punto de vista socioeconómico para
descubrir la estructura de la realidad social y económica . En este sentido,
necesitaremos acudir a una técnica potente de agrupación como el análisis
cluster.
Por último, pretendemos confirmar la validez de nuestras conclusiones, llegando a
ser capaces de ver si las características obtenidas como factores explicativos nos
discriminan con suficiente exactitud los conglomerados homogéneos obtenidos.
Necesitaremos, pues, el análisis discriminante para ello.
1.- ¿QUÉ ES EL ANÁLISIS MULTIVARIANTE?
Es el conjunto de métodos estadísticos cuya finalidad es analizar
simultáneamente conjuntos de datos multivariantes en el sentido de que hay
varias variables medidas para cada individuo ú objeto estudiado.
Su razón de ser radica en un mejor entendimiento del fenómeno objeto de
estudio obteniendo información que los métodos estadísticos univariantes y
bivariantes son incapaces de conseguir.
Así, como Hair et al. (1999) dicen:
“Las mujeres y hombres de negocios de hoy no pueden seguir
aproximaciones ya pasadas en las que los consumidores eran considerados
homogéneos y caracterizados por un número pequeño de variables demográficas.
En su lugar, deben desarrollar estrategias que atraigan a numerosos segmentos
de clientes con características demográficas y psicográficas diversas en un
mercado con múltiples restricciones (legales, económicas, competitivas,
tecnológicas, etc). Sólo a través del análisis multivariante las relaciones múltiples
de este tipo podrán ser examinadas adecuadamente para obtener un
entendimiento más completo y real del entorno que permita tomar las decisiónes
más adecuadas.”
1.1. 1.1. Objetivos del Análisis Multivariante
Pueden sintetizarse en dos:
1) Proporcionar métodos cuya finalidad es el estudio conjunto de datos
multivariantes que el análisis estadístico uni y bidimensional es incapaz de
conseguir
2) Ayudar al analista o investigador a tomar decisiones óptimas en el contexto en
el que se encuentre teniendo en cuenta la información disponible por el conjunto
de datos analizado.
2.- TIPOS DE TECNICAS MULTIVARIANTES
Se pueden clasificar en tres grandes grupos (ver esquema adjunto):
1) 1) Métodos de dependencia
Suponen que las variables analizadas están divididas en dos grupos: las
variables dependientes y las variables independientes. El objetivo de los métodos
de dependencia consiste en determinar si el conjunto de variables independientes
afecta al conjunto de variables dependientes y de qué forma.
2) 2) Métodos de interdependencia
Estos métodos no distinguen entre variables dependientes e independientes
y su objetivo consiste en identificar qué variables están relacionadas, cómo lo
están y por qué.
3) 3) Métodos estructurales
Suponen que las variables están divididas en dos grupos: el de las variables
dependientes y el de las independientes. El objetivo de estos métodos es análizar,
no sólo como las variables independientes afectan a las variables dependientes,
sino también cómo están relacionadas las variables de los dos grupos entre sí.
TécnicasMultivariantes
Métodos deDependencia
DependienteMétrica
DependienteNo Métrica
Análisis de RegresiónAnálisis de SupervivenciaMANOVACorrelación Canónica
Análisis DiscriminanteRegresión LogísticaAnálisis Conjoint
Modelos estructurales
Métodos deInterdependencia
Datos Métricos
Datos No Métricos
A. Comp. PrincipalesAnálisis FactorialEscalas MultidimensionalesAnálisis Cluster
Análisis de CorrespondenciasModelos log-linealesEscalas MultidimensionalesAnálisis Cluster
2.1 Métodos de dependencia
Se pueden clasificar en dos grandes subgrupos según que la variable (s)
dependiente (s) sea (n) cuantitativas o cualitativas.
Si la variable dependiente es cuantitativa algunas de las técnicas que se
pueden aplicar son las siguientes:
1) Análisis de Regresión
Es la técnica adecuada si en el análisis hay una o varias variables
dependientes métricas cuyo valor depende de una o varias variables
independientes métricas.
Por ejemplo, intentar predecir el gasto anual en cine de una persona a partir
de su nivel de ingresos, nivel educativo, sexo y edad.
2) Análisis de Supervivencia
Es similar al análisis de regresión pero con la diferencia de que la variable
independiente es el tiempo de supervivencia de un individuo ú objeto.
Por ejemplo, intentar predecir el tiempo de permanencia en el desempleo
de un individuo a partir de su nivel de estudios y de su edad.
3) Análisis de la varianza
Se utilizan en situaciones en las que la muestra total está dividida en varios
grupos basados en una o varias variables independientes no métricas y las
variables dependientes analizadas son métricas. Su objetivo es averiguar si hay
diferencias significativas entre dichos grupos en cuanto a las variables
dependientes se refiere.
Por ejemplo, ¿hay diferencias en el nivel de colesterol por sexos? ¿afecta,
también, el tipo de ocupación?.
4) Correlación Canónica
Su objetivo es relacionar simultáneamente varias variables métricas
dependientes e independientes calculando combinaciones lineales de cada
conjunto de variables que maximicen la correlación existente entre los dos
conjuntos de variables.
Por ejemplo, analizar cómo están relacionadas el tiempo dedicado al trabajo
y al ocio de una persona con su nivel de ingresos, su edad y su nivel de educación
Si la variable dependiente es cualitativa algunas de las técnicas que se
pueden aplicar son las siguientes:
1) Análisis Discriminante
Esta técnica proporciona reglas de clasificación óptimas de nuevas
observaciones de las que se desconoce su grupo de procedencia basándose en la
información proporcionada los valores que en ella toman las variables
independientes.
Por ejemplo, determinar los ratios financieros que mejor permiten
discriminar entre empresas rentables y poco rentables.
2) Modelos de regresión logística
Son modelos de regresión en los que la variable dependiente es no métrica.
Se utilizan como una alternativa al análisis discriminante cuando no hay
normalidad
3) Análisis Conjoint
Es una técnica que analiza el efecto de variables independientes no
métricas sobre variables métricas o no métricas. La diferencia con el Análisis de la
Varianza radica en dos hechos: las variables dependientes pueden ser no
métricas y los valores de las variables independientes no métricas son fijadas por
el analista. En otras disciplinas se conoce con el nombre de Diseño de
Experimentos.
Por ejemplo, una empresa quiere diseñar un nuevo producto y para ello
necesita especificar la forma del envase, su precio , el contenido por envase y su
composición química. Presenta diversas composiciones de estos cuatro factores.
100 clientes proporcionan un ranking de las combinaciones que se le presentan.
Se quiere determinar los valores óptimos de estos 4 factores.
2.2 Métodos de Interdependencia
Se pueden clasificar en dos grandes grupos según que el tipo de datos que
analicen sean métricos o no métricos.
Si los datos son métricos se pueden utilizar, entre otras, las siguientes
técnicas:
1) Análisis Factorial y Análisis de Componentes Principales
Se utiliza para analizar interrelaciones entre un número elevado de
variables métricas explicando dichas interrelaciones en términos de un número
menor de variables denominadas factores (si son inobservables) o componentes
principales (si son observables).
Así, por ejemplo, si un analista financiero quiere determinar la cual es el
estado de salud financiero de una empresa a partir del conocimiento de un número
de ratios financieros, construyendo varios índices numéricos que definan su
situación, el problema se resolvería mediante un Análisis de Componentes
Principales.
Si un psicólogo quiere determinar los factores que caracterizan la
inteligencia de un individuo a partir de sus respuestas a un test de inteligencia,
utilizaría para resolver este problema un Análisis Factorial.
2) Escalas Multidimensionales
Su objetivo es transformar juicios de semejanza o preferencia en distancias
representadas en un espacio multidimensional. Como consecuencia se construye
un mapa en el que se dibujan las posiciones de los objetos comparados de forma
que aquéllos percibidos como similares están cercanos unos de otros y alejados
de objetos percibidos como distintos.
Por ejemplo, analizar, en el mercado de refrescos, las percepciones que un
grupo de consumidores tiene acerca de una lista de refrescos y marcas con el fin
de estudiar qué factores subjetivos utiliza un consumidor a la hora de clasificar
dichos productos.
3) Análisis Cluster
Su objetivo es clasificar una muestra de entidades (individuos o variables)
en un número pequeño de grupos de forma que las observaciones pertenecientes
a un grupo sean muy similares entre sí y muy disimilares del resto. A diferencia del
Análisis Discriminante se desconoce el número y la composición de dichos grupos.
Por ejemplo, clasificar grupos de alimentos (pescados, carnes, vegetales y
leche) en función de sus valores nutritivos.
Si los datos son no métricos se pueden utilizar, además de las Escalas
Multidimensionales y el Análisis Cluster, las siguientes técnicas:
1) Análisis de Correspondencias
Se aplica a tablas de contingencia multidimensionales y persigue un
objetivo similar al de las escalas multidimensionales pero representando
simultáneamente las filas y columnas de las tablas de contingencia.
Por ejemplo, analizar el paro en Aragón teniendo en cuenta la provincia,
sexo, edad y nivel de estudios del parado
2) Modelos log-lineales
Se aplican a tablas de contingencia multidimensionales y modelizan
relaciones de dependencia multidimensional de las variables observadas que
buscan explicar las frecuencias observadas.
2.3 Métodos estructurales
Analizan las relaciones existentes entre un grupo de variables
representadas por sistemas de ecuaciones simultáneas en las que se suponen
que algunas de ellas (denominadas constructos) se miden con error a partir de
otras variables observables denominadas indicadores.
Los modelos utilizados constan, por lo tanto, de dos partes: un modelo
estructural que especifica las relaciones de dependencia existente entre las
constructos latentes y un modelo de medida que especifica como los indicadores
se relacionan con sus correspondientes constructos.
Por ejemplo, analizar cómo se relacionan los niveles de utilización de los
servicios de una empresa con las percepciones que sus clientes tienen de ella.
3.- ETAPAS DE UN ANALISIS MULTIVARIANTE
Pueden sintetizarse en 6:
1) Objetivos del análisis
Se define el problema especificando los objetivos y las técnicas
multivariantes que se van a utilizar
El investigador debe establecer el problema en términos conceptuales
definiendo los conceptos y las relaciones fundamentales que se van a investigar. Se
deben establecer si dichas relaciones van a ser relaciones de dependencia o de
interdependencia. Con todo esto se determinan las variables a observar.
2) Diseño del análisis.
Se determina el tamaño muestral, las ecuaciones a estimar (si procede), las
distancias a calcular (si procede) y las técnicas de estimación a emplear. Una vez
determinado todo esto se proceden a observar los datos
3) Hipótesis del análisis
Se evaluan las hipótesis subyacentes a la técnica multivariante. Dichas hipótesis
pueden ser de normalidad, linealidad, independencia, homocedasticidad, etc. También se
debe decidir qué hacer con los datos missing
4) Realización del análisis
Se estima el modelo y se evalúa el ajuste a los datos. En este paso pueden
aparecer observaciones atípicas (outliers) o influyentes cuya influencia sobre las
estimaciones y la bondad de ajuste se debe analizar.
5) Interpretación de los resultados
Dichas interpretaciones pueden llevar a reespecificaciones adicionales de las
variables o del modelo con lo cual se puede volver de nuevo a los pasos 3) y 4)
6) Validación del análisis
Consiste en establecer la validez de los resultados obtenidos analizando sí
los resultados obtenidos con la muestra se generalizar a la población de la que
procede. Para ello se puede dividir la muestra en varias partes en las que el model se
vuelve a estimar y se compararn los resultados. Otras técnicas que se pueden
utilizar aquí son las técnicas de remuestreo (jacknife y bootstrap)
En el ejemplo siguiente concretamos en qué consistirían dichas etapas para un
Análisis de Regresión Múltiple:
Ejemplo: Análisis de Regresión Múltiple
1) Objetivos del análisis
Predecir el gasto en cine de una persona a partir de su nivel de ingresos,
nivel educativo, sexo y edad lo cual nos permitiría entender mejor cuáles son las
pautas de comportamiento de la población.
Para ello se propone un análisis de regresión múltiple en el que la variable
dependiente sería el gasto en cine y como variables independientes el resto.
2) Diseño del análisis
Se decidiría cómo elegir la muestra, el tamaño de la misma y cómo medir las
variables implicadas en el análisis. El gasto en cine podría medirse como el gasto
anual en cine medido en pesetas. El nivel de ingresos podría medirse con una
variable ordinal, dadas las reticencias a dar información precisa sobre este tipo de
variables; el nivel educativo sería una variable ordinal; el sexo una variable binaria y
la edad una variable cuantitativa medida en años.
El tamaño de la muestra se eligiría en función de la potencia que se quiera
dar a la regresión múltiple. Así, por ejemplo, con un tamaño muestral de 100
observaciones se podría detectar, en una regresión múltiple lineal, las relaciones
con un coeficiente de correlación múltiple (R2) de aproximadamente igual a 0.3 con
una potencia de 0.8% utilizando un nivel de significación igual a 0.01. Conviene,
además, que el ratio del número de observaciones al número de parámetros a estimar
sea lo suficientemente amplio para estimar los parámetros del modelo con el menor
error posible
3) Hipótesis del análisis
Hay que comprobar la linealidad de la relación, la normalidad y la
homocedasticidad. No hay datos missing y se deben estudiar la posible existencia de
ouliers en cada una de las variables.
4) Realización del análisis
Se puede utilizar el estimador de mínimos cuadrados del que se conoce su
distribución muestral bajo hipótesis de normalidad. Dicho estimador coincide con el
máximo verosimil y es eficiente. Se puede también utilizar el método de regresión
paso a paso para determinar las variables independientes a incluir en la regresión.
Una vez estimada la ecuación de regresión se estudia la bondad de ajuste mediante
el cálculo de R2 y el análisis de los resíduos. Se estudiaría la homocedasticidad,
independencia, posible omisión de variables, existencia de outliers e influencia de
observaciones individuales
5) Interpretación de los resultados
Se interpretaría el valor de los coeficientes obtenidos así como su signo
teniendo cuidado con la posible existencia de multicolinealidad
6) Validación del análisis
Se divide la muestra en dos submuestras de tamaño 50 y se vuelve a estimar
la ecuación de regresión en cada submuestra comparando los resultados.
ANÁLISIS MULTIVARIANTE
El análisis multivariable: su objetivo es analizar simultáneamente tres o más
variables independientes métricas (ratios) a través de funciones lineales de
dependencia como las siguientes:
Análisis de Regresión Múltiple.
Variable Dependiente Métrica; Variables Independientes Métricas, no Métricas:
Y1 = C1X1 + C2X2 +................CnXn
Es decir:
Fij = Fi1 Z1 + Fi2 Z2 + .........Fir Zr = ? Fim Zm
Donde:
Fij = Puntuación factorial del individuo “j” en el factor “i”
Zm= Puntuaciones individuales en cada variable con puntuaciones estandarizadas
Cada Fim Zm = Es la ponderación factorial de la variable “m” en el factor “i”
Análisis Discriminante Múltiple.
Variable Dependiente No Métrica; Variables Independientes Métricas.
Zscore = C1X1 + C2X2 +................CnXn
Donde:
Z = Punto de Corte
Vn = Coefeficiente Discriminante
Xn = Variables Independientes (Ratios Financieros)
Análisis de Correlación Canonica.
Variables Dependientes Métricas y No Métrica; Variables Independientes Métricas
y No Métricas.
Y1 +Y2 +Y3 .......+Yn= X1 +X2 +X3 .......+Xn
Análisis Factorial o de Componentes Principales.
Siendo el Modelo de la Matriz de datos como:
Xij=F1i ai1 + F2i ai2 +..........+Fki aik + Ui
Donde:
Xij = Puntuación del individuo i en la variable j
Fij = Coeficientes factoriales
a = Puntuaciones factoriales
u = Factor único
Y siendo la fórmula de la Comunalidad:
h2i = F2
1j + F22J +........... + f2KJ
Así como el Factor Unico:
1 = h2 +U2
Donde:
h2 = comunalidad
U2 = factor único
Como podrá observarse en todos estos modelos estadísticos, las variables
independientes cumplen la condición de ser métricas, lo cual posibilita el utilizar a
los ratios como base de datos y sustituir o complementar así el análisis financiero
tradicional.
2. ANTECEDENTES DE LOS METODOS MULTIVARIABLES
El análisis multivariable es un conjunto de técnicas estadísticas que analizan
simultáneamente más de dos variables en una muestra de observaciones
(Kendall: 1975). Para Cuadras (1981: p.3) esta técnica estudia, interpreta y
elabora el material estadístico sobre la base de un conjunto de n >2 variables, las
cuales pueden ser de tipo cuantitativo, cualitativo o una combinación de ambas.
Una de las aplicaciones principales del análisis multivariable dentro del campo del
análisis financiero consiste en resumir, sintetizar, correlacionar o discriminar
grandes conjuntos de datos y variables en función de ciertos objetivos para
obtener información válida que logre una mejor comprensión del fenómeno objeto
de estudio (Bizquerra:1989, p.1).
En general cualquier análisis simultáneo de más de dos variables es parte del
análisis multivariable. Sin embargo, dentro del análisis existen diversos métodos
que pueden ser empleados de diferentes formas (según sean los datos de entrada
y los resultados o salidas). Según Ortega (1984: p. 406), el resultado de dichas
aplicaciones da la posibilidad al usuario de clasificar las situaciones y variables.
Esto mediante la obtención de relaciones entre esas variables en términos de
influencia sobre los factores incontrolables por parte de la empresa. Es decir, este
análisis se establece a partir de numerosos datos, relaciones y leyes operativas;
investiga estructuras latentes (ocultas), y ensaya diversas formas de organizar
dichos datos en estructuras conocidas y fácilmente utilizables en dos sentidos: a)
Transformándolos y presentándolos bajo una forma nueva. b) Reduciéndolos sin
perder demasiada información inicial con el objetivo de construir un resumen
relativamente exhaustivo del conjunto de partida que es habitualmente complejo y
con informaciones redundantes.
Los orígenes del análisis multivariable se encuentran en las primeras
generalizaciones de la correlación y regresión, en donde se establecieron las
primeras ideas del análisis de componentes principales (Pearson; 1901 y
Spearman; 1904). Sin embargo, el establecimiento definitivo de la mayoría del
análisis multivariable se ubica en los años treinta con los estudios de Hotelling
(1931, 1933); Willes (1932, 1935); Fisher (1935, 1936); Mahalanobis (1936) y
Bartlett (1939). En cuanto a la maduración de los fundamentos del análisis
multivariable, este se debe a los pioneros de la estadística moderna que inicio en
Inglaterra (Galton, Pearson, Fisher, Snecodor) Posteriormente, el centro de
gravedad se desplazó hacia los Estados Unidos (Hotelling, Wilks, Bartlett), aunque
sin dejar de considerar las aportaciones que se dieron con el nacimiento de otras
escuelas tan importantes como la escuela india (Mahalanobis, Roy, Krishnaah), la
escuela francesa surgida en los años sesenta (Benzecri, Lebart, Morineau,
Fenelon, etc.) y la escuela sueca surgida en los años setenta (Jöreskog y
Sörborn).
A partir de Spearman (1904) se estableció el inicio del análisis factorial cuando en
su estudio sobre la inteligencia distinguió un factor general con respecto a un
cierto número de factores específicos. Este autor había considerado como
antecedentes teóricos las técnicas de regresión lineal propuestas por Galton
(1888). Por otra parte, Pearson (1901) propuso el método de componentes
principales como un primer paso previo para llevar a cabo las estimaciones del
análisis factorial. Posteriormente, Hotelling (1933) aplicó el método de extracción
de factores mediante la técnica de componentes principales, la cual hasta
nuestros días se ha confirmado como una de las más aceptadas entre los diversos
trabajos multivariables. La relación entre las correlaciones y las saturaciones de
las variables en los factores fue expuesta por Thurstone (1947). Este autor
introdujo la idea de la estructura simple, así como la teoría y el método de las
rotaciones factoriales ortogonales y oblicuas con el objetivo de obtener una
estructura factorial más sencilla para facilitar la interpretación de los factores. Otra
aportación importante relacionada con este tipo de análisis fue la de Keiser (1958),
quien desarrolló una serie de procedimientos matemáticos mediante el método
varimax para llevar a cabo las rotaciones ortogonales, pues antes de sus trabajos
dichas rotaciones únicamente eran gráficas.
Bizquerra (1989) y Prieto (1985) indican que el análisis multivariable distingue
entre métodos predictivos y métodos reductivos. Los primeros identifican a un
grupo de variables independientes (predictoras), un criterio o variable dependiente,
y en ocasiones a un grupo de variables aleatorias (intervinientes) cuyo efecto se
desea mantener bajo control. Sin embargo, el problema radica en especificar las
dependencias o correlaciones significativas entre los dos primeros tipos de
variables, tal es el caso de la regresión múltiple. Con respecto a los métodos
reductivos, estos analizan las interdependencias entre todas las variables con el
objeto de reducir al mínimo el número de variables necesarias para describir la
información relevante contenida en las observaciones.
Una clasificación también utilizada para los modelos multivariables es la que los
divide en: a) métodos descriptivos o exploratorios (no se establece ninguna
hipótesis previa); y b) métodos explicativos o confirmatorios (se basan en un
marco teórico para fundamentar y validar empíricamente una hipótesis). Otra
importante clasificación es la que divide a los métodos en: a) métodos reductivos
(análisis factorial, componentes principales, correlación canónica, análisis de
clusters, análisis de correspondencias); y b) métodos de dependencia (análisis de
la varianza, análisis de la covarianza, regresión múltiple, análisis discriminante,
análisis de probabilidad condicional Logit y análisis de probabilidad condicional
Probit).
3. DESARROLLO DEL ANALISIS FINANCIERO MULTIVARIABLE
Los estudios de Beaver fueron muy importantes como antecedente del análisis
financiero multivariable, ya que logró separar y analizar los componentes de los
ratios mediante el uso de métodos estadísticos univariables y determinó la media
de los valores de dichos componentes, tanto de empresas en quiebra como de
empresas sanas. Este análisis sobre las medias le llevaron a la conclusión de que
la combinación de datos dentro de la forma de ratio puede “oscurecer” la
información contenida en los componentes individuales. Beaver sugirió que los
ratios tienen que aplicarse con discreción porque no todos tienen el mismo grado
de capacidad explicativa y predictiva. Estos estudios dieron paso a la idea de los
modelos multivariables llevados a cabo por primera vez por Altman (1968). Lo que
si es definitivo es que a partir de los estudios univariables de Beaver se
demostraron las múltiples limitaciones que presentaba el análisis financiero
tradicional basado únicamente en ratios.
Las ideas sobre el análisis financiero basado en métodos multivariables se
comenzaron a divulgar de forma más amplia a finales de la década de los sesenta
y durante los setenta, y posteriormente se intensificaron en las décadas de los
ochenta en diversas partes del mundo industrializado (Pinches y Mingo: 1973;
Libby: 1975; Pinches, Mingo y Caruthers: 1973, 1975; Largay y Stickney: 1980;
Chen y Shimerda: 1981; Gombola y Ketz: 1983; Gahlon y Vigeland: 1988;
Dambolena y Shulman: 1988; entre otros). A partir de entonces se ha continuado
aplicando ininterrumpidamente una serie de herramientas cada vez más eficientes,
como es el caso del análisis de regresión múltiple, el análisis factorial común, el
análisis de componentes principales, el análisis discriminante, entre otros. Dentro
del campo de estudio sobre el éxito o fracaso empresarial, el trabajo de Libby
(1975) representó una de las primeras investigaciones en donde se aplicó el
análisis factorial antes de la aplicación de una regresión o un análisis
discriminante.
Los metodologías utilizadas en las investigaciones que versan sobre nuevas
formas de llevar a cabo el análisis financiero de las empresas fueron
incrementando su complejidad desde los trabajos pioneros de Beaver
(1966,1968). Los estudios univariables habían representado un camino mejor para
la predicción de quiebras al lograr el modelo de Beaver alcanzar una exactitud en
las clasificaciones hasta del 87%. Sin embargo, los posteriores modelos
multivariables fueron superando la exactitud de las clasificaciones univariables al
ser más precisos los ratios financieros y obtener porcentajes más altos en
modelos como los de Altman y Blum (95%), Edmister (93%), Ohlson (96%),
Deakin (97%) y Rose y Giroux (92%).
Algunos de estos estudios, como los de Altman (1968), lograron reducir el número
de ratios utilizados en las investigaciones univariantes al aplicar el método Multiple
Discriminant Analysis: MDA. Otros estudios se distinguieron por utilizar otras
técnicas de análisis multivariable como: el análisis discriminante lineal, el análisis
discriminante cuadrático, el análisis de regresión, el análisis de componentes
principales, el análisis factorial (para explicar la varianza de los ratios), el análisis
cluster (para reducir la colinealidad), el análisis con redes neuronales, y el análisis
de probabilidad condicional Logit y Probit (los cuales constituyen una mejor
variante de la regresión múltiple, ya que sí permiten definir a la variable
dependiente cualitativa como dicotómica o categórica).
Aunque los estudios pioneros de la década de los sesenta y setenta intentaron
limitar este fenómeno y capturar al mismo tiempo la mayor cantidad de
información útil en los ratios financieros, tales métodos actualmente se han
cuestionado. Por ejemplo, Atlman (1968) analizó las intercorrelaciones entre las
variables independientes antes de seleccionar las variables finales de su modelo.
El método que utilizó consistió sólo en analizar al mismo tiempo las correlaciones
entre dos pares de variables. Este análisis bivariable de intercorrelaciones estaba
muy lejos del actual concepto del análisis múltiple de correlaciones. Por otra parte,
Edmister (1972), y Rose-Giroux (1984) fueron más lejos y utilizaron la técnica de
selección “Stepwise” para determinar la contribución relativa de cada variable
independiente y su correlación con otras variables del modelo. Sin embargo, el
análisis “Stepwise” aunque limitó la multicolinealidad, el nivel de correlación
aceptable se estableció arbitrariamente.
4. LIMITACIONES DEL ANALISIS FINANCIERO MULTIVARIABLE
Algo que llama la atención es el constatar que a la fecha muchas investigaciones
continúan sin aplicar nuevas variantes en los modelos de análisis financiero
multivariable y en la fase de diseño del trabajo empírico, pues se interesan más en
la aplicación de las técnicas estadísticas. Sin embargo, para el trabajo del analista
financiero siempre es más importante la exactitud del modelo de evaluación con
respecto a la contrastación de una hipótesis o la validación rigurosa de una teoría
que sólo busca demostrar una compleja habilidad en el empleo de técnicas
informáticas y estadísticas que se apartan de ambientes reales. Lizarraga (1993)
también coincide con la idea anterior pues considera que la sofisticación
metodológica, aunque imprescindible en el avance de la técnica, transforma en
ocasiones a los investigadores en sólo “especuladores estadísticos”, que
fundamentados en buenos resultados tras largos procesos de contrastación de
variables, no tienen en cambio una base teórica y carecen de interpretaciones
económicas convincentes.
Ya Lev (1978) afirmó hace más de dos décadas que algunos modelos son
inadecuados y cuando se emplean, presentan generalmente el síntoma de la falta
de una teoría base, desvirtuando en experimentos excesivos con gran número de
variables y de modelos matemáticos cuyos datos y resultados son difíciles de
generalizar. Con respecto a esto se vuelve a recomendar que en la interpretación
y validación de los resultados exista una interpretación económica y financiera
para dar un sentido lógico a las causas del éxito
7. CONCLUSIONES
La conclusión principal a la que se ha llegado es que en general los modelos de
análisis financiero multivariable presentan dos fases para su desarrollo que son
muy complejas y de igual importancia. Sin embargo, en la primera de ellas poco se
ha trabajado en términos de una estrecha relación conceptual-empírica. La
primera fase comprende el estudio y estructuración detallada de la base de datos
para evitar el efecto window dressing, mantener la utilidad y confiabilidad del
sistema contable a través de los años para su comparabilidad, y llegar al máximo
grado de armonización conceptual entre los diferentes estados financieros
utilizados.
Continuando con esta fase, el siguiente paso consiste en que con la base de datos
se debe proceder siempre a estimar un conjunto de ratios financieros previamente
seleccionados y sustentados todos y cada uno de ellos dentro de un marco teórico
bien fundamentado, el cual también incluya la definición conceptual de la variable
dependiente. Si esto se ha cumplido, sólo entonces se debería proceder a utilizar
un método multivariable reductivo para determinar un conjunto de factores y
eliminar al mismo tiempo aquellos ratios que presenten una alta multicolinealidad.
Esto con el fin de llegar a obtener los ratios finales que representarán a los
factores con base en su alta correlación entre cada factor y cada ratio emparejado.
Una vez llevado a cabo lo anterior, consideramos que es de suma importancia que
al factor se le asigne un nombre clave de acuerdo al marco teórico que presentó
originalmente el ratio para su interpretación financiera.
Para concluir con esta síntesis sobre la metodología propuesta, se recomienda no
pasar por alto la importancia que conlleva seleccionar adecuadamente el sector de
la unidad de análisis, la unidad temporal, la muestra y la unidad geográfica. Sin
embargo, de no ser posible llevar con éxito el desarrollo de la primera fase en
términos generales, consideramos que definitivamente no se debería proceder al
desarrollo de la segunda fase, pues el modelo de análisis multivariable adolecería
de partida de un sustento conceptual y empírico necesario.
En cuanto a la segunda fase del modelo, consiste en determinar la variable
dependiente de forma categórica o numérica, e incorporar en una función lineal los
ratios seleccionados como variables independientes, asignándoles una
ponderación individual a cada uno de ellos con el fin de aplicar un método
multivariable clasificatorio para obtener porcentajes de exactitud y errores
predictivos “ex-ante” o “ex-post”.
La combinación adecuada y constante de nuevos estudios con base en flujos de
efectivo, valores bursátiles, valores de mercado y valores contables con base en el
devengo, puede llevarnos a una mayor exactitud de diagnostico como predictiva.
La descomposición cada vez más exacta de los elementos del cash flow total y la
incorporación de la información contenida en los componentes de los múltiplos de
mercado puede proporcionar al modelo financiero multivariable nuevas variables
independientes que incrementen la exactitud marginal, y por qué no, llegar tal vez
a proponer un nuevo factor dentro de las funciones lineales. Para esto se deberán
desarrollar nuevas propuestas de ratios financieros basados en una sólida teoría
que habrá nuevas oportunidades al investigador.
La nueva tendencia metodológica parece indicar que hay que intentar sumar o
restar variables o componentes a los actuales modelos financieros dentro del
sistema del devengo para incrementar el poder explicativo y predictivo del modelo.
Así lo constatan un gran número de investigaciones que están estableciendo
nuevas bases. Por ejemplo, los trabajos de Dambolena y Khoury inciados en los
ochenta han desarrollado modelos cuyo principal atributo es su estabilidad y
dinamicidad a través del tiempo y el mantenimiento del nivel explicativo de los
razones financieras o ratios dentro de los diversos tipos de funciones lineales.
Fuente:
GRIM, L. and YARNOLD, P.R. (1994). Reading and understanding multivariate statistics. American Psycological Association. Washington D.C
http://cashflow88.com/decisiones/5_PAPER_SOBRE_RATIOS_Y_SU_ANALISIS_ESTADISTICO_MULTIVARIABLE.pdf
www.ine.gov.ar/.../PRESENCIAL.Estadistica%20Avanzada.pdf