agrupacion y reduccion
DESCRIPTION
eeTRANSCRIPT
-
TCNICAS DE AGRUPACIN Y
REDUCCIN DE LA
DIMENSIN
Juan Carlos Ruiz Molina
Departamento de Estadstica e I.O.
Universidad de Jan
-
ndice general
1. Representacin de Datos Multivariantes 1
1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Clasicacin de las Tcnicas Multivariantes . . . . . . . . . . 4
1.2.1. Tcnicas de dependencia . . . . . . . . . . . . . . . . . 4
1.2.2. Tcnicas de interdependencia . . . . . . . . . . . . . . 6
1.2.3. Otros criterios de clasicacin . . . . . . . . . . . . . . 7
1.3. Estadsticos Multivariantes . . . . . . . . . . . . . . . . . . . 8
1.3.1. Estadsticos para el vector completo de variables . . . 8
1.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.3. Estadsticos para subconjuntos de variables . . . . . . 14
1.3.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.5. Combinaciones lineales de variables . . . . . . . . . . . 17
1.3.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.7. Medidas de la variabilidad total y de multicolinealidad 23
1.3.8. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.3.9. Distancia entre vectores . . . . . . . . . . . . . . . . . 26
1.3.10. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4. Valores Perdidos . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.4.1. Diagnstico de la aleatoriedad . . . . . . . . . . . . . . 30
1.4.2. Tratamiento . . . . . . . . . . . . . . . . . . . . . . . . 32
1.4.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 33
1.5. Observaciones atpicas . . . . . . . . . . . . . . . . . . . . . . 35
1.5.1. Deteccin de casos atpicos . . . . . . . . . . . . . . . 36
1.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2. Anlisis de Componentes Principales 42
2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2. Componentes principales a partir de la matriz de covarianzas 44
2.2.1. Interpretacin geomtrica . . . . . . . . . . . . . . . . 48
1
-
2.2.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.2.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3. Componentes principales a partir de la matriz de correlaciones 52
2.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4. Representacin grca de las componentes principales . . . . 55
2.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.5. Nmero de componentes principales a retener . . . . . . . . . 61
2.5.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.6. Informacin en las ltimas componentes principales . . . . . . 65
2.7. Interpretacin de las componentes principales . . . . . . . . . 65
2.7.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.7.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.7.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3. Anlisis Factorial 74
3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.2. Modelo factorial ortogonal . . . . . . . . . . . . . . . . . . . . 77
3.2.1. Formulacin e hiptesis . . . . . . . . . . . . . . . . . 77
3.2.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2.3. No unicidad de las cargas factoriales . . . . . . . . . . 82
3.2.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.3. Estimacin de las cargas y las comunalidades . . . . . . . . . 84
3.3.1. Mtodo de las componentes principales . . . . . . . . . 84
3.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 87
3.3.3. Mtodo de los ejes principales . . . . . . . . . . . . . . 89
3.3.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.3.5. Mtodo de mxima verosimilitud . . . . . . . . . . . . 93
3.3.6. Otros mtodos de extraccin de factores . . . . . . . . 93
3.3.7. Comparacin de mtodos . . . . . . . . . . . . . . . . 94
3.3.8. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.4. Determinacin del nmero de factores . . . . . . . . . . . . . 96
3.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.4.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.5. Rotacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.5.1. Rotacin ortogonal . . . . . . . . . . . . . . . . . . . . 100
3.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.5.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2
-
3.5.4. Rotacin oblicua . . . . . . . . . . . . . . . . . . . . . 104
3.5.5. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.5.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.5.7. Interpretacin . . . . . . . . . . . . . . . . . . . . . . . 108
3.6. Puntuaciones factoriales . . . . . . . . . . . . . . . . . . . . . 109
3.6.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.7. Validez de modelo de anlisis factorial . . . . . . . . . . . . . 111
3.7.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 113
3.7.2. Tamao muestral . . . . . . . . . . . . . . . . . . . . . 114
3.7.3. Contrastes en el modelo factorial . . . . . . . . . . . . 116
3.7.4. Consistencia interna . . . . . . . . . . . . . . . . . . . 117
3.7.5. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.7.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.8. Relacin entre el AF y el ACP . . . . . . . . . . . . . . . . . 121
3.9. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.10. La cuestin del nmero de factores a retener: una visin moderna129
3.11. AF con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4. Anlisis de Correspondencias 135
4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.2. Perles la y columna . . . . . . . . . . . . . . . . . . . . . . 136
4.2.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.3. Contraste de independencia . . . . . . . . . . . . . . . . . . . 141
4.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4.4. Coordenadas para representar grcamente a los perles las
y a los perles columnas . . . . . . . . . . . . . . . . . . . . . 144
4.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.5. Normalizacin e interpretacin del ACO . . . . . . . . . . . . 148
4.5.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.6. Masa, inercia, contribucin y calidad . . . . . . . . . . . . . . 149
4.6.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 153
4.6.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 155
4.7. Puntos suplementarios . . . . . . . . . . . . . . . . . . . . . . 158
4.7.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 159
4.7.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 163
4.8. Anlisis de Correspondencias Mltiple . . . . . . . . . . . . . 165
4.8.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 168
4.8.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 169
3
-
5. Anlisis Cluster 174
5.1. Medidas de similitud o disimilitud . . . . . . . . . . . . . . . 176
5.2. Agrupamiento jerrquico . . . . . . . . . . . . . . . . . . . . . 177
5.2.1. Encadenamiento simple o vecino ms prximo . . . . . 178
5.2.2. Encadenamiento completo o vecino ms alejado . . . . 182
5.2.3. Encadenamiento medio . . . . . . . . . . . . . . . . . . 184
5.2.4. Centroide . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.2.5. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . 186
5.2.6. Mtodo de Ward . . . . . . . . . . . . . . . . . . . . . 188
5.2.7. Propiedades de los mtodos jerrquicos . . . . . . . . . 190
5.3. Mtodos no jerrquicos: mtodo de las k-medias . . . . . . . . 1955.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.4. Eleccin del nmero de clusters . . . . . . . . . . . . . . . . . 199
5.5. Validacin de clusters . . . . . . . . . . . . . . . . . . . . . . 200
5.6. Agrupamiento de variables . . . . . . . . . . . . . . . . . . . . 201
5.7. Hiptesis del AC . . . . . . . . . . . . . . . . . . . . . . . . . 203
5.8. ACP y AC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
4
-
Captulo 1
Representacin de Datos
Multivariantes
1.1. Introduccin
El anlisis multivariante consiste en una coleccin de mtodos que pueden
ser utilizados cuando se dispone de diversas medidas sobre cada individuo
u objeto en una o ms muestras. No referiremos a las medidas como va-
riables y a los individuos u objetos como unidades
1
, observaciones o casos.
En la prctica, los conjuntos de datos multivariantes son comunes, aunque
no siempre se analizan atendiendo a tal caracterstica. El uso exclusivo de
procedimientos univariantes con datos multivariantes ignora la informacin
conjunta que presentan y debe recurrirse a las tcnicas multivariantes para
descubrir la informacin que contienen. En concreto, estas tcnicas permiten
evaluar relaciones simultneas entre varias variables, lo que constituye un
objetivo primordial en la mayor parte de las investigaciones cientcas. Ade-
ms, la potencia de clculo que proporcionan los ordenadores actuales y el
software disponible hacen inexcusable el uso de los mtodos multivariantes.
Histricamente, la mayor parte de las aplicaciones de las tcnicas multi-
variantes han sido en las ciencias biolgicas y del comportamiento. Sin em-
bargo, su inters se ha ampliado a otros numerosos campos de investigacin.
De hecho, son frecuentemente aplicadas en estudios de economa, empresa,
marketing, investigacin de mercados, nanzas, ingeniera, psicologa, etc.
Algunos ejemplos de problemas que presentan observaciones multivariantes
son los siguientes:
1
Unidades muestrales o experimentales.
1
-
i) Economa: estudio de la relacin existente entre el tipo de inters de
las letras del Tesoro, la tasa de inacin anual calculada sobre el IPC
y el dcit como un porcentaje del PIB.
ii) Empresa: investigacin sobre ingresos, nivel educativo y experiencia de
los ejecutivos junto con el tamao de la empresa.
iii) Marketing: anlisis conjunto de los gastos en publicidad, laborales, en
materias primas y las ventas del producto.
iv) Investigacin de mercados: determinacin del perl de los consumidores
en funcin de sus edad, sexo, estrato social, ingresos, etc.
v) Finanzas: decisin sobre la concesin de crditos a partir de los ingre-
sos, ahorros, patrimonio, nivel de deudas contradas, estabilidad en el
empleo, etc.
De estos ejemplos se desprende que la escala de medida de las variables
intervinientes puede ser distinta. Por ejemplo, a un individuo se le puede des-
cribir en relacin a caractersticas tales como la edad, el nivel educativo, los
ingresos, el sexo, el coeciente de inteligencia, la puntuacin en una prueba
de actitud o la preferencia por una marca u otra. Este simple ejemplo pone
de maniesto que las variables pueden ser de dos tipos: 1) cuantitativas o
mtricas y 2) cualitativas o no mtricas. Dentro de esta clasicacin pode-
mos a su vez subdividir de la siguiente forma. Las cuantitativas pueden ser
de: a) intervalo o b) razn; y las cualitativas pueden ser: c) nominales u d)
ordinales.
La escala nominal es la ms bsica, presenta valores que son categoras
exhaustivas y mutuamente excluyentes y no puede establecerse un orden en
ella (por ejemplo, el sexo o la preferencia por una marca). La siguiente es
la ordinal que, presentando las caractersticas anteriores, puede establecerse
un orden entre ellas (por ejemplo, el nivel educativo). La escala de intervalo
aade a las caractersticas anteriores el hecho de que las diferencias tienen
sentido aunque no tienen un cero absoluto, es decir, el punto cero de la escala
es arbitrario (por ejemplo, el coeciente de inteligencia o la puntuacin en
una prueba de actitud). As se puede armar que la distancia entre 100 y
120 en el coeciente de inteligencia es la misma que la existente entre 80
y 100. Lo que no podemos establecer es que un coeciente de 70 equivale
a la mitad de uno de 140. Por ltimo, la escala de razn posee las mismas
caractersticas que la escala de intervalo, con la diferencia que cuentan con un
cero absoluto; es decir, el valor cero representa la ausencia total de medida,
por lo que se puede realizar cualquier operacin aritmtica (suma, resta,
2
-
multiplicacin y divisin) y lgica (comparacin y ordenamiento). Este tipo
de escala permite el nivel ms alto de medicin. La edad, altura o el salario,
son algunos ejemplos de este tipo de escala de medida
2
.
Las escalas de medida deben ser adecuadas para medir las caractersticas
objeto de estudio. El tipo de escala utilizado es fundamental en la eleccin
y aplicacin correcta del anlisis multivariante. En determinadas tcnicas es
necesario que las variables tengan similar escala de medida (por ejemplo, el
anlisis de perles). Sin embargo, la mayor parte de las tcnicas no precisan
esta condicin.
En general, las variables son medidas simultneamente sobre cada uni-
dad muestral. Estas variables estn tpicamente correladas. Si no fuera as,
muchas de las tcnicas del anlisis multivariantes sera intiles. El reto es
desenmaraar la informacin comn que presentan las variables correladas
y descubrir su estructura subyacente. Por tanto, el objetivo de muchas tc-
nicas multivariantes es la simplicacin. A este propsito lo denominaremos
reducir la dimensin. Tales tcnicas son exploratorias en el sentido de que
esencialmente son utilizadas para generar hiptesis en lugar de contrastarlas.
Por otro lado, si nuestro objetivo es un test de hiptesis formal necesitare-
mos tcnicas que permitan contrastar informacin relativa a varias variables
preservando el nivel de signicacin y para cualquier estructura de interco-
rrelacin de las mismas. Estas tcnicas son denominadas inferenciales.
Como hemos indicado, el anlisis multivariante se ocupa generalmente de
dos reas: exploratoria e inferencial. En el campo descriptivo, se obtiene a
menudo combinaciones lineales ptimas de variables. El criterio de optimali-
dad depende de la tcnica. Aunque las combinaciones lineales pueden parecer
demasiado simples para revelar la estructura subyacente, las utilizaremos por
dos motivos obvios: por ser tratables matemticamente y por funcionar bien
con frecuencia en la prctica. Esas combinaciones lineales pueden tambin
ser tiles como un complemento a los procedimientos inferenciales. En el rea
inferencial, los tests multivariantes proporcionan un control total para la tasa
de error experimental, es decir, independientemente del nmero de variables
involucradas en el contraste, el valor del nivel de signicacin permanece en
el nivel jado por el investigador.
2
Debido a la similitud existente entre las escalas de intervalo y de razn, SPSS las ha
reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala.
Las variables de escala son para SPSS todas aquellas variables cuyos valores representan
magnitudes, ya sea que cuenten con un cero absoluto o no.
3
-
1.2. Clasicacin de las Tcnicas Multivariantes
La importancia de una adecuada clasicacin de las tcnicas multiva-
riantes no reside tanto en la necesidad tipolgica, sino en que es necesario
disponer de ella para una correcta eleccin de la tcnica para resolver el
problema planteado. Las siguientes preguntas ayudan en este propsito:
1. El estudio responde a un problema de dependencia entre variables o
de interdependencia de entre las mismas?.
2. Cmo estn medidas las variables implicadas, en escala mtrica o no
mtrica?.
3. Si estamos en un problema de dependencia, cuntas relaciones se plan-
tean entre las variables dependientes e independientes?, cuntas va-
riables dependientes existen?.
1.2.1. Tcnicas de dependencia
Las tcnicas de anlisis de dependencia investigan las relaciones existen-
tes entre dos grupos de variables. Si por conocimiento previo se es capaz
de caracterizar a un grupo de variables como dependiente y al otro como
independiente
3
, entonces el objetivo ser establecer si el conjunto de varia-
bles independientes afecta al conjunto de dependientes de forma individual o
simultnea. Por ejemplo, si en un grupo de individuos se miden sus ingresos,
nivel de estudios, edad y sexo, podemos plantearnos si los ingresos (varia-
ble dependiente) pueden explicarse a travs del resto de variables (variables
independientes). Estaramos ante un problema de dependencia y sera nece-
sario ver cmo estn medidas las variables para elegir entre una tcnica u
otra.
Sin embargo, podemos encontrarnos ante un problema en el que sea im-
posible distinguir conceptualmente entre variables dependientes e indepen-
dientes. Nos interesa simplemente saber cmo se relacionan las variables
del problema. Los mtodos estadsticos que abordan estas cuestiones seran
los denominados de interdependencia. Siguiendo con el ejemplo anterior, el
investigador puede querer saber si considerando todas las variables que ca-
racterizan a los individuos puede encontrarse grupos de individuos que se
3
La caracterizacin de un conjunto de variables como independientes responde al hecho
de que la informacin que stas contiene es utilizada para explicar el comportamiento del
otro conjunto de variables, denominadas entonces variables dependientes. Se establece
por tanto una direccin en la explicacin del comportamiento de las variables, siendo las
variables independientes las que explican el comportamiento de las dependientes.
4
-
parezcan mucho entre s respecto a estas variables y que dieran de otros
grupos. Aqu no nos encontramos ante dos conjuntos de variables, sino que se
consideran todas juntas. La tcnica que se elija para resolver este problema
deber pertenecer al grupo de mtodos de interdependencia.
Las principales tcnicas de dependencia son las siguientes:
i) Regresin lineal mltiple: pretende analizar la relacin existente en-
tre una variable dependiente mtrica y un conjunto de variables in-
dependientes mtricas o no mtricas. Por ejemplo, queremos analizar
la relacin existente entre el nivel de ingresos medido en euros y el
nivel educativo, sexo y edad. En este caso, las variables independien-
tes (educacin, edad y sexo) pretenden explicar el comportamiento de
una nica variable dependiente mtrica (ingresos). Si existe ms de
una variable dependiente y todas son mtricas, entonces la tcnica se
denomina regresin lineal mltiple multivariante.
ii) Anlisis discriminante y regresin logstica: tienen un propsito similar
a la regresin lineal mltiple pero ahora la variable dependiente es no
mtrica. Por ejemplo, si el nivel de ingresos est codicado en tres
niveles (subsistencia, medio y alto).
iii) Anlisis multivariante de la varianza (MANOVA): trata de explicar
un conjunto de diversas variables mtricas a partir de un conjunto de
variables independientes no mtricas. Por ejemplo, si se desea explicar
el nivel de ingresos en euros y aos de permanencia en la empresa
(variables dependientes) en funcin del sexo, nivel educativo (ESO,
bachiller o universitario) y nivel de ingls hablado (bsico, intermedio
y alto).
iv) Anlisis de correlaciones cannicas: a diferencia del anlisis de regre-
sin lineal mltiple multivariante, en donde un grupo de variables inde-
pendientes (mtricas o no) explican a otro grupo de variables mtricas
y no al revs, ahora el tratamiento de ambos conjuntos de variables es
del mismo modo o de forma simtrica. Por ejemplo, supongamos que
el primer grupo de variables es de rendimiento escolar y el segundo de
uso del tiempo de ocio entre estudiantes. En este caso, no existe clara-
mente un conjunto de variables que sea la causa del otro, es decir, no
es posible caracterizar a un grupo como de variables dependientes y a
otro como de independientes. En general, este tipo de anlisis se utiliza
cuando un conjunto de variables puede dividirse en dos grupos homog-
neos (por criterios econmicos, demogrcos, sociales, etc.) y se desea
5
-
estudiar la relacin entre ambos conjuntos de variables. En particular,
los dos grupos pueden corresponder a las mismas variables medidas en
dos momentos distintos en el tiempo, espacio, etc. Esta tcnica es muy
general y permite en ambos grupos tanto variables mtricas como no
mtricas.
v) Ecuaciones estructurales: en todos los casos anteriores el investigador
busca evaluar la intensidad de una nica relacin entre dos conjuntos de
variables. La extensin a ms de una ecuacin es el objeto del conjunto
de tcnicas denominadas sistemas de ecuaciones estructurales, entre las
que se encuentran el anlisis factorial conrmatorio y los modelos de
estructura de covarianza.
1.2.2. Tcnicas de interdependencia
Como se ha comentado anteriormente, existen situaciones de investiga-
cin en las que es imposible separar las variables en dos grupos distintos y
lo que interesa es determinar cmo y por qu estn relacionadas entre ellas.
Las principales tcnicas de interdependencia son:
i) Anlisis de componentes principales: es una tcnica de reduccin de va-
riables cuyo objetivo fundamental es construir combinaciones lineales
de las variables originales que expliquen la mayor parte de la informa-
cin recogida en stas. Cada combinacin lineal se extrae de tal forma
que est incorrelada con las anteriores y, adems, contiene cada vez
menos informacin sobre las variables originales que las anteriores. Por
ejemplo, un analista contable puede extraer del balance muchos indica-
dores nancieros para medir la salud de su empresa. Puede emplearlos
todos o, por el contrario, obtener un nmero reducido de combinacio-
nes lineales de ellos que aporten una informacin aproximada a la que
se obtendran con todos ellos. Es ms sencillo comparar empresas a
partir de dos indicadores que con muchos de ellos.
ii) Anlisis factorial: es tambin una tcnica de reduccin de variables
pero, a diferencia de la anterior, el inters se centra en establecer qu
factores latentes (no observables) pueden estar causando la correlacin
entre las variables observadas. Puede considerarse como una tcnica
que pretende identicar grupos de variables de tal forma que la co-
rrelacin de las variables dentro de cada grupo sean superiores a las
correlaciones de las variables entre grupos diferentes.
6
-
iii) Anlisis de correspondencias: permite visualizar grcamente tablas de
contingencia. Por ejemplo, si deseamos investigar si existe relacin en-
tre dos variables no mtricas, cada una de las cuales tiene 20 categoras.
Un ejemplo concreto sera analizar la relacin entre el tipo de ocupacin
y la universidad donde el sujeto se gradu. La tabla 2020 resultanteno resulta fcil de estudiar, sin embargo, el anlisis de corresponden-
cias permitir mostrar un mapa, probablemente bidimensional, en el
que una universidad estar tanto ms cerca de un tipo de ocupacin
cuanto mayor sea la frecuencia de esa celda en la tabla de contingencia.
iv) Anlisis cluster: a diferencia del anlisis factorial o de componente
principales cuyo objetivo es agrupar variables, esta tcnica pretende
agrupar observaciones. La agrupacin se realiza de tal forma que las
observaciones de cada grupo o conglomerado sean lo ms parecidas po-
sible respecto a las caractersticas que miden las variables consideradas
y lo ms diferentes posibles en relacin a esas caractersticas de otras
observaciones que estn en otros grupos distintos.
v) Escalamiento multidimensional: permite al investigador descubrir qu
criterios subyacentes utilizan los individuos para considerar que distin-
tos objetos son parecidos o distintos entre s. Una de las principales
utilidades de este anlisis es la construccin de mapas, normalmente
bidimensionales, donde los objetos estn tanto ms cercanos cuanto
ms parecidos son para el conjunto de individuos entrevistados.
1.2.3. Otros criterios de clasicacin
Evidentemente el criterio utilizado atendiendo al nmero de grupos y
a la naturaleza de las variables para clasicar a las tcnicas multivariantes
es uno de los posibles. Otros criterios son tambin admisibles. Por ejemplo,
en funcin del objetivo de la tcnica. As, si los que se pretende es reducir
la dimensin del problema original, tal y como hacen el anlisis de compo-
nentes principales, el anlisis factorial, el anlisis de correspondencias o el
escalamiento multidimensional, estaremos ante una tcnica de reduccin de
la dimensin. Si lo que se pretende es agrupar observaciones, tal y como hace
el anlisis cluster u otros mtodos de agrupacin, estaremos ante una tcnica
de agrupacin. Por otro lado, si lo que pretendemos es estudiar la asocia-
cin entre variables, tal y como hacen los mtodos de regresin, el anlisis
multivariante de la varianza o el anlisis de correlaciones cannicas, habla-
remos de una tcnica de asociacin. Por ltimo, si el objetivo es describir
cmo se clasican las observaciones en grupos predeterminados, como hacen
7
-
el anlisis discriminante y la regresin logstica, estaremos ante tcnicas de
clasicacin. Esta divisin de las tcnicas por objetivos, aunque no de forma
literal, es la que ha dado nombre a las asignaturas de contenidos de Anlisis
Multivariante que aparecen en el Grado de Estadstica y Empresa.
1.3. Estadsticos Multivariantes
Esta seccin tiene por objeto introducir los estimadores multivariantes
ms importantes. Para ello vamos a considerar diversos casos: el primero
recoge la situacin en la que nos interesa el vector de variables de forma
completa, el segundo est relacionado con la divisin del vector original en
dos subvectores y el tercero trata con combinaciones lineales de variables del
vector aleatorio. Posteriormente estudiaremos como sintetizar en un nico
valor la dispersin total que tienen los datos multivariantes y el problema
de la multicolinealidad que aparece cuando las variables del vector aleatorio
presentan una alta relacin lineal entre ellas.
1.3.1. Estadsticos para el vector completo de variables
Consideremos un vector aleatorio y = (y1; ; yp)0 y supongamos quehemos obtenido una muestra sobre n individuos denotada por y1; : : : ;yn,donde yi = (yi1; : : : ; yip)
0, i = 1; : : : ; n. El vector media muestral y se puedecalcular de la forma:
y =1
n
nXi=1
yi = (y1; : : : ; yp)0(1.1)
donde yj =1n
Pni=1 yij . Por tanto, yj es la media muestral de la variable yj .Las n observaciones vectoriales y1; : : : ;yn pueden ser transpuestas a vec-tores las y recogidas en la matriz de datos Y como sigue:
Y =
0BBBBBBBB@
y01y02.
.
.
y0i.
.
.
y0n
1CCCCCCCCA=
0BBBBBBBB@
y11 y12 y1j y1py21 y22 y2j y2p.
.
.
.
.
.
.
.
.
.
.
.
yi1 yi2 yij yip.
.
.
.
.
.
.
.
.
.
.
.
yn1 yn2 ynj ynp
1CCCCCCCCA(1.2)
donde las las representan a las unidades y las columnas a las variables.
Puesto que n es usualmente mayor que p, los datos son tabulados ms conve-nientemente introduciendo las observaciones como las en lugar de columnas.
8
-
Ntese que el primer subndice i corresponde a las unidades y el segundo j alas variables. Aparte de las dos formas de calcular
y dadas en (1.1) podemostambin obtenerla a partir de la matriz de datos Y de la forma siguiente:
y0 =1
nj0Y (1.3)
donde j0 = (1; 1; : : : ; 1) o tomando transpuestas:
y =1
nY0j (1.4)
La media de y sobre todos los posibles valores en la poblacin es deno-minada vector de medias poblacional o valor esperado de y y se dene:
= E(y) =
0BBB@E(y1)E(y2).
.
.
E(yp)
1CCCA =0BBB@12.
.
.
p
1CCCAdonde j es la media poblacional de la variable yj . Se verica que:
E(y) =
0BBB@E(y1)E(y2).
.
.
E(yp)
1CCCA =0BBB@12.
.
.
p
1CCCA = y, por tanto,
y es un estimador insesgado de .La matriz de varianzas-covarianzas muestral S = (sjk) es la matriz delas covarianzas muestrales:
S =
0BBB@s11 s12 s1ps21 s22 s2p.
.
.
.
.
.
.
.
.
sp1 sp2 spp
1CCCALa diagonal principal de S est conformada por las varianzas muestralesde las p variables, para las cuales suele utilizarse la notacin sjj = s
2j , mien-
tras que las covarianzas muestrales aparecen fuera de esta diagonal principal.
A S tambin se le denomina matriz de covarianzas y matriz de dispersin.Existen tres formas para obtener S. La primera de ellas es elemento a ele-mento:
sjk =1
n 1nXi=1
(yij yj)(yik yk) = 1n 1
nXi=1
yijyik nyj yk!
9
-
La segunda forma utiliza vectores de observaciones:
S =1
n 1nXi=1
(yi y)(yi y)0 = 1n 1
nXi=1
yiy0i nyy0
!Por ltimo, se puede obtener S directamente a partir de Y. Para ello hayque tener en cuenta que de (1.2) se verica:
nXi=1
yiy0i = (y1;y2; : : : ;yn)
0BBB@y01y02.
.
.
y0n
1CCCA = Y0Yy que:
jj0 = J =
0BBB@1 1 11 1 1.
.
.
.
.
.
.
.
.
1 1 1
1CCCAy as, teniendo en cuenta (1.3) y (1.4), se sigue que:
nyy0 =1
nY0jj0Y =
1
nY0JY
En consecuencia, de la segunda forma, se tiene que:
S =1
n 1Y0Y Y0
1
nJ
Y
=
1
n 1Y0I 1
nJ
Y
Esta ltima expresin es una representacin conveniente de S ya que haceuso directo de la matriz de datos Y. Sin embargo, la matriz IJ=n es nny puede suponer un alto coste computacional si n es grande.Por otra parte, la expresin Yc =
I 1nJ
Y es la forma centrada4 de la
matrizY. Por multiplicacin directa, es fcil demostrar queI 1nJ
0 I 1nJ
=
I 1nJy as podemos expresar:
S =1
n 1Y0I 1
nJ
Y
=1
n 1Y0I 1
nJ
0I 1
nJ
Y
=1
n 1Y0cYc (1.5)
4
Veamos que Yc es la versin centrada de Y, es decir, sus datos tienen media 0. Para
10
-
La matriz de covarianzas poblacional es denida:
= E[(y )(y )0] =
0BBB@11 12 1p21 22 2p.
.
.
.
.
.
.
.
.
p1 p2 pp
1CCCAen donde los elementos diagonales jj =
2j = E(yj j)2 son las varianzaspoblacionales de las variables yj y los elementos fuera de la diagonal principaljk = E[(yj j)(yk k)] son las covarianzas poblacionales de yj e yk,j; k = 1; : : : ; p. Se verica adems que:
= E(yy0) 0
Dado que E(sjk) = jk, entonces E(S) = y S es un estimador inses-gado de .El tercer estadstico multivariante que vamos a estudiar es la matriz de
correlaciones. La correlacin muestral entre las variables yj e yk se denecomo:
rjk =sjkpsjjskk
=sjksjsk
La matriz de correlaciones muestral es anloga a la matriz de covarian-
zas en la que se sustituyen las covarianzas muestrales por sus respectivas
ello tengamos en cuenta que:
Yc =
I 1
nJ
Y = Y 1
nJY = Y 1
njj0Y = Y jy0
=
0BBB@y11 y12 y1py21 y22 y2p.
.
.
.
.
.
.
.
.
yn1 yn2 ynp
1CCCA0BBB@11.
.
.
1
1CCCA (y1; : : : ; yp)
=
0BBB@y11 y12 y1py21 y22 y2p.
.
.
.
.
.
.
.
.
yn1 yn2 ynp
1CCCA0BBB@y1 y2 ypy1 y2 yp.
.
.
.
.
.
.
.
.
y1 y2 yp
1CCCA
=
0BBB@y11 y1 y12 y2 y1p ypy21 y1 y22 y2 y2p yp.
.
.
.
.
.
.
.
.
yn1 y1 yn2 y2 ynp yp
1CCCA
11
-
correlaciones muestrales:
R =
0BBB@1 r12 r1pr21 1 r2p.
.
.
.
.
.
.
.
.
rp1 rp2 1
1CCCALa matriz de correlaciones puede obtenerse a partir de la matriz de co-
varianzas, y vice versa. Para ver esto, denamos:
Ds = diag(ps11;
ps22; : : : ;
pspp) = diag(s1; s2; : : : ; sp) =
0BBB@s1 0 00 s2 0.
.
.
.
.
.
.
.
.
0 0 sp
1CCCAentonces:
R = D1s SD1s
S = DsRDs
Denotemos por Z a la matriz de datos estandarizada, entonces Z = (zij),con zij = (yij yj)=sj . Adems, se verica que Z = YcD1s y la matrizde covarianzas de Z es la matriz de correlaciones de Y. Para demostrar estaarmacin, utilizamos la tercera forma de clculo de la matriz de covarianzas:
Sz =1
n 1Z0Z Z0
1
nJ
Z
(ya que nzz0 =
1
nZ0JZ = 0)
=1
n 1Z0Z (Z = YcD1s )
= D1sY0cYcn 1D
1s (por (1.5))
= D1s SD1s = R
La matriz de correlaciones poblacional se dene como:
P =
0BBB@1 12 1p21 1 2p.
.
.
.
.
.
.
.
.
p1 p2 1
1CCCAdonde
jk =jkjk
Finalmente, indicar que R es un estimador sesgado de P.
12
-
1.3.2. Ejemplo
El chero europa contiene datos referidos a los porcentajes de empleados
en diferentes sectores productivos de 26 pases europeos en 1979. De este
chero hemos extrado las 10 primeras observaciones correspondientes a las
3 primeras variables. Los datos aparecen en la tabla adjunta en donde:
1. Agr: porcentaje de empleados en agricultura (y1)
2. Min: porcentaje de empleados en minera (y2)
3. Man: porcentaje de empleados en industria (y3)
Pas Agr Min Man
1 Belgium 3.30 0.90 27.60
2 Denmark 9.20 0.10 21.80
3 France 10.80 0.80 27.50
4 W. Germany 6.70 1.30 35.80
5 Ireland 23.20 1.00 20.70
6 Italy 15.90 0.60 27.60
7 Luxembourg 7.70 3.10 30.80
8 Netherlands 6.30 0.10 22.50
9 United Kingdom 2.70 1.40 30.20
10 Austria 12.70 1.10 30.20
Para obtener el vector de medias calculamos las medias por variable:
y0 = (y1; y2; y3) = (9:85; 1:04; 27:47). La matriz de varianzas-covarianzasmuestrales es:
S =
0@ 38:38 0:69 12:690:69 0:72 2:2612:69 2:26 22:01
1Adonde, por ejemplo, la covarianza s23 se ha calculado de la forma:
10Xi=1
yi2yi3 = 0:9 27:6 + 0:1 21:8 + + 1:4 30:2 + 1:1 30:2 = 306:05
y as:
s23 =1
10 1
10Xi=1
yi2yi3 10y2y3!
=1
9(306:05 10 1:04 27:47) = 2:26
13
-
Teniendo en cuenta que:
Ds =
0@p38:38 0 0
0p0:72 0
0 0p22:01
1Aentonces:
R = D1s SD1s =
0@ 1 0:13 0:430:13 1 0:560:43 0:56 1
1A1.3.3. Estadsticos para subconjuntos de variables
En ocasiones el investigador est interesado en dos clases diferentes de
variables, ambas medidas sobre el mismo conjunto de unidades muestrales.
Por ejemplo, diversas variables que miden el comportamiento del consumidor
son observadas para un grupo de personas durante un periodo de tiempo y se
desea estudiar la relacin entre tales variables en funcin del sexo del consu-
midor. Denotemos a los dos subvectores y = (y1; ; yp)0 y x = (x1; ; xq)0.As, cada observacin muestral puede ser dividida de la forma:
yixi
=
0BBBBBBBB@
yi1.
.
.
yipxi1.
.
.
xiq
1CCCCCCCCA; i = 1; : : : ; n
Para la muestra de n observaciones vectoriales, el vector de medias y lamatriz de covarianzas pueden expresarse:
yx
=
0BBBBBBBB@
y1.
.
.
ypx1.
.
.
xq
1CCCCCCCCAy S =
Syy SyxSxy Sxx
donde Syy es pp, Syx es pq, Sxy es qp y Sxx es qq. Ntese que, dadoque S es simtrica, ha de vericarse Sxy = S
0yx. Por ejemplo, para p = 2 y
14
-
q = 3 se tiene que:
yx
=
0BBBB@y1y2x1x2x3
1CCCCA
S =
Syy SyxSxy Sxx
=
0BBBBB@s2y1 sy1y2 sy1x1 sy1x2 sy1x3sy2y1 s
2y2 sy2x1 sy2x2 sy2x3
sx1y1 sx1y2 s2x1 sx1x2 sx1x3
sx2y1 sx2y2 sx2x1 s2x2 sx2x3
sx3y1 sx3y2 sx3x1 sx3x2 s2x3
1CCCCCADe esta forma, Syy es la matriz de covarianzas de y y Sxx la matriz decovarianzas de x, mientras que Syx es la matriz de covarianzas5
entre y y x.Adems, ya que sykxl = sxlyk , se tiene que Sxy = S
0yx.
Los correspondientes parmetros poblacionales pueden ser divididos anlo-
gamente:
E
yx
=
E(y)E(x)
=
yx
cov
yx
= =
yy yxxy xx
donde xy =
0yx. La submatriz yy es una matriz de covarianzas p p quecontiene en su diagonal principal a las varianzas de y1; : : : ; yp y fuera de staa las covarianzas entre yk e yj para j; k = 1; : : : ; p, con j 6= k. Similarmentexx es la matriz de covarianzas de x1; : : : ; xq y tiene dimensiones q q. Porltimo, yx es p q y contiene las covarianzas de cada yj con cada xk. Lamatriz yx es denotada tambin por cov(y;x)6
.
Si y y x son independientes entonces yx = 0. Esto signica que cadayj est incorrelada con cada xk por lo que yjxk = 0 para j = 1; : : : ; p yk = 1; : : : ; q.La extensin a ms de dos subconjuntos de variables es inmediata. Si el
5
Tambin denominada matriz de covarianzas cruzada de y y de x.6
Ntese la diferencia de notacin entre: cov(y;x) = E[(y y)(x x)0] = yx ycov
yx
= . La primera involucra a dos vectores y la segunda implica a un vector nico
de p+ q variables.
15
-
vector de observaciones y es dividido de la forma siguiente:
y =
0BBB@y1y2.
.
.
yk
1CCCAdonde y1 tiene p1 variables, y2 tiene p2 variables, ..., yk tiene pk variablescon p1 + p2 + + pk = p, entonces esta particin induce otras en el vectorde medias y en la matriz de covarianzas muestrales dadas por:
y =
0BBB@y1y2.
.
.
yk
1CCCA y S =0BBB@S11 S12 S1kS21 S22 S2k.
.
.
.
.
.
.
.
.
Sk1 Sk2 Skk
1CCCAPor ejemplo, la submatriz S2k tiene dimensiones p2 pk y contiene lascovarianzas de las variables en y2 con las variables en yk.Los correspondientes parmetros poblacionales pueden subdividirse de
igual forma:
=
0BBB@12.
.
.
k
1CCCA y =0BBB@11 12 1k21 22 2k.
.
.
.
.
.
.
.
.
k1 k2 kk
1CCCA1.3.4. Ejemplo
Supongamos ahora que consideramos 2 variables adicionales del chero
europa tratado en el ejemplo anterior y que ahora las dividimos en dos grupos
de acuerdo al sector productivo al que pertenecen: primario (y) y secundario(x). En concreto, consideramos las 5 variables siguientes y con los datos queaparecen en la tabla posterior:
1. Agr:% de empleados en agricultura (y1)
2. Min:% de empleados en minera (y2)
3. Man:% de empleados en industria (x1)
4. PS:% de empleados en las industrias suministradoras de energa (x2)
5. Con:% de empleados en la construccin (x3)
16
-
Pas Agr Min Man PS Con
1 Belgium 3.30 0.90 27.60 0.90 8.20
2 Denmark 9.20 0.10 21.80 0.60 8.30
3 France 10.80 0.80 27.50 0.90 8.90
4 W. Germany 6.70 1.30 35.80 0.90 7.30
5 Ireland 23.20 1.00 20.70 1.30 7.50
6 Italy 15.90 0.60 27.60 0.50 10.00
7 Luxembourg 7.70 3.10 30.80 0.80 9.20
8 Netherlands 6.30 0.10 22.50 1.00 9.90
9 United Kingdom 2.70 1.40 30.20 1.40 6.90
10 Austria 12.70 1.10 30.20 1.40 9.00
Entonces:
yx
=
0BBBB@y1y2x1x2x3
1CCCCA =0BBBB@
9:851:04
27:470:978:52
1CCCCA
S =
Syy SyxSxy Sxx
=
0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:06
0:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13
1CCCCANtese que Syy y Sxx son simtricas y que S
0yx = Sxy.
1.3.5. Combinaciones lineales de variables
En temas subsiguientes ser de inters la consideracin de combinacio-
nes lineales de las variables y1; : : : ; yp. Por ejemplo, dos de los problemasque involucran a funciones lineales interesantes sern: encontrar la combina-
cin lineal que maximice alguna funcin y determinar combinaciones lineales
que permitan comparar variables (por ejemplo, y1 y3). En esta seccin es-tudiaremos la media, varianza y covarianza de una combinacin lineal de
variables.
Denotemos a una combinacin lineal de los elementos de y de la forma:
z = a0y =pX
j=1
ajyj
17
-
donde a0 = (a1; a2; : : : ; ap) es un vector de constantes. Si esta combinacinlineal es aplicada a cada yi en la muestra se tiene:
zi = a0yi =
pXj=1
ajyij ; i = 1; : : : ; n
La media muestral de los zi puede obtenerse promediando los n valoreszi o como una combinacin lineal de y:
z =1
n
nXi=1
zi =1
na0
nXi=1
yi = a0y
Similarmente, la varianza muestral de los zi puede obtenerse a partir dela denicin de varianza muestral o directamente a partir de a y S (la matrizde covarianzas de y1; : : : ;yn):
s2z =
Pni=1(zi z)2n 1
=
Pni=1(a
0yi a0y)2n 1
=
Pni=1(a
0yi a0y)(a0yi a0y)0n 1
=
Pni=1 a
0(yi y)(yi y)0an 1
= a0Pn
i=1(yi y)(yi y)0n 1
a
= a0Sa (1.6)
Puesto que una varianza es siempre no negativa, se tiene que s2z 0 y asa0Sa 0, para cada a. Por tanto, S es al menos semidenida positiva. Si lasvariables son continuas y no estn relacionadas linealmente, y si n 1 > p(por lo que S es de rango completo), entonces S es denida positiva (conprobabilidad 1).
Denamos otra combinacin lineal de y de la forma:
w = b0y =pX
j=1
bjyj
entonces la covarianza muestral de z y w es:
szw =
Pni=1(zi z)(wi w)
n 1 = a0Sb (1.7)
18
-
y la correlacin muestral entre z y w es:
rzw =szwps2zs
2w
=a0Sbp
(a0Sa)(b0Sb)
Cambiemos la notacin de los vectores a y b por a1 y a2 para facilitar eldesarrollo posterior a ms de dos de tales vectores. Sea:
A =
a01a02
y denamos:
z =
a01ya02y
=
z1z2
entonces:
z =
a01a02
y = Ay
Si evaluamos esta transformacin en la muestra se tiene zi = Ayi, i =1; : : : ; n, y la media puede obtenerse:
z =
z1z2
=
a01ya02y
=
a01a02
y = Ay
La matriz de covarianzas de z puede calcularse de la forma:
Sz =
s2z1 sz1z2sz2z1 sz22
=
a01Sa1 a01Sa2a02Sa1 a02Sa2
=
a01a02
S(a1;a2) = ASA
0
Estos dos ltimos resultados pueden extenderse sencillamente a ms de
dos combinaciones lineales. Supongamos que tenemos las siguientes k trans-formaciones lineales:
z1 = a01y =
pXj=1
a1jyj
z2 = a02y =
pXj=1
a2jyj
.
.
.
zk = a0ky =
pXj=1
akjyj
19
-
o matricialmente:
z =
0BBB@z1z2.
.
.
zk
1CCCA =0BBB@a01ya02y.
.
.
a0ky
1CCCA =0BBB@a01a02.
.
.
a0k
1CCCAy = Aydonde A es k p (tpicamente k p). Si evaluamos esta transformacin enla muestra se tiene zi = Ayi, i = 1; : : : ; n, y la media puede obtenerse:
z =
0BBB@z1z2.
.
.
zk
1CCCA =0BBB@a01ya02y.
.
.
a0ky
1CCCA =0BBB@a01a02.
.
.
a0k
1CCCA y = AyLa matriz de covarianzas de z puede obtenerse ahora de la forma:
Sz =
0BBB@a01Sa1 a01Sa2 a01Saka02Sa1 a02Sa2 a02Sak.
.
.
.
.
.
.
.
.
a0kSa1 a0kSa2 a0kSak
1CCCA =0BBB@a01a02.
.
.
a0k
1CCCAS(a1;a2; : : : ;ak) = ASA0De esta ltima expresin se deduce que:
tr(ASA0) =kXi=1
a0iSai
Todava podemos considerar una combinacin lineal algo ms general de
la forma:
zi = Ayi + b i = 1; : : : ; n
con b un vector constante, entonces:
z = Ay + b (1.8)
Sz = ASA0(1.9)
A continuacin esquematizamos la versin poblacional de estos resulta-
dos. La media poblacional de z = a0y es:
E(z) = E(a0y) = a0E(y) = a0
y su varianza poblacional:
2z = var(a0y) = a0a
20
-
Sea w = b0y otra combinacin lineal de y, entonces la covarianza pobla-cional de z y w es:
cov(z; w) = zw = a0b
y la correlacin poblacional entre z y w es:
zw = corr(a0y;b0y) =
a0bp(a0a)(b0b)
Si Ay representa diversas combinaciones lineales, entonces su vector demedias y matriz de covarianzas poblacionales son:
E(Ay) = AE(y) = A
cov(Ay) = AA0 (1.10)
La transformacin ms general z = Ay + b tiene vector de medias ymatriz de covarianzas poblacionales:
E(Ay + b) = AE(y) + b = A+ b
cov(Ay + b) = AA0 (1.11)
Por ltimo, si las las de C representan los coecientes de otra combina-cin lineal Cy + d, entonces
cov(Ay + b;Cy + d) = AC0 (1.12)
1.3.6. Ejemplo
Consideremos de nuevo las 5 variables del ejemplo anterior obtenidas
del chero europa. Cambiemos la notacin para hacerla compatible con la
utilizada en esta seccin: y1 = Agr, y2 = Min, y3 = Man, y4 = PS e y5 =Con. Denamos la siguiente combinacin lineal:
z = 3y1 + 2y2 y3 + y4 + 4y5 = (3; 2;1; 1; 4)y = a0ySi calculamos z para cada una de las 10 observaciones obtenemos: z1 = 17:8,z2 = 39:8, z3 = 43, z4 = 17, z5 = 82:2, z6 = 61:8, z7 = 36:1, z8 = 37:2,z9 = 9:7 y z10 = 47:5. Entonces su media es z = 39:21 y varianza s
2z =
475:3454. Alternativamente, podemos utilizar el vector de medias y la matrizde covarianzas muestrales ya calculadas en el ejemplo anterior:
y =
0BBBB@9:851:0427:470:978:52
1CCCCA y S =0BBBB@
38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13
1CCCCA21
-
entonces:
z = a0y = (3; 2;1; 1; 4)
0BBBB@9:851:0427:470:978:52
1CCCCA = 39:21s2z = a
0Sa
= (3; 2;1; 1; 4)
0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13
1CCCCA0BBBB@
32114
1CCCCA = 475:3454Denamos ahora una segunda combinacin lineal:
w = y1 y2 2y3 + 2y4 + 3y5 = (1;1;2; 2; 3)y = b0yentonces su media muestral es w = 18:63 y su varianza muestral es s2w =b0Sb = 215:6534. La covarianza muestral de z y w es szw = a0Sb = 276:447.De esta forma, podemos calcular el coeciente de correlacin muestral entre
z y w:
rzw =szwps2zs
2w
=276:447p
475:3454 215:6534 = 0:863
Consideremos ahora tres funciones lineales dadas por:
z1 = 2y1 2y2 2y3 + y4 3y5z2 = y1 + y2 + 2y3 2y4 y5z3 = 3y1 3y2 y3 2y4 4y5que puede ser expresada matricialmente, z = Ay, de la forma siguiente:
z =
0@z1z2z3
1A =0@2 2 2 1 31 1 2 2 13 3 1 2 4
1A0BBBB@y1y2y3y4y5
1CCCCAy as, la media muestral puede ser calculada como:
z = Ay =
0@2 2 2 1 31 1 2 2 13 3 1 2 4
1A0BBBB@
9:851:0427:470:978:52
1CCCCA =0@61:9155:3737:06
1A
22
-
y la matriz de covarianzas muestral de z puede obtenerse:
Sz = ASA0 =
0@355:21 49:04 390:1249:04 86:32 6:69390:12 6:69 457:80
1APor ltimo, calculamos la matriz de correlaciones:
Rz = D1z SzD
1z =
0@ 1 0:28 0:960:28 1 0:030:96 0:03 1
1Adonde
Dz =
0@p355:21 0 0
0p86:32 0
0 0p457:80
1A =0@18:84 0 00 9:29 0
0 0 21:39
1A1.3.7. Medidas de la variabilidad total y de multicolinealidad
La matriz de covarianzas contiene las varianzas de las p variables y lascovarianzas entre todos los pares de variables y es, por tanto, una repre-
sentacin polifactica de la variacin total de los datos. A veces es deseable
disponer de un valor numrico nico para la dispersin multivariante global.
Una de tales medidas es la varianza muestral generalizada, denida como el
determinante de la matriz de covarianzas: jSj.La varianza muestral generalizada tiene una interpretacin geomtrica.
La extensin de una elipse a ms de dos dimensiones es denominada hi-
perelipsoide o elipsoide simplemente. Un elipsoide de dimensin p, centradoen
y y que utiliza S1 para estandarizar las distancias al centro, tiene porecuacin:
(y y)0S1(y y) = a2
y contiene una proporcin de las observaciones y1; : : : ;yn en la muestra7
.
Este elipsoide tiene ejes proporcionales a las races cuadradas de los autova-
lores de S. Se puede demostrar que el volumen del elipsoide es proporcionala jSj1=2. Si el autovalor ms pequeo p es cero, entonces no hay ningn ejeen la direccin determinada por ese autovalor, y el elipsoide se encuentra
completamente en un subespacio de dimensin p 1 del espacio de dimen-sin p. En consecuencia, el volumen en el espacio de dimensin p es cero8.
7
De hecho, si y Np(;), entonces (y )01(y ) 2(p).8
Alternativamente, ya que jSj = 12 : : : p, entonces si p = 0, jSj = 0.
23
-
Un autovalor nulo indica redundancia en la forma de la relacin lineal entre
las variables. Como veremos en el tema siguiente, el vector propio corres-
pondiente al autovalor nulo revela la forma de la dependencia lineal. Una
solucin al dilema cuando p = 0 es eliminar una o ms variables.Otra medida de la variabilidad total es la varianza muestral total, denida
como la traza de S: tr(S) =Pp
j=1 sjj . Esta medida ignora completamentela estructura de covarianza pero es til en tcnicas tales como el anlisis de
componentes principales con propsitos de comparacin.
En general, valores grandes de jSj y tr(S) son reejo de una amplia dis-persin de y1; : : : ;yn en relacin a y, mientras que valores pequeos indicanconcentracin alrededor de
y. En el caso de jSj, sin embargo, un valor extre-madamente pequeo de jSj (o equivalentemente de jRj) puede indicar tantopequea variabilidad como la existencia de multicolinealidad, trmino que
indica una alta dependencia lineal en un conjunto de variables. La multico-
linealidad puede ser un problema serio que puede afectar gravemente a la
utilidad de la tcnica multivariante que se est usando. Puede ser debida
a unas altas correlaciones por pares o a una alta correlacin mltiple entre
una variable y diversas de las otras variables. Por tanto, en muchas ocasiones
es deseable obtener una medida global de la cantidad de intercorrelacin en
un conjunto de variables y1; y2; : : : ; yp, es decir, representar la correlacionesrecogidas en R mediante un nico nmero. Muchas de estas medidas suelenestar basadas en los autovalores de R. El cociente entre el mayor autovalory el menor es el denominado nmero de condicin (un valor superior a 30
indica le presencia de multicolinealidad severa). Otra medida son los factores
de inacin de la varianza denidos como:
FIVj = rjj ; j = 1; : : : ; p
donde rjj son los elementos diagonales de R1 (valores por encima de 5son indicio de problemas por causa de la multicolinealidad). Por ltimo, una
medida comprendida entre 0 y 1 que utiliza los autovalores de R1 (losinversos de los autovalores de R) fue propuesta por Heo:
q2 = 1 pPpj=1 1=j
donde ahora utilizamos j para denotar a los autovalores de R.Por ltimo, una forma de visualizar mediante un grco la informacin
recogida en R se consigue mediante una matriz de diagramas de disper-sin. Este grco muestra todos los pares de diagramas de dispersin que
se pueden formar con las variables y1; y2; : : : ; yp. En cada diagrama, un pa-trn lineal en la nube de puntos es indicio de una alta relacin entre el par
24
-
de variables implicado y se corresponder con un alto valor absoluto de la
correlacin en la posicin correspondiente de R.
1.3.8. Ejemplo
Calculemos las medidas de la variabilidad total para los 10 primeras
observaciones de las 5 variables del ejemplo anterior obtenidas del chero
europa. Se tiene que la varianza muestral generalizada es:
jSj =
38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13
= 25:74
y la varianza muestral total:
tr(S) =5X
j=1
sjj = 62:35
Para estudiar la multicolinealidad calculamos en primer lugar la matriz
de correlaciones:
R = D1s SD1s =
0BBBB@1:00 0:13 0:43 0:04 0:140:13 1:00 0:56 0:14 0:140:43 0:56 1:00 0:06 0:210:04 0:14 0:06 1:00 0:470:14 0:14 0:21 0:47 1:00
1CCCCAque no maniesta ninguna correlacin por pares excesivamente alta. En la
gura 1.1 se muestra la matriz de diagramas de dispersin para las 5 va-
riables. Aunque el tamao muestral es pequeo para visualizar con claridad
la existencia de patrones lineales, es evidente que la mayor asociacin li-
neal la presentan las variables Min y Man, en correspondencia con el valor
r32 = 0:56. El resto de diagramas de dispersin no presentan un patrn linealmuy pronunciado.
Por otra parte, los valores propios de R son: 1 = 1:96, 2 = 1:33,3 = 0:88, 4 = 0:48 y 5 = 0:34. Entonces, el nmero de condicin es:
15
=1:96
0:34= 5:79
25
-
Agr0.0 1.0 2.0 3.0 0.6 0.8 1.0 1.2 1.4
510
1520
0.01.
02.
03.0 Min
Man
2530
35
0.61.
01.
4
PS
5 10 15 20 25 30 35 7.0 8.0 9.0 10.0
7.0
8.09.0
10.0
Con
Figura 1.1: Matriz de diagramas de dispersin.
cuyo valor es moderado. Calculamos los factores de inacin de la varianza
a traves de la inversa de la matriz de correlaciones: FIV1 = r11 = 1:28,
FIV2 = r22 = 1:53, FIV3 = r
33 = 1:86, FIV4 = r44 = 1:33 y FIV5 = r
55 =1:36, valores que se mantienen por debajo de 5. Por ltimo, el ndice de Heo:
q2 = 1 5P5j=1 1=j
= 1 57:4
= 0:324
maniesta un valor alejado de 1. En consecuencia, para estos datos la mul-
ticolinealidad no es un problema.
1.3.9. Distancia entre vectores
En un contexto univariante, la distancia entre dos puntos es simplemente
la diferencia en valor absoluto entre sus valores. Para propsitos estadsticos,
esta diferencia puede no ser muy informativa. En realidad, no deseamos cono-
cer cuntos centmetros estn de alejadas dos observaciones, pero s cuntas
desviaciones tpicas distan entre s. Por ejemplo, consideremos una variable
X N(0; 1) y una observacin x que dista dos unidades respecto al origen.Se verica que P [0 X 2] = 0:4772. Por otro lado, consideremos otravariable Y N(0; 4) y otra observacin y que tambin diste dos unidadesrespecto al origen. Ahora se tiene que P [0 Y 2] = 0:3413, indicando quey est ms cerca del origen que x. Es decir, la distancia eucldea es incapazde reejar la verdadera distancia entre las observaciones ya que no tiene en
cuenta las desviaciones tpicas (X = 1 y Y = 2). De hecho, x dista dos
26
-
desviaciones estndares respecto de su media mientras que y est a una des-viacin tpica de su media. Por tanto, nos interesa las distancias estadsticas
o estandarizadas de la forma:
d2 =(xi xj)2
2= (xi xj)(2)1(xi xj)
donde 2 es la varianza poblacional. En nuestro ejemplo, el punto x tiene unadistancia estadstica al cuadrado de d2 = 4 mientras que a y le corresponded2 = 1, lo que mantiene la desigualdad en probabilidades indicando que Yest ms cercana a cero que X.Para obtener una distancia til en un marco multivariante debemos con-
siderar no slo las varianzas de las variables si no tambin sus covarian-
zas o correlaciones. La distancia eucldea al cuadrado entre dos vectores
(yi yj)0(yi yj) no es til en ciertas situaciones ya que no tiene en cuen-ta las varianzas y las covarianzas. Para obtener una distancia estadstica
apropiada estandarizamos mediante la matriz de covarianzas:
d2 = (yi yj)0S1(yi yj)Otros ejemplos son:
D2 = (y )0S1(y )2 = (y )01(y )2 = (1 2)01(1 2)Esas distancias cuadrticas entre dos vectores fueron propuestas por pri-
mera vez por Mahalanobis en 1936 y son denominadas distancias de Maha-
lanobis. Cuando la matriz de covarianzas es la identidad entonces la distan-
cia de Mahalanobis se reduce a la distancia eucldea. Si una variable tiene
una varianza mayor que otra, recibe menor peso relativo en la distancia de
Mahalanobis. Similarmente, dos variables altamente correladas no contribu-
yen tanto como dos variables que estn menos correladas. En esencia, por
tanto, el uso de la inversa de la matriz de covarianzas en la distancia de
Mahalanobis tiene dos efectos:
i) estandarizar todas las variables para que tengan la misma varianza y
ii) eliminar las correlaciones.
Para ver esto, consideremos 2 y expresemosla de la forma:
2 = (y )01(y ) = (y )01=21=21(y )=h1=2
1(y )
i0h1=2
1(y )
i= z0z
27
-
donde z =1=2
1(y ) = 1=21y 1=21 y as, aplicando(1.11), se tiene que:
cov(z) =1=2
1cov(y)
1=2
10=1=2
1 1n1=2
1=
1
nI
Por tanto, las variables transformadas z1; : : : ; zp estn incorreladas y cadauna tiene varianza 1=n. Si se utiliza la matriz de covarianzas apropiada enla distancia de Mahalanobis, las varianzas se reducen a 1. Por ejemplo, si
cov(y) = =n fuera utilizada en lugar de entonces obtendramos cov(z) =I.
1.3.10. Ejemplo
Calculemos la distancia de Mahalanobis entre las dos primeras observa-
ciones del chero europa para las 5 primeras variables. Se tiene que:
y1 y2 = (3:3; 0:9; 27:6; 0:9; 8:2)0 (9:2; 0:1; 21:8; 0:6; 8:3)0= (5:9; 0:8; 5:8; 0:3;0:1)0
entonces:
d2 = (y1 y2)0S1(y1 y2)
= (5:9; 0:8; 5:8; 0:3;0:1)
0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13
1CCCCA10BBBB@
5:90:85:80:30:1
1CCCCA= 3:19
Sin embargo, la distancia eucldea al cuadrado proporciona:
D2 = (y1 y2)0(y1 y2) = (5:9; 0:8; 5:8; 0:3;0:1)
0BBBB@5:90:85:80:30:1
1CCCCA = 69:19Ntese que el valor de D2 se debe fundamentalmente a dos coordenadas:
5:9 y 5:8, que una vez elevadas al cuadrado son las que contribuyen esen-cialmente al resultado nal de la distancia. Sin embargo, en d2 estos valoresse ponderan de acuerdo al valor de su varianza de tal forma que su contribu-
cin se ve disminuida si sta es grande y esto es precisamente lo que ocurre
dado que s21 = 38:38 y s23 = 22:01.
28
-
1.4. Valores Perdidos
En ocasiones disponemos de un vector de observaciones en el que todos
los casos no estn completos, es decir, algunos valores estn ausentes para
una o ms variables. Por ejemplo, no es infrecuente que los entrevistados en
una encuesta se nieguen a declarar su nivel de ingresos, o que el entrevistador
no recoja una respuesta en la casilla adecuada o, simplemente, que la tasa
de paro no est disponible todava para el semestre que se analiza.
La distribucin de los valores faltantes en un conjunto de datos es una
cuestin importante. Los valores ausentes aleatoriamente distribuidos a lo
largo de la matriz de datos son menos problemticos que un patrn de valo-
res ausentes que dependen hasta cierto punto de los valores de las variables
faltantes. Para entender el efecto que puede tener un patrn de valores per-
didos consideremos el siguiente ejemplo: un investigador desea conocer cul
es la actitud de los jvenes hacia el tabaco. Para ello les pide que expresen
su acuerdo o desacuerdo con un conjunto de armaciones, entre ellas fumar
perjudica la salud y deben aumentarse los impuestos sobre el tabaco (la
escala de respuesta es 1=estoy en total desacuerdo, 5=estoy en total acuer-
do), adems de identicar su hbito como fumador o no. Supongamos que
los valores ausentes se producen en la variable relacionada con aumentar los
impuestos sobre el tabaco. Si estos valores perdidos son aleatorio entonces
la media muestral de esta variable no debiera diferir sustancialmente de la
media de la muestra completa. Sin embargo, si los valores ausentes siguen
un patrn, por ejemplo, los fumadores se niegan a contestar en mucha mayor
medida que los no fumadores, quizs porque pueden pensar que la opinin
vertida en la encuesta puede tener alguna inuencia en la administracin y
puede conllevar una nueva subida del precio, entonces tal media se eleva arti-
cialmente (mayor valor ms acuerdo) ya que ellos, que precisamente estarn
en ms desacuerdo con la medida son los que principalmente no responden.
Hay tres casos importantes en los que se pueden clasicar los valores
faltantes:
1. Ausentes completamente aleatorios (Missing Completely At Random o
MCAR): si la distribucin de las ausencias no depende ni de la parte
observada ni de la parte faltante, es decir, el mecanismo que genera
los datos faltantes no depende de las variables de inters ni de ninguna
otra variable que haya sido observada en el conjunto de datos.
2. Ausentes aleatorios (Missing At Random o MAR): si la distribucin
de las ausencias depende de la parte observada pero no de la parte
faltante. El trmino MAR es algo confuso ya que da a entender que las
29
-
ausencias ocurren por motivos aleatorios y, sin embargo, MAR real-
mente signica que existe una relacin sistemtica entre una o ms
variables observadas y la probabilidad de los valores perdidos.
3. Ausentes no aleatorios (Missing Not At Random o MNAR): si la dis-
tribucin de las ausencias depende tanto de la parte observada como
de la faltante.
Como ilustracin consideremos las variables edad e ingresos. Entonces los
datos son MCAR si la probabilidad de ausencias es la misma para todos los
individuos, independientemente de su edad o ingresos. Si la probabilidad de
que los ingresos estn ausentes varan de acuerdo a la edad del encuestado
(por ejemplo, ms ausentes cuanto mayor es la edad) pero no vara de acuerdo
a los ingresos de los encuestados con la misma edad (por ejemplo, para una
edad dada la distribucin de las ausencias es aleatoria), entonces las ausencias
en la variable ingresos son MAR. Sin embargo, si la probabilidad de que los
ingresos estn disponibles varan de acuerdo a los ingresos de aquellos con
la misma edad (por ejemplo, ms ausencias para altos ingresos que para
bajos ingresos en determinadas valores de edad), entonces las ausencias de
la variable ingresos son MNAR. Naturalmente, MNAR es difcil de detectar.
En la prctica suele ser difcil detectar el mecanismo que genera los valores
faltantes exactamente ya que esto precisara el conocimiento de los valores
perdidos.
1.4.1. Diagnstico de la aleatoriedad
Aunque la tentacin es asumir que los valores perdidos se han generado
de manera completamente aleatoria, las graves consecuencias para la investi-
gacin de que esto no sea as obligan a desarrollar estrategias para determinar
si los valores ausentes son MCAR. El primer procedimiento para establecer si
los valores perdidos guardan o no un patrn sistemtico se basa en la lgica
de la investigacin. Si el patrn es sistemtico, los casos con valores perdi-
dos debern tener un comportamiento distinto respecto de otras variables
que en los casos sin valores perdidos. Por ejemplo, como son los fumadores
quienes no han querido contestar principalmente a la pregunta de si deben
aumentarse los impuestos, es probable que los casos con valores perdidos
(principalmente fumadores) estn ms en desacuerdo con que, por ejemplo,
no se permita fumar en lugares pblicos que los casos sin valores perdidos.
Es evidente que el investigador no puede tener esta hiptesis a priori, y
deber comprobar qu variables se comportan de manera distinta en los dos
grupos para deducir la existencia o no de un patrn. De no existir variable
30
-
cuya media sea distinta en los casos con y sin valores perdidos habr que
asumir la aleatoriedad de los mismos. Para ello es necesario crear una variable
cticia por cada variable que presente valores ausentes tal que tomar el
valor 1 si el caso tiene un valor perdido en esta variable o 0 si no lo tiene.
A continuacin se contrasta si la media de otras variables (por ejemplo,
permitir o no fumar en lugares pblicos) es igual o distinta en el grupo de
casos con valores perdidos en relacin al grupo que no los tiene mediante un
estadstico t-Student para muestras independientes. Si se concluye que lasmedias no son signicativamente distintas en ambos grupos para la mayora
de variables, entonces podramos decir que los valores perdidos no siguen un
patrn dado. De la misma forma, la signicacin del contraste para diversas
variables indicara la existencia de un patrn sistemtico, es decir, que los
datos son MAR o MNAR.
El enfoque de los tests t-Student tiene diversos inconvenientes a tener encuenta: la generacin de todos los posibles contrastes puede ser engorroso a
menos que se disponga de una software adecuado que automatice el proceso
(el mdulo de datos perdidos de SPSS los genera), los test no tienen en
cuenta la posible correlacin entre las variables, los errores tipo I pueden
inarse notablemente y puede haber grupos con muy pocos datos faltante
(lo que hace decrecer la potencia de los tests y en ocasiones imposibilita la
realizacin del test).
Una alternativa multivariante a los test t es el test MCAR de Littleque simultneamente evala las diferencias de medias sobre cada variable.
A diferencia de los tests t, el test MCAR de Little produce un test globalde MCAR sobre el conjunto completo de datos. Este test est disponible
en el mdulo de datos perdidos de SPSS. Similarmente a los tests t, evalalas diferencias de medias sobre subgrupos de casos que comparten el mismo
patrn de valores perdidos. El estadstico del test tiene la forma:
2MCAR =
JXj=1
nj2j
donde nj es el nmero de casos en el patrn j de datos perdidos y 2j es
una distancia de Mahalanobis calculada sobre el patrn j. Este estadsticose distribuye aproximadamente segn una 2(
Pj pj p), con pj el nmerode variables completas para el patrn j y p el nmero total de variables.Este test tambin adolece de un nmero de problemas, entre otros: no
identica la variable especca que viola MCAR y tiene baja potencia, espe-
cialmente cuando el nmero de variables que violan MCAR es pequeo.
31
-
1.4.2. Tratamiento
El tratamiento ms sencillo es la eliminacin de las (listwise deletion) y
realizar el anlisis con las restantes. Un nmero pequeo de las con entradas
faltantes en la matriz de datos Y no constituye un problema serio ya quepodemos simplemente descartar cada una de estas las que tengan valores
perdidos. De hecho, si existe aproximadamente un nmero de casos perdidos
inferior al 5% del total de observaciones y pueden ser considerados MCAR,
entonces el mtodo de eliminacin por las es relativamente seguro. Sin em-
bargo, con este procedimiento, una pequea proporcin de datos ausentes
que estn ampliamente distribuidos conducira a una substancial prdida de
datos. Por ejemplo, en un conjunto grande de datos con n = 550 y p = 85, sinicamente un 1:5% de los 550 85 = 46750 medidas estuvieran ausentes,podran dar lugar a que casi la mitad de las las de Y estuvieran incom-pletas. Aunque la eliminacin por las a menudo produce un decremento
importante del tamao muestral disponible, tiene importantes ventajas. En
concreto, si los datos son MCAR conduce a estimadores insesgados.
Una segunda opcin es la eliminacin por pares (pairwise deletion). Este
mtodo busca pares de variables y usa una observacin nicamente si tiene
valores para ambas variables. Las frecuencias, medias y desviaciones estnda-
res son calculadas separadamente para cada par. Los elementos de la matriz
de correlaciones (o covarianzas) se calculan para todos los datos disponibles.
As, por ejemplo, si un encuestado informa de sus ingresos y antigedad en la
empresa pero no de su edad, ste es incluido en la correlacin entre ingresos
y antigedad pero no en las correlaciones que impliquen a edad. El problema
con este enfoque es que puede dar lugar a matrices de correlaciones que no
son denidas positivas. Adems, los anlisis pueden hacerse con diferentes
conjuntos de datos, con diferentes tamaos muestrales y con diferentes erro-
res estndares. Por tanto, no es un mtodo muy aconsejable. En cualquier
caso, la aplicacin de este mtodo est condicionada al supuesto de que los
valores perdidos son MCAR.
La alternativa a la eliminacin es la imputacin, es decir, sustituir el valor
ausente por alguna estimacin de su valor. Vamos a discutir dos mtodos de
imputacin. Ambos mtodos asumen que los valores faltantes ocurren alea-
toriamente, es decir, son MCAR. Si la ocurrencia o no de los valores faltantes
est relacionada con los valores de las variables, entonces las tcnicas pueden
no estimar adecuadamente a estos datos perdidos.
El primer mtodo es sencillo: utilizar la media de los datos disponibles en
la columna correspondiente como estimacin del dato ausente. Reemplazar
una observacin por su media reduce la varianza y el valor absoluto de la
32
-
covarianza. Por tanto, la matriz de covarianzas muestral S calculada a par-tir de la matriz de datos Y con medias imputadas por valores faltantes essesgada. Sin embargo, es denida positiva.
La segunda tcnica es un enfoque de regresin. La matriz de datos Yes dividida en dos partes, una que contiene a todas las las con entradas
faltantes y la otra con todas las las que estn completas. Supongamos que
yij es la nica entrada ausente en la la i-sima de Y. Entonces, utilizandolos datos en la submatriz con las completas, yj es regresada sobre las otrasvariables para obtener un modelo ajustado del tipo:
y^j = ^0 + ^1y1 + + ^j1yj1 + ^j+1yj+1 + + ^pypEntonces las entradas disponibles en la la i-sima son introducidas comovariables independientes en la ecuacin de regresin para obtener el valor
predicho y^ij .El mtodo de regresin normalmente proporciona mejores resultados que
el mtodo de las medias. Sin embargo, si las otras variables no estn alta-
mente correladas con la que se pretende predecir, la tcnica de regresin es
esencialmente equivalente a imputar medias. El mtodo de regresin subes-
tima las varianzas y las covarianzas, aunque en menor grado que el mtodo
basado en las medias.
Existen otros procedimientos ms modernos de imputacin como el al-
goritmo EM o la imputacin mltiple (que aparecen en el mdulo de impu-
tacin mltiple de SPSS). No obstante, su estudio est fuera del alcance de
este curso. Los mtodos de eliminacin por las o por pares y los mtodo de
imputacin por la media o por regresin funcionan bien (proporcionan esti-
madores insesgados y consistentes de las covarianzas y correlaciones) cuando
los datos son MCAR. Si los datos no son MCAR se debe utilizar otros pro-
cedimientos, como la estimacin EM.
1.4.3. Ejemplo
Un suministrador de telecomunicaciones desea conocer el uso que hacen
sus clientes de los servicios prestados. Para ello dispone de una base de datos
de clientes de la que extrae una muestra al azar de 1000 de ellos que se recoge
en el chero europa. Las variables estudiadas fueron las siguientes:
1. servicio: meses de servicio
2. edad: en aos
3. tiempo: aos viviendo en la direccin actual
33
-
4. ingresos: ingresos del hogar en miles
5. empleo: aos en la empresa actual
6. personas: nmero de personas en el hogar
7. marital: estado civil (soltero/casado)
8. educacion: (ESO,Bachillerato,Diplomado,Licenciado,Mster)
9. jubilado: (si/no)
10. sexo: (hombre/mujer)
Se sabe que la base de datos est incompleta y se desea conocer si los
valores perdidos lo son por motivos aleatorios o existe un patrn para ellos.
La tabla 1.1 nos muestra algunas estadsticas univariantes: el nmero
de valores presentes por variable y el de valores perdidos. La columna de
porcentaje de valores perdidos muestra el porcentaje de casos con valores
ausentes y suministra una buena medida de comparacin de valores perdidos
entre variables, siendo la variable ingresos la que presenta el mayor nmero
de observaciones faltantes (17.9%), mientras que edad es la que menos tiene
(2.5%). As mismo, ingresos es la que tiene un mayor nmero de valores
extremos (71 por encima del lmite superior).
N Media Desv. tp. Perdidos % N
o
de extremos
Bajos Altos
servicio 968 35.56 21.26 32 3.2 0 0
edad 975 41.75 12.57 25 2.5 0 0
tiempo 850 11.47 9.96 150 15.0 0 9
ingresos 821 71.14 83.14 179 17.9 0 71
empleo 904 11.00 10.11 96 9.6 0 15
personas 966 2.32 1.43 34 3.4 0 33
marital 885 115 11.5
educacion 965 35 3.5
jubilado 916 84 8.4
sexo 958 42 4.2
Nmero de casos fuera del rango (Q1 1:5 IQR;Q3 + 1:5 IQR)
Cuadro 1.1: Estadsticas descriptivas univariantes. Las variables indicadoras
con menos del 5% de los valores perdidos no se muestran.
34
-
La tabla 1.2 [pg. 40] contiene los contrastes t y permite identicar lasvariables cuyo patrn de valores faltantes puede estar inuenciado por varia-
bles cuantitativas. Se observa que los encuestados ms mayores son menos
propensos a informar de sus niveles de ingresos. Cuando un valor de ingresos
est perdidos, la edad media es 49.73, comparada con 40.01 cuando el dato
de ingresos est presente. De hecho, la ausencia de ingresos parece afectar
a las medias de diversas variables cuantitativas (todos los contrastes t sonsignicativos). Esto es indicativo de que los datos no son MCAR.
La tabla 1.3 [pg. 41] muestra la tabulacin cruzada de las variables
categricas frente a las indicadoras dando una informacin similar a la pro-
porcionada por los contraste t. En este caso, las variables indicadoras sonutilizas para calcular frecuencias en cada categora de la variable indicadora.
Los valores pueden ayudar a determinar si existen diferencias en valores per-
didos entre categoras. Como ilustracin, a continuacin incluimos slo la de
jubilado. Se observa que los jubilados son poco propensos a informar de sus
ingresos en comparacin con los no jubilados: slo un 46.3% de los jubilados
han aportado el dato de sus ingresos, mientras que el porcentaje de ellos que
no estn jubilados y han proporcionado sus ingresos fue de 83.7%.
Por ltimo, realizamos el test MCAR de Little: 2MCAR = 179:83 (p 0). Todo lo anteriormente expuesto conrma que los datos no pueden serconsiderados MCAR y, por tanto, los procedimientos explicados para tratar
los valores perdidos no pueden ser aplicados.
1.5. Observaciones atpicas
Los outliers o casos atpicos son aquellas observaciones para las que una
o varias variables toman valores extremos que las hace diferir del compor-
tamiento del resto de la muestra y hacen sospechar que han sido generadas
por mecanismos distintos. La deteccin de los valores atpicos es importante
por las consecuencias que pueden tener sobre el anlisis:
i) distorsionan los resultados al oscurecer el patrn de comportamiento
de los dems casos y obtenerse resultados que, sin ellos, seran comple-
tamente distintos, y
ii) pueden afectar a gravemente a la propiedad de normalidad, una de las
condiciones de aplicabilidad de muchas de las tcnicas de las tcnicas
multivariantes (especialmente las inferenciales).
De forma genrica, las causas que generan la existencia de valores atpicos
en un chero de datos se dividen en dos grupos: los ocasionados por errores
35
-
de los datos y los ocasionados por la inevitable y necesaria variabilidad de
esos datos. Ms especcamente, las causas pueden ser:
i) errores en la recogida de los datos o en su introduccin en las bases de
datos,
ii) errores intencionados en la respuesta al cuestionario por parte del en-
trevistado,
iii) errores en el muestreo, que se concretan en introducir en la muestra a
individuos pertenecientes a una poblacin distinta a la objetivo,
iv) casos pertenecientes a la poblacin objetivo que se desea muestrear
pero que por la variabilidad inherente a las muestras dieren del resto
de observaciones.
Posteriormente estudiaremos procedimientos univariantes y multivarian-
tes para detectar esos valores atpicos. Una vez identicados la cuestin que
se plantea es qu hacer con ellos. La respuesta depende del tipo de outlier.
Si se est seguro de que corresponde a un error en la introduccin de los
datos, se puede intentar corregir o imputar. Otra alternativa es su elimina-
cin. En el caso de una observacin atpica legtima, que no es producto de
un error, entonces la decisin es ms difcil ya que existe controversia en la
literatura. Existen distintas recomendaciones, aunque todas ellas tienen sus
detractores. Hay autores que deenden su eliminacin para que las conclu-
siones sean correctas para la mayora de la poblacin y otros que deenden
que la eliminacin es el ltimo recurso y que se puede intentar suavizar su
inuencia transformando las variables, lo que puede no tener sentido ya que
las variables originales pueden tener una unidad de medida lgica que se
pierde con la transformacin. Una alternativa es la utilizacin de procedi-
mientos robustos especialmente diseados para amortiguar la inuencia de
estas observaciones.
1.5.1. Deteccin de casos atpicos
La deteccin de casos atpicos puede realizarse desde una perspectiva uni-
variante (analizando si para una variable dada algunos casos toman valores
anormales) o multivariante (el vector de datos diere notablemente del cen-
troide o vector media muestral). Ha de tenerse en cuenta que un caso puede
no tomar valores atpicos en dos variables consideradas individualmente, pe-
ro s hacerlo si se consideran conjuntamente. Por ejemplo, un ejecutivo con
poca experiencia puede ser una unidad muestral lgica en una investigacin y
36
-
un sujeto con un alto salario tambin, pero un ejecutivo con baja experiencia
y alto salario ser, con casi toda seguridad, un caso atpico.
El procedimiento univariante ms extendido es considerar atpicos aque-
llos casos cuyo valor estandarizado supere un valor determinado. En general,
se suele considerar atpico aquel valor que diste de la media ms de tres
desviaciones tpicas: jyij yj j 3sj o, equivalentemente, jzij j 3. Si ladistribucin fuera normal esto implicara que menos del 0.25% de los casos
puede estar fuera de ese intervalo. Algunos autores recomiendan utilizar 2.5
en lugar de 3 para muestras de tamao moderado (menos de 80 casos).
Un procedimiento recomendado para la deteccin univariante de outliers
es el test de Grubbs. Este contraste est basado en la hiptesis de normalidad
y contrasta la hiptesis nula de no existencia de valores atpicos entre los
datos. El estadstico de Grubbs es:
G =jyij yj j
sj
y rechazaremos la hiptesis nula si:
G >n 1p
n
vuut t2n2;=2nn 2 + t2n2;=2nUna alternativa muy til a los procedimientos numricos de deteccin
univariantes es un grco de caja (boxplot). Este grco representa una caja
en la que la base inferior es el primer cuartil Q1, la superior el tercero Q3y entre medias se muestra la mediana Q2. Desde la base inferior y desde lasuperior se trazan sendas lneas, denominadas bigotes, con longitudes Q1 1:5 IQR y Q3 + 1:5 IQR, respectivamente, y donde IQR = Q3 Q1 esel rango intercuartlico. Las longitudes de los bigotes son acortados bajo dos
supuestos: si el valor mnimo en los datos es superior aQ11:5IQR entoncesel bigote inferior toma como extremo este valor mnimo, o si el valor mximo
en los datos es inferior a Q3 + 1:5 IQR en cuyo caso el bigote superior esacortado hasta este mximo. Sin embargo, si existen valores en los datos que
superen el extremo del bigote superior o sean inferiores al extremo del bigote
inferior estaremos ante valores que son atpicos u outliers. En concreto, un
outlier extremo es aquel caso que est ms all de Q13IQR o Q3+3IQRy son marcados con una equis; mientras que los outliers son casos que estn
ms all de Q1 1:5 IQR o Q3 + 1:5 IQR pero no son extremos y sonmarcados con un crculo.
En muchos procedimientos no es tan problemtico que un caso sea atpi-
co respecto a una variable sino respecto al conjunto de las que se incorporan
37
-
al anlisis. Ello hace necesario buscar un mtodo que contemple simultnea-
mente todas las variables para determinar si algn caso tienen un compor-
tamiento anmalo. Un procedimiento bastante intuitivo consiste en calcular
la distancia de cada caso al centroide del conjunto de los datos. Cuanto ms
lejos est un caso de la media de las observaciones, ms probable es que
sea un outlier. La distancia habitualmente empleada para detectar los casos
atpicos es la de Mahalanobis:
D2i = (yi jyi)0S1(yi jyi); j = 1; : : : ; n
o en forma vectorial:
D2 = diagfYcS1Y0cg = (D21; : : : ; D2n)
Bajo hiptesis de normalidad multivariante se verica que Di 2(p)(sin elevar al cuadrado). Para declarar a una observacin como atpica des-
de un punto multivariante conviene ser bastante conservador y slo hacerlo
cuando la probabilidad Di 2p;0:01, con 2p;0:01 el cuantil que deja una pro-babilidad en la cola superior de 0.01.
1.5.2. Ejemplo
Consideremos de nuevo el chero europa con las 26 observaciones y es-
tudiemos los casos atpicos de las 3 primeras variables: Agr, Min y Man. En
la gura 1.2 aparece a la izquierda una representacin grca de los datos
tipicados para las tres variables. Se observa que nicamente la variable Agr
posee una observacin, la 18, que tipicada supera el valor de 3. Sin em-
bargo, si reducimos los lmites a 2.5 dado el tamao de la matriz de datos,
entonces tambin se declarara a la observacin 18 de Man como atpica. A
la derecha aparecen los tres grcos de caja. La variable Min no posee casos
ms extremos que los bigotes. La variable Agr posee dos (la ms extrema es
la 18 y la menos la 26) y la variable Man una tambin en la observacin 18.
Realizamos con el paquete outliers de R el test de Grubbs para Agr:
G = 3:0662 (p = 0:00825), declarando a la observacin y18;1 = 66:8 comoatpica. Para Man: G = 2:7266 (p = 0:0413) declarando a y18;3 = 7:9 comoatpico. Por ltimo, Min no posee valores atpicos. Observando, el chero de
datos se detecta que el caso 18 corresponde a Turqua que posee un porcentaje
de empleados en la agricultura muy alto y un porcentaje de empleados en
industria muy bajo en relacin al resto de pases europeos.
Desde una perspectiva multivariante, calculamos las distancias de Maha-
lanobis Di, i = 1; : : : ; 26, y las representamos en la gura 1.3 junto con el
38
-
0 5 10 15 20 25
3
2
1
01
23
AgrManMin
Agr Min Man
010
2030
4050
60
Figura 1.2: Izqda: Grco de valores tipicados. Dcha: Grcos de caja.
cuantil de una 23;0:01. Se puede observar que ninguna supera la lnea pun-teada que representa el valor de este cuantil.
0 5 10 15 20 25
02
46
810
12
casos
D_i
Figura 1.3: Distancias de Mahalanobis y lnea discontinua con altura igual
al cuantil 23;0:01.
39
-
serv. edad tiem. ingr. emp. pers.
tiempo t .4 .3 . 3.5 1.4 1.0
gl 202.2 192.5 . 313.6 191.1 199.5
no pres. 819 832 850 693 766 824
no perdido 149 143 0 128 138 142
Media(pres.) 35.68 41.79 11.47 74.07 11.20 2.34
Media(perd.) 34.91 41.49 . 55.27 9.86 2.21
ingresos t 5.0 8.3 3.9 . 5.9 3.6
gl 249.5 222.8 191.1 . 203.3 315.2
no pres. 793 801 693 821 741 792
no perdido 175 174 157 0 163 174
Media(pres.) 33.93 40.01 10.67 71.14 9.91 2.39
Media(perd.) 42.97 49.73 14.97 . 15.93 2.02
empleo t 1.0 .4 .7 .5 . .3
gl 110.5 110.2 97.6 114.9 . 110.9
no pres. 877 881 766 741 904 874
no perdido 91 94 84 80 0 92
Media(pres.) 35.34 41.69 11.37 71.49 11.00 2.31
Media(perd.) 37.70 42.27 12.32 67.91 . 2.37
marital t .0 1.8 1.2 .8 .9 2.2
gl 148.1 149.5 138.8 121.2 128.3 134.2
no pres. 856 862 748 728 805 857
no perdido 112 113 102 93 99 109
Media(pres.) 35.56 42.00 11.61 70.38 11.10 2.28
Media(perd.) 35.57 39.85 10.43 77.07 10.17 2.61
jubilado t .6 .4 .4 .3 . .2
gl 95.4 94.4 84.0 93.2 . 99.0
no pres. 888 893 777 751 904 885
no perdido 80 82 73 70 0 81
Media(pres.) 35.44 41.70 11.42 71.33 11.00 2.32
Media(perd.) 36.89 42.29 11.96 69.11 . 2.30
Cuadro 1.2: Contrastes t. Las variables indicadoras con menos del 5% de losvalores perdidos no se muestran.
40
-
Jubilado
Total No S Perdidos
tiempo Presente Recuento 850 744 33 73
Porcentaje 85.0 85.0 80.5 86.9
Perdidos % perd. sistema 15.0 15.0 19.5 13.1
ingresos Presente Recuento 821 732 19 70
Porcentaje 82.1 83.7 46.3 83.3
Perdidos % perd. sistema 17.9 16.3 53.7 16.7
empleo Presente Recuento 904 864 40 0
Porcentaje 90.4 98.7 97.6 .0
Perdidos % perd. sistema 9.6 1.3 2.4 100.0
marital Presente Recuento 885 777 38 70
Porcentaje 88.5 88.8 92.7 83.3
Perdidos % perd. sistema 11.5 11.2 7.3 16.7
Cuadro 1.3: