agrupacion y reduccion

TCNICAS DE AGRUPACIN Y

REDUCCIN DE LA

DIMENSIN

Juan Carlos Ruiz Molina

Departamento de Estadstica e I.O.

Universidad de Jan

ndice general

1. Representacin de Datos Multivariantes 1

1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Clasicacin de las Tcnicas Multivariantes . . . . . . . . . . 4

1.2.1. Tcnicas de dependencia . . . . . . . . . . . . . . . . . 4

1.2.2. Tcnicas de interdependencia . . . . . . . . . . . . . . 6

1.2.3. Otros criterios de clasicacin . . . . . . . . . . . . . . 7

1.3. Estadsticos Multivariantes . . . . . . . . . . . . . . . . . . . 8

1.3.1. Estadsticos para el vector completo de variables . . . 8

1.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.3. Estadsticos para subconjuntos de variables . . . . . . 14

1.3.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.3.5. Combinaciones lineales de variables . . . . . . . . . . . 17

1.3.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3.7. Medidas de la variabilidad total y de multicolinealidad 23

1.3.8. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.3.9. Distancia entre vectores . . . . . . . . . . . . . . . . . 26

1.3.10. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 28

1.4. Valores Perdidos . . . . . . . . . . . . . . . . . . . . . . . . . 29

1.4.1. Diagnstico de la aleatoriedad . . . . . . . . . . . . . . 30

1.4.2. Tratamiento . . . . . . . . . . . . . . . . . . . . . . . . 32

1.4.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 33

1.5. Observaciones atpicas . . . . . . . . . . . . . . . . . . . . . . 35

1.5.1. Deteccin de casos atpicos . . . . . . . . . . . . . . . 36

1.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2. Anlisis de Componentes Principales 42

2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.2. Componentes principales a partir de la matriz de covarianzas 44

2.2.1. Interpretacin geomtrica . . . . . . . . . . . . . . . . 48

1

2.2.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.2.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.3. Componentes principales a partir de la matriz de correlaciones 52

2.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.4. Representacin grca de las componentes principales . . . . 55

2.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 60

2.5. Nmero de componentes principales a retener . . . . . . . . . 61

2.5.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.6. Informacin en las ltimas componentes principales . . . . . . 65

2.7. Interpretacin de las componentes principales . . . . . . . . . 65

2.7.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 68

2.7.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 69

2.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 69

2.7.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3. Anlisis Factorial 74

3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.2. Modelo factorial ortogonal . . . . . . . . . . . . . . . . . . . . 77

3.2.1. Formulacin e hiptesis . . . . . . . . . . . . . . . . . 77

3.2.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.2.3. No unicidad de las cargas factoriales . . . . . . . . . . 82

3.2.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.3. Estimacin de las cargas y las comunalidades . . . . . . . . . 84

3.3.1. Mtodo de las componentes principales . . . . . . . . . 84

3.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.3.3. Mtodo de los ejes principales . . . . . . . . . . . . . . 89

3.3.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 92

3.3.5. Mtodo de mxima verosimilitud . . . . . . . . . . . . 93

3.3.6. Otros mtodos de extraccin de factores . . . . . . . . 93

3.3.7. Comparacin de mtodos . . . . . . . . . . . . . . . . 94

3.3.8. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 95

3.4. Determinacin del nmero de factores . . . . . . . . . . . . . 96

3.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.4.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.5. Rotacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.5.1. Rotacin ortogonal . . . . . . . . . . . . . . . . . . . . 100

3.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 101

3.5.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 103

2

3.5.4. Rotacin oblicua . . . . . . . . . . . . . . . . . . . . . 104

3.5.5. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.5.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 107

3.5.7. Interpretacin . . . . . . . . . . . . . . . . . . . . . . . 108

3.6. Puntuaciones factoriales . . . . . . . . . . . . . . . . . . . . . 109

3.6.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 111

3.7. Validez de modelo de anlisis factorial . . . . . . . . . . . . . 111

3.7.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 113

3.7.2. Tamao muestral . . . . . . . . . . . . . . . . . . . . . 114

3.7.3. Contrastes en el modelo factorial . . . . . . . . . . . . 116

3.7.4. Consistencia interna . . . . . . . . . . . . . . . . . . . 117

3.7.5. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 118

3.7.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 119

3.8. Relacin entre el AF y el ACP . . . . . . . . . . . . . . . . . 121

3.9. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

3.10. La cuestin del nmero de factores a retener: una visin moderna129

3.11. AF con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

4. Anlisis de Correspondencias 135

4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

4.2. Perles la y columna . . . . . . . . . . . . . . . . . . . . . . 136

4.2.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 139

4.3. Contraste de independencia . . . . . . . . . . . . . . . . . . . 141

4.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 142

4.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 142

4.4. Coordenadas para representar grcamente a los perles las

y a los perles columnas . . . . . . . . . . . . . . . . . . . . . 144

4.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 147

4.5. Normalizacin e interpretacin del ACO . . . . . . . . . . . . 148

4.5.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 149

4.6. Masa, inercia, contribucin y calidad . . . . . . . . . . . . . . 149

4.6.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 153

4.6.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 155

4.7. Puntos suplementarios . . . . . . . . . . . . . . . . . . . . . . 158

4.7.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 159

4.7.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 163

4.8. Anlisis de Correspondencias Mltiple . . . . . . . . . . . . . 165

4.8.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 168

4.8.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 169

3

5. Anlisis Cluster 174

5.1. Medidas de similitud o disimilitud . . . . . . . . . . . . . . . 176

5.2. Agrupamiento jerrquico . . . . . . . . . . . . . . . . . . . . . 177

5.2.1. Encadenamiento simple o vecino ms prximo . . . . . 178

5.2.2. Encadenamiento completo o vecino ms alejado . . . . 182

5.2.3. Encadenamiento medio . . . . . . . . . . . . . . . . . . 184

5.2.4. Centroide . . . . . . . . . . . . . . . . . . . . . . . . . 186

5.2.5. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . 186

5.2.6. Mtodo de Ward . . . . . . . . . . . . . . . . . . . . . 188

5.2.7. Propiedades de los mtodos jerrquicos . . . . . . . . . 190

5.3. Mtodos no jerrquicos: mtodo de las k-medias . . . . . . . . 1955.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 196

5.4. Eleccin del nmero de clusters . . . . . . . . . . . . . . . . . 199

5.5. Validacin de clusters . . . . . . . . . . . . . . . . . . . . . . 200

5.6. Agrupamiento de variables . . . . . . . . . . . . . . . . . . . . 201

5.7. Hiptesis del AC . . . . . . . . . . . . . . . . . . . . . . . . . 203

5.8. ACP y AC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

4

Captulo 1

Representacin de Datos

Multivariantes

1.1. Introduccin

El anlisis multivariante consiste en una coleccin de mtodos que pueden

ser utilizados cuando se dispone de diversas medidas sobre cada individuo

u objeto en una o ms muestras. No referiremos a las medidas como va-

riables y a los individuos u objetos como unidades

1

, observaciones o casos.

En la prctica, los conjuntos de datos multivariantes son comunes, aunque

no siempre se analizan atendiendo a tal caracterstica. El uso exclusivo de

procedimientos univariantes con datos multivariantes ignora la informacin

conjunta que presentan y debe recurrirse a las tcnicas multivariantes para

descubrir la informacin que contienen. En concreto, estas tcnicas permiten

evaluar relaciones simultneas entre varias variables, lo que constituye un

objetivo primordial en la mayor parte de las investigaciones cientcas. Ade-

ms, la potencia de clculo que proporcionan los ordenadores actuales y el

software disponible hacen inexcusable el uso de los mtodos multivariantes.

Histricamente, la mayor parte de las aplicaciones de las tcnicas multi-

variantes han sido en las ciencias biolgicas y del comportamiento. Sin em-

bargo, su inters se ha ampliado a otros numerosos campos de investigacin.

De hecho, son frecuentemente aplicadas en estudios de economa, empresa,

marketing, investigacin de mercados, nanzas, ingeniera, psicologa, etc.

Algunos ejemplos de problemas que presentan observaciones multivariantes

son los siguientes:

1

Unidades muestrales o experimentales.

1

i) Economa: estudio de la relacin existente entre el tipo de inters de

las letras del Tesoro, la tasa de inacin anual calculada sobre el IPC

y el dcit como un porcentaje del PIB.

ii) Empresa: investigacin sobre ingresos, nivel educativo y experiencia de

los ejecutivos junto con el tamao de la empresa.

iii) Marketing: anlisis conjunto de los gastos en publicidad, laborales, en

materias primas y las ventas del producto.

iv) Investigacin de mercados: determinacin del perl de los consumidores

en funcin de sus edad, sexo, estrato social, ingresos, etc.

v) Finanzas: decisin sobre la concesin de crditos a partir de los ingre-

sos, ahorros, patrimonio, nivel de deudas contradas, estabilidad en el

empleo, etc.

De estos ejemplos se desprende que la escala de medida de las variables

intervinientes puede ser distinta. Por ejemplo, a un individuo se le puede des-

cribir en relacin a caractersticas tales como la edad, el nivel educativo, los

ingresos, el sexo, el coeciente de inteligencia, la puntuacin en una prueba

de actitud o la preferencia por una marca u otra. Este simple ejemplo pone

de maniesto que las variables pueden ser de dos tipos: 1) cuantitativas o

mtricas y 2) cualitativas o no mtricas. Dentro de esta clasicacin pode-

mos a su vez subdividir de la siguiente forma. Las cuantitativas pueden ser

de: a) intervalo o b) razn; y las cualitativas pueden ser: c) nominales u d)

ordinales.

La escala nominal es la ms bsica, presenta valores que son categoras

exhaustivas y mutuamente excluyentes y no puede establecerse un orden en

ella (por ejemplo, el sexo o la preferencia por una marca). La siguiente es

la ordinal que, presentando las caractersticas anteriores, puede establecerse

un orden entre ellas (por ejemplo, el nivel educativo). La escala de intervalo

aade a las caractersticas anteriores el hecho de que las diferencias tienen

sentido aunque no tienen un cero absoluto, es decir, el punto cero de la escala

es arbitrario (por ejemplo, el coeciente de inteligencia o la puntuacin en

una prueba de actitud). As se puede armar que la distancia entre 100 y

120 en el coeciente de inteligencia es la misma que la existente entre 80

y 100. Lo que no podemos establecer es que un coeciente de 70 equivale

a la mitad de uno de 140. Por ltimo, la escala de razn posee las mismas

caractersticas que la escala de intervalo, con la diferencia que cuentan con un

cero absoluto; es decir, el valor cero representa la ausencia total de medida,

por lo que se puede realizar cualquier operacin aritmtica (suma, resta,

2

multiplicacin y divisin) y lgica (comparacin y ordenamiento). Este tipo

de escala permite el nivel ms alto de medicin. La edad, altura o el salario,

son algunos ejemplos de este tipo de escala de medida

2

.

Las escalas de medida deben ser adecuadas para medir las caractersticas

objeto de estudio. El tipo de escala utilizado es fundamental en la eleccin

y aplicacin correcta del anlisis multivariante. En determinadas tcnicas es

necesario que las variables tengan similar escala de medida (por ejemplo, el

anlisis de perles). Sin embargo, la mayor parte de las tcnicas no precisan

esta condicin.

En general, las variables son medidas simultneamente sobre cada uni-

dad muestral. Estas variables estn tpicamente correladas. Si no fuera as,

muchas de las tcnicas del anlisis multivariantes sera intiles. El reto es

desenmaraar la informacin comn que presentan las variables correladas

y descubrir su estructura subyacente. Por tanto, el objetivo de muchas tc-

nicas multivariantes es la simplicacin. A este propsito lo denominaremos

reducir la dimensin. Tales tcnicas son exploratorias en el sentido de que

esencialmente son utilizadas para generar hiptesis en lugar de contrastarlas.

Por otro lado, si nuestro objetivo es un test de hiptesis formal necesitare-

mos tcnicas que permitan contrastar informacin relativa a varias variables

preservando el nivel de signicacin y para cualquier estructura de interco-

rrelacin de las mismas. Estas tcnicas son denominadas inferenciales.

Como hemos indicado, el anlisis multivariante se ocupa generalmente de

dos reas: exploratoria e inferencial. En el campo descriptivo, se obtiene a

menudo combinaciones lineales ptimas de variables. El criterio de optimali-

dad depende de la tcnica. Aunque las combinaciones lineales pueden parecer

demasiado simples para revelar la estructura subyacente, las utilizaremos por

dos motivos obvios: por ser tratables matemticamente y por funcionar bien

con frecuencia en la prctica. Esas combinaciones lineales pueden tambin

ser tiles como un complemento a los procedimientos inferenciales. En el rea

inferencial, los tests multivariantes proporcionan un control total para la tasa

de error experimental, es decir, independientemente del nmero de variables

involucradas en el contraste, el valor del nivel de signicacin permanece en

el nivel jado por el investigador.

2

Debido a la similitud existente entre las escalas de intervalo y de razn, SPSS las ha

reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala.

Las variables de escala son para SPSS todas aquellas variables cuyos valores representan

magnitudes, ya sea que cuenten con un cero absoluto o no.

3

1.2. Clasicacin de las Tcnicas Multivariantes

La importancia de una adecuada clasicacin de las tcnicas multiva-

riantes no reside tanto en la necesidad tipolgica, sino en que es necesario

disponer de ella para una correcta eleccin de la tcnica para resolver el

problema planteado. Las siguientes preguntas ayudan en este propsito:

1. El estudio responde a un problema de dependencia entre variables o

de interdependencia de entre las mismas?.

2. Cmo estn medidas las variables implicadas, en escala mtrica o no

mtrica?.

3. Si estamos en un problema de dependencia, cuntas relaciones se plan-

tean entre las variables dependientes e independientes?, cuntas va-

riables dependientes existen?.

1.2.1. Tcnicas de dependencia

Las tcnicas de anlisis de dependencia investigan las relaciones existen-

tes entre dos grupos de variables. Si por conocimiento previo se es capaz

de caracterizar a un grupo de variables como dependiente y al otro como

independiente

3

, entonces el objetivo ser establecer si el conjunto de varia-

bles independientes afecta al conjunto de dependientes de forma individual o

simultnea. Por ejemplo, si en un grupo de individuos se miden sus ingresos,

nivel de estudios, edad y sexo, podemos plantearnos si los ingresos (varia-

ble dependiente) pueden explicarse a travs del resto de variables (variables

independientes). Estaramos ante un problema de dependencia y sera nece-

sario ver cmo estn medidas las variables para elegir entre una tcnica u

otra.

Sin embargo, podemos encontrarnos ante un problema en el que sea im-

posible distinguir conceptualmente entre variables dependientes e indepen-

dientes. Nos interesa simplemente saber cmo se relacionan las variables

del problema. Los mtodos estadsticos que abordan estas cuestiones seran

los denominados de interdependencia. Siguiendo con el ejemplo anterior, el

investigador puede querer saber si considerando todas las variables que ca-

racterizan a los individuos puede encontrarse grupos de individuos que se

3

La caracterizacin de un conjunto de variables como independientes responde al hecho

de que la informacin que stas contiene es utilizada para explicar el comportamiento del

otro conjunto de variables, denominadas entonces variables dependientes. Se establece

por tanto una direccin en la explicacin del comportamiento de las variables, siendo las

variables independientes las que explican el comportamiento de las dependientes.

4

parezcan mucho entre s respecto a estas variables y que dieran de otros

grupos. Aqu no nos encontramos ante dos conjuntos de variables, sino que se

consideran todas juntas. La tcnica que se elija para resolver este problema

deber pertenecer al grupo de mtodos de interdependencia.

Las principales tcnicas de dependencia son las siguientes:

i) Regresin lineal mltiple: pretende analizar la relacin existente en-

tre una variable dependiente mtrica y un conjunto de variables in-

dependientes mtricas o no mtricas. Por ejemplo, queremos analizar

la relacin existente entre el nivel de ingresos medido en euros y el

nivel educativo, sexo y edad. En este caso, las variables independien-

tes (educacin, edad y sexo) pretenden explicar el comportamiento de

una nica variable dependiente mtrica (ingresos). Si existe ms de

una variable dependiente y todas son mtricas, entonces la tcnica se

denomina regresin lineal mltiple multivariante.

ii) Anlisis discriminante y regresin logstica: tienen un propsito similar

a la regresin lineal mltiple pero ahora la variable dependiente es no

mtrica. Por ejemplo, si el nivel de ingresos est codicado en tres

niveles (subsistencia, medio y alto).

iii) Anlisis multivariante de la varianza (MANOVA): trata de explicar

un conjunto de diversas variables mtricas a partir de un conjunto de

variables independientes no mtricas. Por ejemplo, si se desea explicar

el nivel de ingresos en euros y aos de permanencia en la empresa

(variables dependientes) en funcin del sexo, nivel educativo (ESO,

bachiller o universitario) y nivel de ingls hablado (bsico, intermedio

y alto).

iv) Anlisis de correlaciones cannicas: a diferencia del anlisis de regre-

sin lineal mltiple multivariante, en donde un grupo de variables inde-

pendientes (mtricas o no) explican a otro grupo de variables mtricas

y no al revs, ahora el tratamiento de ambos conjuntos de variables es

del mismo modo o de forma simtrica. Por ejemplo, supongamos que

el primer grupo de variables es de rendimiento escolar y el segundo de

uso del tiempo de ocio entre estudiantes. En este caso, no existe clara-

mente un conjunto de variables que sea la causa del otro, es decir, no

es posible caracterizar a un grupo como de variables dependientes y a

otro como de independientes. En general, este tipo de anlisis se utiliza

cuando un conjunto de variables puede dividirse en dos grupos homog-

neos (por criterios econmicos, demogrcos, sociales, etc.) y se desea

5

estudiar la relacin entre ambos conjuntos de variables. En particular,

los dos grupos pueden corresponder a las mismas variables medidas en

dos momentos distintos en el tiempo, espacio, etc. Esta tcnica es muy

general y permite en ambos grupos tanto variables mtricas como no

mtricas.

v) Ecuaciones estructurales: en todos los casos anteriores el investigador

busca evaluar la intensidad de una nica relacin entre dos conjuntos de

variables. La extensin a ms de una ecuacin es el objeto del conjunto

de tcnicas denominadas sistemas de ecuaciones estructurales, entre las

que se encuentran el anlisis factorial conrmatorio y los modelos de

estructura de covarianza.

1.2.2. Tcnicas de interdependencia

Como se ha comentado anteriormente, existen situaciones de investiga-

cin en las que es imposible separar las variables en dos grupos distintos y

lo que interesa es determinar cmo y por qu estn relacionadas entre ellas.

Las principales tcnicas de interdependencia son:

i) Anlisis de componentes principales: es una tcnica de reduccin de va-

riables cuyo objetivo fundamental es construir combinaciones lineales

de las variables originales que expliquen la mayor parte de la informa-

cin recogida en stas. Cada combinacin lineal se extrae de tal forma

que est incorrelada con las anteriores y, adems, contiene cada vez

menos informacin sobre las variables originales que las anteriores. Por

ejemplo, un analista contable puede extraer del balance muchos indica-

dores nancieros para medir la salud de su empresa. Puede emplearlos

todos o, por el contrario, obtener un nmero reducido de combinacio-

nes lineales de ellos que aporten una informacin aproximada a la que

se obtendran con todos ellos. Es ms sencillo comparar empresas a

partir de dos indicadores que con muchos de ellos.

ii) Anlisis factorial: es tambin una tcnica de reduccin de variables

pero, a diferencia de la anterior, el inters se centra en establecer qu

factores latentes (no observables) pueden estar causando la correlacin

entre las variables observadas. Puede considerarse como una tcnica

que pretende identicar grupos de variables de tal forma que la co-

rrelacin de las variables dentro de cada grupo sean superiores a las

correlaciones de las variables entre grupos diferentes.

6

iii) Anlisis de correspondencias: permite visualizar grcamente tablas de

contingencia. Por ejemplo, si deseamos investigar si existe relacin en-

tre dos variables no mtricas, cada una de las cuales tiene 20 categoras.

Un ejemplo concreto sera analizar la relacin entre el tipo de ocupacin

y la universidad donde el sujeto se gradu. La tabla 2020 resultanteno resulta fcil de estudiar, sin embargo, el anlisis de corresponden-

cias permitir mostrar un mapa, probablemente bidimensional, en el

que una universidad estar tanto ms cerca de un tipo de ocupacin

cuanto mayor sea la frecuencia de esa celda en la tabla de contingencia.

iv) Anlisis cluster: a diferencia del anlisis factorial o de componente

principales cuyo objetivo es agrupar variables, esta tcnica pretende

agrupar observaciones. La agrupacin se realiza de tal forma que las

observaciones de cada grupo o conglomerado sean lo ms parecidas po-

sible respecto a las caractersticas que miden las variables consideradas

y lo ms diferentes posibles en relacin a esas caractersticas de otras

observaciones que estn en otros grupos distintos.

v) Escalamiento multidimensional: permite al investigador descubrir qu

criterios subyacentes utilizan los individuos para considerar que distin-

tos objetos son parecidos o distintos entre s. Una de las principales

utilidades de este anlisis es la construccin de mapas, normalmente

bidimensionales, donde los objetos estn tanto ms cercanos cuanto

ms parecidos son para el conjunto de individuos entrevistados.

1.2.3. Otros criterios de clasicacin

Evidentemente el criterio utilizado atendiendo al nmero de grupos y

a la naturaleza de las variables para clasicar a las tcnicas multivariantes

es uno de los posibles. Otros criterios son tambin admisibles. Por ejemplo,

en funcin del objetivo de la tcnica. As, si los que se pretende es reducir

la dimensin del problema original, tal y como hacen el anlisis de compo-

nentes principales, el anlisis factorial, el anlisis de correspondencias o el

escalamiento multidimensional, estaremos ante una tcnica de reduccin de

la dimensin. Si lo que se pretende es agrupar observaciones, tal y como hace

el anlisis cluster u otros mtodos de agrupacin, estaremos ante una tcnica

de agrupacin. Por otro lado, si lo que pretendemos es estudiar la asocia-

cin entre variables, tal y como hacen los mtodos de regresin, el anlisis

multivariante de la varianza o el anlisis de correlaciones cannicas, habla-

remos de una tcnica de asociacin. Por ltimo, si el objetivo es describir

cmo se clasican las observaciones en grupos predeterminados, como hacen

7

el anlisis discriminante y la regresin logstica, estaremos ante tcnicas de

clasicacin. Esta divisin de las tcnicas por objetivos, aunque no de forma

literal, es la que ha dado nombre a las asignaturas de contenidos de Anlisis

Multivariante que aparecen en el Grado de Estadstica y Empresa.

1.3. Estadsticos Multivariantes

Esta seccin tiene por objeto introducir los estimadores multivariantes

ms importantes. Para ello vamos a considerar diversos casos: el primero

recoge la situacin en la que nos interesa el vector de variables de forma

completa, el segundo est relacionado con la divisin del vector original en

dos subvectores y el tercero trata con combinaciones lineales de variables del

vector aleatorio. Posteriormente estudiaremos como sintetizar en un nico

valor la dispersin total que tienen los datos multivariantes y el problema

de la multicolinealidad que aparece cuando las variables del vector aleatorio

presentan una alta relacin lineal entre ellas.

1.3.1. Estadsticos para el vector completo de variables

Consideremos un vector aleatorio y = (y1; ; yp)0 y supongamos quehemos obtenido una muestra sobre n individuos denotada por y1; : : : ;yn,donde yi = (yi1; : : : ; yip)

0, i = 1; : : : ; n. El vector media muestral y se puedecalcular de la forma:

y =1

n

nXi=1

yi = (y1; : : : ; yp)0(1.1)

donde yj =1n

Pni=1 yij . Por tanto, yj es la media muestral de la variable yj .Las n observaciones vectoriales y1; : : : ;yn pueden ser transpuestas a vec-tores las y recogidas en la matriz de datos Y como sigue:

Y =

0BBBBBBBB@

y01y02.

.

.

y0i.

.

.

y0n

1CCCCCCCCA=

0BBBBBBBB@

y11 y12 y1j y1py21 y22 y2j y2p.

.

.

.

.

.

.

.

.

.

.

.

yi1 yi2 yij yip.

.

.

.

.

.

.

.

.

.

.

.

yn1 yn2 ynj ynp

1CCCCCCCCA(1.2)

donde las las representan a las unidades y las columnas a las variables.

Puesto que n es usualmente mayor que p, los datos son tabulados ms conve-nientemente introduciendo las observaciones como las en lugar de columnas.

8

Ntese que el primer subndice i corresponde a las unidades y el segundo j alas variables. Aparte de las dos formas de calcular

y dadas en (1.1) podemostambin obtenerla a partir de la matriz de datos Y de la forma siguiente:

y0 =1

nj0Y (1.3)

donde j0 = (1; 1; : : : ; 1) o tomando transpuestas:

y =1

nY0j (1.4)

La media de y sobre todos los posibles valores en la poblacin es deno-minada vector de medias poblacional o valor esperado de y y se dene:

= E(y) =

0BBB@E(y1)E(y2).

.

.

E(yp)

1CCCA =0BBB@12.

.

.

p

1CCCAdonde j es la media poblacional de la variable yj . Se verica que:

E(y) =

0BBB@E(y1)E(y2).

.

.

E(yp)

1CCCA =0BBB@12.

.

.

p

1CCCA = y, por tanto,

y es un estimador insesgado de .La matriz de varianzas-covarianzas muestral S = (sjk) es la matriz delas covarianzas muestrales:

S =

0BBB@s11 s12 s1ps21 s22 s2p.

.

.

.

.

.

.

.

.

sp1 sp2 spp

1CCCALa diagonal principal de S est conformada por las varianzas muestralesde las p variables, para las cuales suele utilizarse la notacin sjj = s

2j , mien-

tras que las covarianzas muestrales aparecen fuera de esta diagonal principal.

A S tambin se le denomina matriz de covarianzas y matriz de dispersin.Existen tres formas para obtener S. La primera de ellas es elemento a ele-mento:

sjk =1

n 1nXi=1

(yij yj)(yik yk) = 1n 1

nXi=1

yijyik nyj yk!

9

La segunda forma utiliza vectores de observaciones:

S =1

n 1nXi=1

(yi y)(yi y)0 = 1n 1

nXi=1

yiy0i nyy0

!Por ltimo, se puede obtener S directamente a partir de Y. Para ello hayque tener en cuenta que de (1.2) se verica:

nXi=1

yiy0i = (y1;y2; : : : ;yn)

0BBB@y01y02.

.

.

y0n

1CCCA = Y0Yy que:

jj0 = J =

0BBB@1 1 11 1 1.

.

.

.

.

.

.

.

.

1 1 1

1CCCAy as, teniendo en cuenta (1.3) y (1.4), se sigue que:

nyy0 =1

nY0jj0Y =

1

nY0JY

En consecuencia, de la segunda forma, se tiene que:

S =1

n 1Y0Y Y0

1

nJ

Y

=

1

n 1Y0I 1

nJ

Y

Esta ltima expresin es una representacin conveniente de S ya que haceuso directo de la matriz de datos Y. Sin embargo, la matriz IJ=n es nny puede suponer un alto coste computacional si n es grande.Por otra parte, la expresin Yc =

I 1nJ

Y es la forma centrada4 de la

matrizY. Por multiplicacin directa, es fcil demostrar queI 1nJ

0 I 1nJ

=

I 1nJy as podemos expresar:

S =1

n 1Y0I 1

nJ

Y

=1

n 1Y0I 1

nJ

0I 1

nJ

Y

=1

n 1Y0cYc (1.5)

4

Veamos que Yc es la versin centrada de Y, es decir, sus datos tienen media 0. Para

10

La matriz de covarianzas poblacional es denida:

= E[(y )(y )0] =

0BBB@11 12 1p21 22 2p.

.

.

.

.

.

.

.

.

p1 p2 pp

1CCCAen donde los elementos diagonales jj =

2j = E(yj j)2 son las varianzaspoblacionales de las variables yj y los elementos fuera de la diagonal principaljk = E[(yj j)(yk k)] son las covarianzas poblacionales de yj e yk,j; k = 1; : : : ; p. Se verica adems que:

= E(yy0) 0

Dado que E(sjk) = jk, entonces E(S) = y S es un estimador inses-gado de .El tercer estadstico multivariante que vamos a estudiar es la matriz de

correlaciones. La correlacin muestral entre las variables yj e yk se denecomo:

rjk =sjkpsjjskk

=sjksjsk

La matriz de correlaciones muestral es anloga a la matriz de covarian-

zas en la que se sustituyen las covarianzas muestrales por sus respectivas

ello tengamos en cuenta que:

Yc =

I 1

nJ

Y = Y 1

nJY = Y 1

njj0Y = Y jy0

=

0BBB@y11 y12 y1py21 y22 y2p.

.

.

.

.

.

.

.

.

yn1 yn2 ynp

1CCCA0BBB@11.

.

.

1

1CCCA (y1; : : : ; yp)

=

0BBB@y11 y12 y1py21 y22 y2p.

.

.

.

.

.

.

.

.

yn1 yn2 ynp

1CCCA0BBB@y1 y2 ypy1 y2 yp.

.

.

.

.

.

.

.

.

y1 y2 yp

1CCCA

=

0BBB@y11 y1 y12 y2 y1p ypy21 y1 y22 y2 y2p yp.

.

.

.

.

.

.

.

.

yn1 y1 yn2 y2 ynp yp

1CCCA

11

correlaciones muestrales:

R =

0BBB@1 r12 r1pr21 1 r2p.

.

.

.

.

.

.

.

.

rp1 rp2 1

1CCCALa matriz de correlaciones puede obtenerse a partir de la matriz de co-

varianzas, y vice versa. Para ver esto, denamos:

Ds = diag(ps11;

ps22; : : : ;

pspp) = diag(s1; s2; : : : ; sp) =

0BBB@s1 0 00 s2 0.

.

.

.

.

.

.

.

.

0 0 sp

1CCCAentonces:

R = D1s SD1s

S = DsRDs

Denotemos por Z a la matriz de datos estandarizada, entonces Z = (zij),con zij = (yij yj)=sj . Adems, se verica que Z = YcD1s y la matrizde covarianzas de Z es la matriz de correlaciones de Y. Para demostrar estaarmacin, utilizamos la tercera forma de clculo de la matriz de covarianzas:

Sz =1

n 1Z0Z Z0

1

nJ

Z

(ya que nzz0 =

1

nZ0JZ = 0)

=1

n 1Z0Z (Z = YcD1s )

= D1sY0cYcn 1D

1s (por (1.5))

= D1s SD1s = R

La matriz de correlaciones poblacional se dene como:

P =

0BBB@1 12 1p21 1 2p.

.

.

.

.

.

.

.

.

p1 p2 1

1CCCAdonde

jk =jkjk

Finalmente, indicar que R es un estimador sesgado de P.

12

1.3.2. Ejemplo

El chero europa contiene datos referidos a los porcentajes de empleados

en diferentes sectores productivos de 26 pases europeos en 1979. De este

chero hemos extrado las 10 primeras observaciones correspondientes a las

3 primeras variables. Los datos aparecen en la tabla adjunta en donde:

1. Agr: porcentaje de empleados en agricultura (y1)

2. Min: porcentaje de empleados en minera (y2)

3. Man: porcentaje de empleados en industria (y3)

Pas Agr Min Man

1 Belgium 3.30 0.90 27.60

2 Denmark 9.20 0.10 21.80

3 France 10.80 0.80 27.50

4 W. Germany 6.70 1.30 35.80

5 Ireland 23.20 1.00 20.70

6 Italy 15.90 0.60 27.60

7 Luxembourg 7.70 3.10 30.80

8 Netherlands 6.30 0.10 22.50

9 United Kingdom 2.70 1.40 30.20

10 Austria 12.70 1.10 30.20

Para obtener el vector de medias calculamos las medias por variable:

y0 = (y1; y2; y3) = (9:85; 1:04; 27:47). La matriz de varianzas-covarianzasmuestrales es:

S =

0@ 38:38 0:69 12:690:69 0:72 2:2612:69 2:26 22:01

1Adonde, por ejemplo, la covarianza s23 se ha calculado de la forma:

10Xi=1

yi2yi3 = 0:9 27:6 + 0:1 21:8 + + 1:4 30:2 + 1:1 30:2 = 306:05

y as:

s23 =1

10 1

10Xi=1

yi2yi3 10y2y3!

=1

9(306:05 10 1:04 27:47) = 2:26

13

Teniendo en cuenta que:

Ds =

0@p38:38 0 0

0p0:72 0

0 0p22:01

1Aentonces:

R = D1s SD1s =

0@ 1 0:13 0:430:13 1 0:560:43 0:56 1

1A1.3.3. Estadsticos para subconjuntos de variables

En ocasiones el investigador est interesado en dos clases diferentes de

variables, ambas medidas sobre el mismo conjunto de unidades muestrales.

Por ejemplo, diversas variables que miden el comportamiento del consumidor

son observadas para un grupo de personas durante un periodo de tiempo y se

desea estudiar la relacin entre tales variables en funcin del sexo del consu-

midor. Denotemos a los dos subvectores y = (y1; ; yp)0 y x = (x1; ; xq)0.As, cada observacin muestral puede ser dividida de la forma:

yixi

=

0BBBBBBBB@

yi1.

.

.

yipxi1.

.

.

xiq

1CCCCCCCCA; i = 1; : : : ; n

Para la muestra de n observaciones vectoriales, el vector de medias y lamatriz de covarianzas pueden expresarse:

yx

=

0BBBBBBBB@

y1.

.

.

ypx1.

.

.

xq

1CCCCCCCCAy S =

Syy SyxSxy Sxx

donde Syy es pp, Syx es pq, Sxy es qp y Sxx es qq. Ntese que, dadoque S es simtrica, ha de vericarse Sxy = S

0yx. Por ejemplo, para p = 2 y

14

q = 3 se tiene que:

yx

=

0BBBB@y1y2x1x2x3

1CCCCA

S =

Syy SyxSxy Sxx

=

0BBBBB@s2y1 sy1y2 sy1x1 sy1x2 sy1x3sy2y1 s

2y2 sy2x1 sy2x2 sy2x3

sx1y1 sx1y2 s2x1 sx1x2 sx1x3

sx2y1 sx2y2 sx2x1 s2x2 sx2x3

sx3y1 sx3y2 sx3x1 sx3x2 s2x3

1CCCCCADe esta forma, Syy es la matriz de covarianzas de y y Sxx la matriz decovarianzas de x, mientras que Syx es la matriz de covarianzas5

entre y y x.Adems, ya que sykxl = sxlyk , se tiene que Sxy = S

0yx.

Los correspondientes parmetros poblacionales pueden ser divididos anlo-

gamente:

E

yx

=

E(y)E(x)

=

yx

cov

yx

= =

yy yxxy xx

donde xy =

0yx. La submatriz yy es una matriz de covarianzas p p quecontiene en su diagonal principal a las varianzas de y1; : : : ; yp y fuera de staa las covarianzas entre yk e yj para j; k = 1; : : : ; p, con j 6= k. Similarmentexx es la matriz de covarianzas de x1; : : : ; xq y tiene dimensiones q q. Porltimo, yx es p q y contiene las covarianzas de cada yj con cada xk. Lamatriz yx es denotada tambin por cov(y;x)6

.

Si y y x son independientes entonces yx = 0. Esto signica que cadayj est incorrelada con cada xk por lo que yjxk = 0 para j = 1; : : : ; p yk = 1; : : : ; q.La extensin a ms de dos subconjuntos de variables es inmediata. Si el

5

Tambin denominada matriz de covarianzas cruzada de y y de x.6

Ntese la diferencia de notacin entre: cov(y;x) = E[(y y)(x x)0] = yx ycov

yx

= . La primera involucra a dos vectores y la segunda implica a un vector nico

de p+ q variables.

15

vector de observaciones y es dividido de la forma siguiente:

y =

0BBB@y1y2.

.

.

yk

1CCCAdonde y1 tiene p1 variables, y2 tiene p2 variables, ..., yk tiene pk variablescon p1 + p2 + + pk = p, entonces esta particin induce otras en el vectorde medias y en la matriz de covarianzas muestrales dadas por:

y =

0BBB@y1y2.

.

.

yk

1CCCA y S =0BBB@S11 S12 S1kS21 S22 S2k.

.

.

.

.

.

.

.

.

Sk1 Sk2 Skk

1CCCAPor ejemplo, la submatriz S2k tiene dimensiones p2 pk y contiene lascovarianzas de las variables en y2 con las variables en yk.Los correspondientes parmetros poblacionales pueden subdividirse de

igual forma:

=

0BBB@12.

.

.

k

1CCCA y =0BBB@11 12 1k21 22 2k.

.

.

.

.

.

.

.

.

k1 k2 kk

1CCCA1.3.4. Ejemplo

Supongamos ahora que consideramos 2 variables adicionales del chero

europa tratado en el ejemplo anterior y que ahora las dividimos en dos grupos

de acuerdo al sector productivo al que pertenecen: primario (y) y secundario(x). En concreto, consideramos las 5 variables siguientes y con los datos queaparecen en la tabla posterior:

1. Agr:% de empleados en agricultura (y1)

2. Min:% de empleados en minera (y2)

3. Man:% de empleados en industria (x1)

4. PS:% de empleados en las industrias suministradoras de energa (x2)

5. Con:% de empleados en la construccin (x3)

16

Pas Agr Min Man PS Con

1 Belgium 3.30 0.90 27.60 0.90 8.20

2 Denmark 9.20 0.10 21.80 0.60 8.30

3 France 10.80 0.80 27.50 0.90 8.90

4 W. Germany 6.70 1.30 35.80 0.90 7.30

5 Ireland 23.20 1.00 20.70 1.30 7.50

6 Italy 15.90 0.60 27.60 0.50 10.00

7 Luxembourg 7.70 3.10 30.80 0.80 9.20

8 Netherlands 6.30 0.10 22.50 1.00 9.90

9 United Kingdom 2.70 1.40 30.20 1.40 6.90

10 Austria 12.70 1.10 30.20 1.40 9.00

Entonces:

yx

=

0BBBB@y1y2x1x2x3

1CCCCA =0BBBB@

9:851:04

27:470:978:52

1CCCCA

S =

Syy SyxSxy Sxx

=

0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:06

0:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

1CCCCANtese que Syy y Sxx son simtricas y que S

0yx = Sxy.

1.3.5. Combinaciones lineales de variables

En temas subsiguientes ser de inters la consideracin de combinacio-

nes lineales de las variables y1; : : : ; yp. Por ejemplo, dos de los problemasque involucran a funciones lineales interesantes sern: encontrar la combina-

cin lineal que maximice alguna funcin y determinar combinaciones lineales

que permitan comparar variables (por ejemplo, y1 y3). En esta seccin es-tudiaremos la media, varianza y covarianza de una combinacin lineal de

variables.

Denotemos a una combinacin lineal de los elementos de y de la forma:

z = a0y =pX

j=1

ajyj

17

donde a0 = (a1; a2; : : : ; ap) es un vector de constantes. Si esta combinacinlineal es aplicada a cada yi en la muestra se tiene:

zi = a0yi =

pXj=1

ajyij ; i = 1; : : : ; n

La media muestral de los zi puede obtenerse promediando los n valoreszi o como una combinacin lineal de y:

z =1

n

nXi=1

zi =1

na0

nXi=1

yi = a0y

Similarmente, la varianza muestral de los zi puede obtenerse a partir dela denicin de varianza muestral o directamente a partir de a y S (la matrizde covarianzas de y1; : : : ;yn):

s2z =

Pni=1(zi z)2n 1

=

Pni=1(a

0yi a0y)2n 1

=

Pni=1(a

0yi a0y)(a0yi a0y)0n 1

=

Pni=1 a

0(yi y)(yi y)0an 1

= a0Pn

i=1(yi y)(yi y)0n 1

a

= a0Sa (1.6)

Puesto que una varianza es siempre no negativa, se tiene que s2z 0 y asa0Sa 0, para cada a. Por tanto, S es al menos semidenida positiva. Si lasvariables son continuas y no estn relacionadas linealmente, y si n 1 > p(por lo que S es de rango completo), entonces S es denida positiva (conprobabilidad 1).

Denamos otra combinacin lineal de y de la forma:

w = b0y =pX

j=1

bjyj

entonces la covarianza muestral de z y w es:

szw =

Pni=1(zi z)(wi w)

n 1 = a0Sb (1.7)

18

y la correlacin muestral entre z y w es:

rzw =szwps2zs

2w

=a0Sbp

(a0Sa)(b0Sb)

Cambiemos la notacin de los vectores a y b por a1 y a2 para facilitar eldesarrollo posterior a ms de dos de tales vectores. Sea:

A =

a01a02

y denamos:

z =

a01ya02y

=

z1z2

entonces:

z =

a01a02

y = Ay

Si evaluamos esta transformacin en la muestra se tiene zi = Ayi, i =1; : : : ; n, y la media puede obtenerse:

z =

z1z2

=

a01ya02y

=

a01a02

y = Ay

La matriz de covarianzas de z puede calcularse de la forma:

Sz =

s2z1 sz1z2sz2z1 sz22

=

a01Sa1 a01Sa2a02Sa1 a02Sa2

=

a01a02

S(a1;a2) = ASA

0

Estos dos ltimos resultados pueden extenderse sencillamente a ms de

dos combinaciones lineales. Supongamos que tenemos las siguientes k trans-formaciones lineales:

z1 = a01y =

pXj=1

a1jyj

z2 = a02y =

pXj=1

a2jyj

.

.

.

zk = a0ky =

pXj=1

akjyj

19

o matricialmente:

z =

0BBB@z1z2.

.

.

zk

1CCCA =0BBB@a01ya02y.

.

.

a0ky

1CCCA =0BBB@a01a02.

.

.

a0k

1CCCAy = Aydonde A es k p (tpicamente k p). Si evaluamos esta transformacin enla muestra se tiene zi = Ayi, i = 1; : : : ; n, y la media puede obtenerse:

z =

0BBB@z1z2.

.

.

zk

1CCCA =0BBB@a01ya02y.

.

.

a0ky

1CCCA =0BBB@a01a02.

.

.

a0k

1CCCA y = AyLa matriz de covarianzas de z puede obtenerse ahora de la forma:

Sz =

0BBB@a01Sa1 a01Sa2 a01Saka02Sa1 a02Sa2 a02Sak.

.

.

.

.

.

.

.

.

a0kSa1 a0kSa2 a0kSak

1CCCA =0BBB@a01a02.

.

.

a0k

1CCCAS(a1;a2; : : : ;ak) = ASA0De esta ltima expresin se deduce que:

tr(ASA0) =kXi=1

a0iSai

Todava podemos considerar una combinacin lineal algo ms general de

la forma:

zi = Ayi + b i = 1; : : : ; n

con b un vector constante, entonces:

z = Ay + b (1.8)

Sz = ASA0(1.9)

A continuacin esquematizamos la versin poblacional de estos resulta-

dos. La media poblacional de z = a0y es:

E(z) = E(a0y) = a0E(y) = a0

y su varianza poblacional:

2z = var(a0y) = a0a

20

Sea w = b0y otra combinacin lineal de y, entonces la covarianza pobla-cional de z y w es:

cov(z; w) = zw = a0b

y la correlacin poblacional entre z y w es:

zw = corr(a0y;b0y) =

a0bp(a0a)(b0b)

Si Ay representa diversas combinaciones lineales, entonces su vector demedias y matriz de covarianzas poblacionales son:

E(Ay) = AE(y) = A

cov(Ay) = AA0 (1.10)

La transformacin ms general z = Ay + b tiene vector de medias ymatriz de covarianzas poblacionales:

E(Ay + b) = AE(y) + b = A+ b

cov(Ay + b) = AA0 (1.11)

Por ltimo, si las las de C representan los coecientes de otra combina-cin lineal Cy + d, entonces

cov(Ay + b;Cy + d) = AC0 (1.12)

1.3.6. Ejemplo

Consideremos de nuevo las 5 variables del ejemplo anterior obtenidas

del chero europa. Cambiemos la notacin para hacerla compatible con la

utilizada en esta seccin: y1 = Agr, y2 = Min, y3 = Man, y4 = PS e y5 =Con. Denamos la siguiente combinacin lineal:

z = 3y1 + 2y2 y3 + y4 + 4y5 = (3; 2;1; 1; 4)y = a0ySi calculamos z para cada una de las 10 observaciones obtenemos: z1 = 17:8,z2 = 39:8, z3 = 43, z4 = 17, z5 = 82:2, z6 = 61:8, z7 = 36:1, z8 = 37:2,z9 = 9:7 y z10 = 47:5. Entonces su media es z = 39:21 y varianza s

2z =

475:3454. Alternativamente, podemos utilizar el vector de medias y la matrizde covarianzas muestrales ya calculadas en el ejemplo anterior:

y =

0BBBB@9:851:0427:470:978:52

1CCCCA y S =0BBBB@

38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

1CCCCA21

entonces:

z = a0y = (3; 2;1; 1; 4)

0BBBB@9:851:0427:470:978:52

1CCCCA = 39:21s2z = a

0Sa

= (3; 2;1; 1; 4)

0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

1CCCCA0BBBB@

32114

1CCCCA = 475:3454Denamos ahora una segunda combinacin lineal:

w = y1 y2 2y3 + 2y4 + 3y5 = (1;1;2; 2; 3)y = b0yentonces su media muestral es w = 18:63 y su varianza muestral es s2w =b0Sb = 215:6534. La covarianza muestral de z y w es szw = a0Sb = 276:447.De esta forma, podemos calcular el coeciente de correlacin muestral entre

z y w:

rzw =szwps2zs

2w

=276:447p

475:3454 215:6534 = 0:863

Consideremos ahora tres funciones lineales dadas por:

z1 = 2y1 2y2 2y3 + y4 3y5z2 = y1 + y2 + 2y3 2y4 y5z3 = 3y1 3y2 y3 2y4 4y5que puede ser expresada matricialmente, z = Ay, de la forma siguiente:

z =

0@z1z2z3

1A =0@2 2 2 1 31 1 2 2 13 3 1 2 4

1A0BBBB@y1y2y3y4y5

1CCCCAy as, la media muestral puede ser calculada como:

z = Ay =

0@2 2 2 1 31 1 2 2 13 3 1 2 4

1A0BBBB@

9:851:0427:470:978:52

1CCCCA =0@61:9155:3737:06

1A

22

y la matriz de covarianzas muestral de z puede obtenerse:

Sz = ASA0 =

0@355:21 49:04 390:1249:04 86:32 6:69390:12 6:69 457:80

1APor ltimo, calculamos la matriz de correlaciones:

Rz = D1z SzD

1z =

0@ 1 0:28 0:960:28 1 0:030:96 0:03 1

1Adonde

Dz =

0@p355:21 0 0

0p86:32 0

0 0p457:80

1A =0@18:84 0 00 9:29 0

0 0 21:39

1A1.3.7. Medidas de la variabilidad total y de multicolinealidad

La matriz de covarianzas contiene las varianzas de las p variables y lascovarianzas entre todos los pares de variables y es, por tanto, una repre-

sentacin polifactica de la variacin total de los datos. A veces es deseable

disponer de un valor numrico nico para la dispersin multivariante global.

Una de tales medidas es la varianza muestral generalizada, denida como el

determinante de la matriz de covarianzas: jSj.La varianza muestral generalizada tiene una interpretacin geomtrica.

La extensin de una elipse a ms de dos dimensiones es denominada hi-

perelipsoide o elipsoide simplemente. Un elipsoide de dimensin p, centradoen

y y que utiliza S1 para estandarizar las distancias al centro, tiene porecuacin:

(y y)0S1(y y) = a2

y contiene una proporcin de las observaciones y1; : : : ;yn en la muestra7

.

Este elipsoide tiene ejes proporcionales a las races cuadradas de los autova-

lores de S. Se puede demostrar que el volumen del elipsoide es proporcionala jSj1=2. Si el autovalor ms pequeo p es cero, entonces no hay ningn ejeen la direccin determinada por ese autovalor, y el elipsoide se encuentra

completamente en un subespacio de dimensin p 1 del espacio de dimen-sin p. En consecuencia, el volumen en el espacio de dimensin p es cero8.

7

De hecho, si y Np(;), entonces (y )01(y ) 2(p).8

Alternativamente, ya que jSj = 12 : : : p, entonces si p = 0, jSj = 0.

23

Un autovalor nulo indica redundancia en la forma de la relacin lineal entre

las variables. Como veremos en el tema siguiente, el vector propio corres-

pondiente al autovalor nulo revela la forma de la dependencia lineal. Una

solucin al dilema cuando p = 0 es eliminar una o ms variables.Otra medida de la variabilidad total es la varianza muestral total, denida

como la traza de S: tr(S) =Pp

j=1 sjj . Esta medida ignora completamentela estructura de covarianza pero es til en tcnicas tales como el anlisis de

componentes principales con propsitos de comparacin.

En general, valores grandes de jSj y tr(S) son reejo de una amplia dis-persin de y1; : : : ;yn en relacin a y, mientras que valores pequeos indicanconcentracin alrededor de

y. En el caso de jSj, sin embargo, un valor extre-madamente pequeo de jSj (o equivalentemente de jRj) puede indicar tantopequea variabilidad como la existencia de multicolinealidad, trmino que

indica una alta dependencia lineal en un conjunto de variables. La multico-

linealidad puede ser un problema serio que puede afectar gravemente a la

utilidad de la tcnica multivariante que se est usando. Puede ser debida

a unas altas correlaciones por pares o a una alta correlacin mltiple entre

una variable y diversas de las otras variables. Por tanto, en muchas ocasiones

es deseable obtener una medida global de la cantidad de intercorrelacin en

un conjunto de variables y1; y2; : : : ; yp, es decir, representar la correlacionesrecogidas en R mediante un nico nmero. Muchas de estas medidas suelenestar basadas en los autovalores de R. El cociente entre el mayor autovalory el menor es el denominado nmero de condicin (un valor superior a 30

indica le presencia de multicolinealidad severa). Otra medida son los factores

de inacin de la varianza denidos como:

FIVj = rjj ; j = 1; : : : ; p

donde rjj son los elementos diagonales de R1 (valores por encima de 5son indicio de problemas por causa de la multicolinealidad). Por ltimo, una

medida comprendida entre 0 y 1 que utiliza los autovalores de R1 (losinversos de los autovalores de R) fue propuesta por Heo:

q2 = 1 pPpj=1 1=j

donde ahora utilizamos j para denotar a los autovalores de R.Por ltimo, una forma de visualizar mediante un grco la informacin

recogida en R se consigue mediante una matriz de diagramas de disper-sin. Este grco muestra todos los pares de diagramas de dispersin que

se pueden formar con las variables y1; y2; : : : ; yp. En cada diagrama, un pa-trn lineal en la nube de puntos es indicio de una alta relacin entre el par

24

de variables implicado y se corresponder con un alto valor absoluto de la

correlacin en la posicin correspondiente de R.

1.3.8. Ejemplo

Calculemos las medidas de la variabilidad total para los 10 primeras

observaciones de las 5 variables del ejemplo anterior obtenidas del chero

europa. Se tiene que la varianza muestral generalizada es:

jSj =

38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

= 25:74

y la varianza muestral total:

tr(S) =5X

j=1

sjj = 62:35

Para estudiar la multicolinealidad calculamos en primer lugar la matriz

de correlaciones:

R = D1s SD1s =

0BBBB@1:00 0:13 0:43 0:04 0:140:13 1:00 0:56 0:14 0:140:43 0:56 1:00 0:06 0:210:04 0:14 0:06 1:00 0:470:14 0:14 0:21 0:47 1:00

1CCCCAque no maniesta ninguna correlacin por pares excesivamente alta. En la

gura 1.1 se muestra la matriz de diagramas de dispersin para las 5 va-

riables. Aunque el tamao muestral es pequeo para visualizar con claridad

la existencia de patrones lineales, es evidente que la mayor asociacin li-

neal la presentan las variables Min y Man, en correspondencia con el valor

r32 = 0:56. El resto de diagramas de dispersin no presentan un patrn linealmuy pronunciado.

Por otra parte, los valores propios de R son: 1 = 1:96, 2 = 1:33,3 = 0:88, 4 = 0:48 y 5 = 0:34. Entonces, el nmero de condicin es:

15

=1:96

0:34= 5:79

25

Agr0.0 1.0 2.0 3.0 0.6 0.8 1.0 1.2 1.4

510

1520

0.01.

02.

03.0 Min

Man

2530

35

0.61.

01.

4

PS

5 10 15 20 25 30 35 7.0 8.0 9.0 10.0

7.0

8.09.0

10.0

Con

Figura 1.1: Matriz de diagramas de dispersin.

cuyo valor es moderado. Calculamos los factores de inacin de la varianza

a traves de la inversa de la matriz de correlaciones: FIV1 = r11 = 1:28,

FIV2 = r22 = 1:53, FIV3 = r

33 = 1:86, FIV4 = r44 = 1:33 y FIV5 = r

55 =1:36, valores que se mantienen por debajo de 5. Por ltimo, el ndice de Heo:

q2 = 1 5P5j=1 1=j

= 1 57:4

= 0:324

maniesta un valor alejado de 1. En consecuencia, para estos datos la mul-

ticolinealidad no es un problema.

1.3.9. Distancia entre vectores

En un contexto univariante, la distancia entre dos puntos es simplemente

la diferencia en valor absoluto entre sus valores. Para propsitos estadsticos,

esta diferencia puede no ser muy informativa. En realidad, no deseamos cono-

cer cuntos centmetros estn de alejadas dos observaciones, pero s cuntas

desviaciones tpicas distan entre s. Por ejemplo, consideremos una variable

X N(0; 1) y una observacin x que dista dos unidades respecto al origen.Se verica que P [0 X 2] = 0:4772. Por otro lado, consideremos otravariable Y N(0; 4) y otra observacin y que tambin diste dos unidadesrespecto al origen. Ahora se tiene que P [0 Y 2] = 0:3413, indicando quey est ms cerca del origen que x. Es decir, la distancia eucldea es incapazde reejar la verdadera distancia entre las observaciones ya que no tiene en

cuenta las desviaciones tpicas (X = 1 y Y = 2). De hecho, x dista dos

26

desviaciones estndares respecto de su media mientras que y est a una des-viacin tpica de su media. Por tanto, nos interesa las distancias estadsticas

o estandarizadas de la forma:

d2 =(xi xj)2

2= (xi xj)(2)1(xi xj)

donde 2 es la varianza poblacional. En nuestro ejemplo, el punto x tiene unadistancia estadstica al cuadrado de d2 = 4 mientras que a y le corresponded2 = 1, lo que mantiene la desigualdad en probabilidades indicando que Yest ms cercana a cero que X.Para obtener una distancia til en un marco multivariante debemos con-

siderar no slo las varianzas de las variables si no tambin sus covarian-

zas o correlaciones. La distancia eucldea al cuadrado entre dos vectores

(yi yj)0(yi yj) no es til en ciertas situaciones ya que no tiene en cuen-ta las varianzas y las covarianzas. Para obtener una distancia estadstica

apropiada estandarizamos mediante la matriz de covarianzas:

d2 = (yi yj)0S1(yi yj)Otros ejemplos son:

D2 = (y )0S1(y )2 = (y )01(y )2 = (1 2)01(1 2)Esas distancias cuadrticas entre dos vectores fueron propuestas por pri-

mera vez por Mahalanobis en 1936 y son denominadas distancias de Maha-

lanobis. Cuando la matriz de covarianzas es la identidad entonces la distan-

cia de Mahalanobis se reduce a la distancia eucldea. Si una variable tiene

una varianza mayor que otra, recibe menor peso relativo en la distancia de

Mahalanobis. Similarmente, dos variables altamente correladas no contribu-

yen tanto como dos variables que estn menos correladas. En esencia, por

tanto, el uso de la inversa de la matriz de covarianzas en la distancia de

Mahalanobis tiene dos efectos:

i) estandarizar todas las variables para que tengan la misma varianza y

ii) eliminar las correlaciones.

Para ver esto, consideremos 2 y expresemosla de la forma:

2 = (y )01(y ) = (y )01=21=21(y )=h1=2

1(y )

i0h1=2

1(y )

i= z0z

27

donde z =1=2

1(y ) = 1=21y 1=21 y as, aplicando(1.11), se tiene que:

cov(z) =1=2

1cov(y)

1=2

10=1=2

1 1n1=2

1=

1

nI

Por tanto, las variables transformadas z1; : : : ; zp estn incorreladas y cadauna tiene varianza 1=n. Si se utiliza la matriz de covarianzas apropiada enla distancia de Mahalanobis, las varianzas se reducen a 1. Por ejemplo, si

cov(y) = =n fuera utilizada en lugar de entonces obtendramos cov(z) =I.

1.3.10. Ejemplo

Calculemos la distancia de Mahalanobis entre las dos primeras observa-

ciones del chero europa para las 5 primeras variables. Se tiene que:

y1 y2 = (3:3; 0:9; 27:6; 0:9; 8:2)0 (9:2; 0:1; 21:8; 0:6; 8:3)0= (5:9; 0:8; 5:8; 0:3;0:1)0

entonces:

d2 = (y1 y2)0S1(y1 y2)

= (5:9; 0:8; 5:8; 0:3;0:1)

0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

1CCCCA10BBBB@

5:90:85:80:30:1

1CCCCA= 3:19

Sin embargo, la distancia eucldea al cuadrado proporciona:

D2 = (y1 y2)0(y1 y2) = (5:9; 0:8; 5:8; 0:3;0:1)

0BBBB@5:90:85:80:30:1

1CCCCA = 69:19Ntese que el valor de D2 se debe fundamentalmente a dos coordenadas:

5:9 y 5:8, que una vez elevadas al cuadrado son las que contribuyen esen-cialmente al resultado nal de la distancia. Sin embargo, en d2 estos valoresse ponderan de acuerdo al valor de su varianza de tal forma que su contribu-

cin se ve disminuida si sta es grande y esto es precisamente lo que ocurre

dado que s21 = 38:38 y s23 = 22:01.

28

1.4. Valores Perdidos

En ocasiones disponemos de un vector de observaciones en el que todos

los casos no estn completos, es decir, algunos valores estn ausentes para

una o ms variables. Por ejemplo, no es infrecuente que los entrevistados en

una encuesta se nieguen a declarar su nivel de ingresos, o que el entrevistador

no recoja una respuesta en la casilla adecuada o, simplemente, que la tasa

de paro no est disponible todava para el semestre que se analiza.

La distribucin de los valores faltantes en un conjunto de datos es una

cuestin importante. Los valores ausentes aleatoriamente distribuidos a lo

largo de la matriz de datos son menos problemticos que un patrn de valo-

res ausentes que dependen hasta cierto punto de los valores de las variables

faltantes. Para entender el efecto que puede tener un patrn de valores per-

didos consideremos el siguiente ejemplo: un investigador desea conocer cul

es la actitud de los jvenes hacia el tabaco. Para ello les pide que expresen

su acuerdo o desacuerdo con un conjunto de armaciones, entre ellas fumar

perjudica la salud y deben aumentarse los impuestos sobre el tabaco (la

escala de respuesta es 1=estoy en total desacuerdo, 5=estoy en total acuer-

do), adems de identicar su hbito como fumador o no. Supongamos que

los valores ausentes se producen en la variable relacionada con aumentar los

impuestos sobre el tabaco. Si estos valores perdidos son aleatorio entonces

la media muestral de esta variable no debiera diferir sustancialmente de la

media de la muestra completa. Sin embargo, si los valores ausentes siguen

un patrn, por ejemplo, los fumadores se niegan a contestar en mucha mayor

medida que los no fumadores, quizs porque pueden pensar que la opinin

vertida en la encuesta puede tener alguna inuencia en la administracin y

puede conllevar una nueva subida del precio, entonces tal media se eleva arti-

cialmente (mayor valor ms acuerdo) ya que ellos, que precisamente estarn

en ms desacuerdo con la medida son los que principalmente no responden.

Hay tres casos importantes en los que se pueden clasicar los valores

faltantes:

1. Ausentes completamente aleatorios (Missing Completely At Random o

MCAR): si la distribucin de las ausencias no depende ni de la parte

observada ni de la parte faltante, es decir, el mecanismo que genera

los datos faltantes no depende de las variables de inters ni de ninguna

otra variable que haya sido observada en el conjunto de datos.

2. Ausentes aleatorios (Missing At Random o MAR): si la distribucin

de las ausencias depende de la parte observada pero no de la parte

faltante. El trmino MAR es algo confuso ya que da a entender que las

29

ausencias ocurren por motivos aleatorios y, sin embargo, MAR real-

mente signica que existe una relacin sistemtica entre una o ms

variables observadas y la probabilidad de los valores perdidos.

3. Ausentes no aleatorios (Missing Not At Random o MNAR): si la dis-

tribucin de las ausencias depende tanto de la parte observada como

de la faltante.

Como ilustracin consideremos las variables edad e ingresos. Entonces los

datos son MCAR si la probabilidad de ausencias es la misma para todos los

individuos, independientemente de su edad o ingresos. Si la probabilidad de

que los ingresos estn ausentes varan de acuerdo a la edad del encuestado

(por ejemplo, ms ausentes cuanto mayor es la edad) pero no vara de acuerdo

a los ingresos de los encuestados con la misma edad (por ejemplo, para una

edad dada la distribucin de las ausencias es aleatoria), entonces las ausencias

en la variable ingresos son MAR. Sin embargo, si la probabilidad de que los

ingresos estn disponibles varan de acuerdo a los ingresos de aquellos con

la misma edad (por ejemplo, ms ausencias para altos ingresos que para

bajos ingresos en determinadas valores de edad), entonces las ausencias de

la variable ingresos son MNAR. Naturalmente, MNAR es difcil de detectar.

En la prctica suele ser difcil detectar el mecanismo que genera los valores

faltantes exactamente ya que esto precisara el conocimiento de los valores

perdidos.

1.4.1. Diagnstico de la aleatoriedad

Aunque la tentacin es asumir que los valores perdidos se han generado

de manera completamente aleatoria, las graves consecuencias para la investi-

gacin de que esto no sea as obligan a desarrollar estrategias para determinar

si los valores ausentes son MCAR. El primer procedimiento para establecer si

los valores perdidos guardan o no un patrn sistemtico se basa en la lgica

de la investigacin. Si el patrn es sistemtico, los casos con valores perdi-

dos debern tener un comportamiento distinto respecto de otras variables

que en los casos sin valores perdidos. Por ejemplo, como son los fumadores

quienes no han querido contestar principalmente a la pregunta de si deben

aumentarse los impuestos, es probable que los casos con valores perdidos

(principalmente fumadores) estn ms en desacuerdo con que, por ejemplo,

no se permita fumar en lugares pblicos que los casos sin valores perdidos.

Es evidente que el investigador no puede tener esta hiptesis a priori, y

deber comprobar qu variables se comportan de manera distinta en los dos

grupos para deducir la existencia o no de un patrn. De no existir variable

30

cuya media sea distinta en los casos con y sin valores perdidos habr que

asumir la aleatoriedad de los mismos. Para ello es necesario crear una variable

cticia por cada variable que presente valores ausentes tal que tomar el

valor 1 si el caso tiene un valor perdido en esta variable o 0 si no lo tiene.

A continuacin se contrasta si la media de otras variables (por ejemplo,

permitir o no fumar en lugares pblicos) es igual o distinta en el grupo de

casos con valores perdidos en relacin al grupo que no los tiene mediante un

estadstico t-Student para muestras independientes. Si se concluye que lasmedias no son signicativamente distintas en ambos grupos para la mayora

de variables, entonces podramos decir que los valores perdidos no siguen un

patrn dado. De la misma forma, la signicacin del contraste para diversas

variables indicara la existencia de un patrn sistemtico, es decir, que los

datos son MAR o MNAR.

El enfoque de los tests t-Student tiene diversos inconvenientes a tener encuenta: la generacin de todos los posibles contrastes puede ser engorroso a

menos que se disponga de una software adecuado que automatice el proceso

(el mdulo de datos perdidos de SPSS los genera), los test no tienen en

cuenta la posible correlacin entre las variables, los errores tipo I pueden

inarse notablemente y puede haber grupos con muy pocos datos faltante

(lo que hace decrecer la potencia de los tests y en ocasiones imposibilita la

realizacin del test).

Una alternativa multivariante a los test t es el test MCAR de Littleque simultneamente evala las diferencias de medias sobre cada variable.

A diferencia de los tests t, el test MCAR de Little produce un test globalde MCAR sobre el conjunto completo de datos. Este test est disponible

en el mdulo de datos perdidos de SPSS. Similarmente a los tests t, evalalas diferencias de medias sobre subgrupos de casos que comparten el mismo

patrn de valores perdidos. El estadstico del test tiene la forma:

2MCAR =

JXj=1

nj2j

donde nj es el nmero de casos en el patrn j de datos perdidos y 2j es

una distancia de Mahalanobis calculada sobre el patrn j. Este estadsticose distribuye aproximadamente segn una 2(

Pj pj p), con pj el nmerode variables completas para el patrn j y p el nmero total de variables.Este test tambin adolece de un nmero de problemas, entre otros: no

identica la variable especca que viola MCAR y tiene baja potencia, espe-

cialmente cuando el nmero de variables que violan MCAR es pequeo.

31

1.4.2. Tratamiento

El tratamiento ms sencillo es la eliminacin de las (listwise deletion) y

realizar el anlisis con las restantes. Un nmero pequeo de las con entradas

faltantes en la matriz de datos Y no constituye un problema serio ya quepodemos simplemente descartar cada una de estas las que tengan valores

perdidos. De hecho, si existe aproximadamente un nmero de casos perdidos

inferior al 5% del total de observaciones y pueden ser considerados MCAR,

entonces el mtodo de eliminacin por las es relativamente seguro. Sin em-

bargo, con este procedimiento, una pequea proporcin de datos ausentes

que estn ampliamente distribuidos conducira a una substancial prdida de

datos. Por ejemplo, en un conjunto grande de datos con n = 550 y p = 85, sinicamente un 1:5% de los 550 85 = 46750 medidas estuvieran ausentes,podran dar lugar a que casi la mitad de las las de Y estuvieran incom-pletas. Aunque la eliminacin por las a menudo produce un decremento

importante del tamao muestral disponible, tiene importantes ventajas. En

concreto, si los datos son MCAR conduce a estimadores insesgados.

Una segunda opcin es la eliminacin por pares (pairwise deletion). Este

mtodo busca pares de variables y usa una observacin nicamente si tiene

valores para ambas variables. Las frecuencias, medias y desviaciones estnda-

res son calculadas separadamente para cada par. Los elementos de la matriz

de correlaciones (o covarianzas) se calculan para todos los datos disponibles.

As, por ejemplo, si un encuestado informa de sus ingresos y antigedad en la

empresa pero no de su edad, ste es incluido en la correlacin entre ingresos

y antigedad pero no en las correlaciones que impliquen a edad. El problema

con este enfoque es que puede dar lugar a matrices de correlaciones que no

son denidas positivas. Adems, los anlisis pueden hacerse con diferentes

conjuntos de datos, con diferentes tamaos muestrales y con diferentes erro-

res estndares. Por tanto, no es un mtodo muy aconsejable. En cualquier

caso, la aplicacin de este mtodo est condicionada al supuesto de que los

valores perdidos son MCAR.

La alternativa a la eliminacin es la imputacin, es decir, sustituir el valor

ausente por alguna estimacin de su valor. Vamos a discutir dos mtodos de

imputacin. Ambos mtodos asumen que los valores faltantes ocurren alea-

toriamente, es decir, son MCAR. Si la ocurrencia o no de los valores faltantes

est relacionada con los valores de las variables, entonces las tcnicas pueden

no estimar adecuadamente a estos datos perdidos.

El primer mtodo es sencillo: utilizar la media de los datos disponibles en

la columna correspondiente como estimacin del dato ausente. Reemplazar

una observacin por su media reduce la varianza y el valor absoluto de la

32

covarianza. Por tanto, la matriz de covarianzas muestral S calculada a par-tir de la matriz de datos Y con medias imputadas por valores faltantes essesgada. Sin embargo, es denida positiva.

La segunda tcnica es un enfoque de regresin. La matriz de datos Yes dividida en dos partes, una que contiene a todas las las con entradas

faltantes y la otra con todas las las que estn completas. Supongamos que

yij es la nica entrada ausente en la la i-sima de Y. Entonces, utilizandolos datos en la submatriz con las completas, yj es regresada sobre las otrasvariables para obtener un modelo ajustado del tipo:

y^j = ^0 + ^1y1 + + ^j1yj1 + ^j+1yj+1 + + ^pypEntonces las entradas disponibles en la la i-sima son introducidas comovariables independientes en la ecuacin de regresin para obtener el valor

predicho y^ij .El mtodo de regresin normalmente proporciona mejores resultados que

el mtodo de las medias. Sin embargo, si las otras variables no estn alta-

mente correladas con la que se pretende predecir, la tcnica de regresin es

esencialmente equivalente a imputar medias. El mtodo de regresin subes-

tima las varianzas y las covarianzas, aunque en menor grado que el mtodo

basado en las medias.

Existen otros procedimientos ms modernos de imputacin como el al-

goritmo EM o la imputacin mltiple (que aparecen en el mdulo de impu-

tacin mltiple de SPSS). No obstante, su estudio est fuera del alcance de

este curso. Los mtodos de eliminacin por las o por pares y los mtodo de

imputacin por la media o por regresin funcionan bien (proporcionan esti-

madores insesgados y consistentes de las covarianzas y correlaciones) cuando

los datos son MCAR. Si los datos no son MCAR se debe utilizar otros pro-

cedimientos, como la estimacin EM.

1.4.3. Ejemplo

Un suministrador de telecomunicaciones desea conocer el uso que hacen

sus clientes de los servicios prestados. Para ello dispone de una base de datos

de clientes de la que extrae una muestra al azar de 1000 de ellos que se recoge

en el chero europa. Las variables estudiadas fueron las siguientes:

1. servicio: meses de servicio

2. edad: en aos

3. tiempo: aos viviendo en la direccin actual

33

4. ingresos: ingresos del hogar en miles

5. empleo: aos en la empresa actual

6. personas: nmero de personas en el hogar

7. marital: estado civil (soltero/casado)

8. educacion: (ESO,Bachillerato,Diplomado,Licenciado,Mster)

9. jubilado: (si/no)

10. sexo: (hombre/mujer)

Se sabe que la base de datos est incompleta y se desea conocer si los

valores perdidos lo son por motivos aleatorios o existe un patrn para ellos.

La tabla 1.1 nos muestra algunas estadsticas univariantes: el nmero

de valores presentes por variable y el de valores perdidos. La columna de

porcentaje de valores perdidos muestra el porcentaje de casos con valores

ausentes y suministra una buena medida de comparacin de valores perdidos

entre variables, siendo la variable ingresos la que presenta el mayor nmero

de observaciones faltantes (17.9%), mientras que edad es la que menos tiene

(2.5%). As mismo, ingresos es la que tiene un mayor nmero de valores

extremos (71 por encima del lmite superior).

N Media Desv. tp. Perdidos % N

o

de extremos

Bajos Altos

servicio 968 35.56 21.26 32 3.2 0 0

edad 975 41.75 12.57 25 2.5 0 0

tiempo 850 11.47 9.96 150 15.0 0 9

ingresos 821 71.14 83.14 179 17.9 0 71

empleo 904 11.00 10.11 96 9.6 0 15

personas 966 2.32 1.43 34 3.4 0 33

marital 885 115 11.5

educacion 965 35 3.5

jubilado 916 84 8.4

sexo 958 42 4.2

Nmero de casos fuera del rango (Q1 1:5 IQR;Q3 + 1:5 IQR)

Cuadro 1.1: Estadsticas descriptivas univariantes. Las variables indicadoras

con menos del 5% de los valores perdidos no se muestran.

34

La tabla 1.2 [pg. 40] contiene los contrastes t y permite identicar lasvariables cuyo patrn de valores faltantes puede estar inuenciado por varia-

bles cuantitativas. Se observa que los encuestados ms mayores son menos

propensos a informar de sus niveles de ingresos. Cuando un valor de ingresos

est perdidos, la edad media es 49.73, comparada con 40.01 cuando el dato

de ingresos est presente. De hecho, la ausencia de ingresos parece afectar

a las medias de diversas variables cuantitativas (todos los contrastes t sonsignicativos). Esto es indicativo de que los datos no son MCAR.

La tabla 1.3 [pg. 41] muestra la tabulacin cruzada de las variables

categricas frente a las indicadoras dando una informacin similar a la pro-

porcionada por los contraste t. En este caso, las variables indicadoras sonutilizas para calcular frecuencias en cada categora de la variable indicadora.

Los valores pueden ayudar a determinar si existen diferencias en valores per-

didos entre categoras. Como ilustracin, a continuacin incluimos slo la de

jubilado. Se observa que los jubilados son poco propensos a informar de sus

ingresos en comparacin con los no jubilados: slo un 46.3% de los jubilados

han aportado el dato de sus ingresos, mientras que el porcentaje de ellos que

no estn jubilados y han proporcionado sus ingresos fue de 83.7%.

Por ltimo, realizamos el test MCAR de Little: 2MCAR = 179:83 (p 0). Todo lo anteriormente expuesto conrma que los datos no pueden serconsiderados MCAR y, por tanto, los procedimientos explicados para tratar

los valores perdidos no pueden ser aplicados.

1.5. Observaciones atpicas

Los outliers o casos atpicos son aquellas observaciones para las que una

o varias variables toman valores extremos que las hace diferir del compor-

tamiento del resto de la muestra y hacen sospechar que han sido generadas

por mecanismos distintos. La deteccin de los valores atpicos es importante

por las consecuencias que pueden tener sobre el anlisis:

i) distorsionan los resultados al oscurecer el patrn de comportamiento

de los dems casos y obtenerse resultados que, sin ellos, seran comple-

tamente distintos, y

ii) pueden afectar a gravemente a la propiedad de normalidad, una de las

condiciones de aplicabilidad de muchas de las tcnicas de las tcnicas

multivariantes (especialmente las inferenciales).

De forma genrica, las causas que generan la existencia de valores atpicos

en un chero de datos se dividen en dos grupos: los ocasionados por errores

35

de los datos y los ocasionados por la inevitable y necesaria variabilidad de

esos datos. Ms especcamente, las causas pueden ser:

i) errores en la recogida de los datos o en su introduccin en las bases de

datos,

ii) errores intencionados en la respuesta al cuestionario por parte del en-

trevistado,

iii) errores en el muestreo, que se concretan en introducir en la muestra a

individuos pertenecientes a una poblacin distinta a la objetivo,

iv) casos pertenecientes a la poblacin objetivo que se desea muestrear

pero que por la variabilidad inherente a las muestras dieren del resto

de observaciones.

Posteriormente estudiaremos procedimientos univariantes y multivarian-

tes para detectar esos valores atpicos. Una vez identicados la cuestin que

se plantea es qu hacer con ellos. La respuesta depende del tipo de outlier.

Si se est seguro de que corresponde a un error en la introduccin de los

datos, se puede intentar corregir o imputar. Otra alternativa es su elimina-

cin. En el caso de una observacin atpica legtima, que no es producto de

un error, entonces la decisin es ms difcil ya que existe controversia en la

literatura. Existen distintas recomendaciones, aunque todas ellas tienen sus

detractores. Hay autores que deenden su eliminacin para que las conclu-

siones sean correctas para la mayora de la poblacin y otros que deenden

que la eliminacin es el ltimo recurso y que se puede intentar suavizar su

inuencia transformando las variables, lo que puede no tener sentido ya que

las variables originales pueden tener una unidad de medida lgica que se

pierde con la transformacin. Una alternativa es la utilizacin de procedi-

mientos robustos especialmente diseados para amortiguar la inuencia de

estas observaciones.

1.5.1. Deteccin de casos atpicos

La deteccin de casos atpicos puede realizarse desde una perspectiva uni-

variante (analizando si para una variable dada algunos casos toman valores

anormales) o multivariante (el vector de datos diere notablemente del cen-

troide o vector media muestral). Ha de tenerse en cuenta que un caso puede

no tomar valores atpicos en dos variables consideradas individualmente, pe-

ro s hacerlo si se consideran conjuntamente. Por ejemplo, un ejecutivo con

poca experiencia puede ser una unidad muestral lgica en una investigacin y

36

un sujeto con un alto salario tambin, pero un ejecutivo con baja experiencia

y alto salario ser, con casi toda seguridad, un caso atpico.

El procedimiento univariante ms extendido es considerar atpicos aque-

llos casos cuyo valor estandarizado supere un valor determinado. En general,

se suele considerar atpico aquel valor que diste de la media ms de tres

desviaciones tpicas: jyij yj j 3sj o, equivalentemente, jzij j 3. Si ladistribucin fuera normal esto implicara que menos del 0.25% de los casos

puede estar fuera de ese intervalo. Algunos autores recomiendan utilizar 2.5

en lugar de 3 para muestras de tamao moderado (menos de 80 casos).

Un procedimiento recomendado para la deteccin univariante de outliers

es el test de Grubbs. Este contraste est basado en la hiptesis de normalidad

y contrasta la hiptesis nula de no existencia de valores atpicos entre los

datos. El estadstico de Grubbs es:

G =jyij yj j

sj

y rechazaremos la hiptesis nula si:

G >n 1p

n

vuut t2n2;=2nn 2 + t2n2;=2nUna alternativa muy til a los procedimientos numricos de deteccin

univariantes es un grco de caja (boxplot). Este grco representa una caja

en la que la base inferior es el primer cuartil Q1, la superior el tercero Q3y entre medias se muestra la mediana Q2. Desde la base inferior y desde lasuperior se trazan sendas lneas, denominadas bigotes, con longitudes Q1 1:5 IQR y Q3 + 1:5 IQR, respectivamente, y donde IQR = Q3 Q1 esel rango intercuartlico. Las longitudes de los bigotes son acortados bajo dos

supuestos: si el valor mnimo en los datos es superior aQ11:5IQR entoncesel bigote inferior toma como extremo este valor mnimo, o si el valor mximo

en los datos es inferior a Q3 + 1:5 IQR en cuyo caso el bigote superior esacortado hasta este mximo. Sin embargo, si existen valores en los datos que

superen el extremo del bigote superior o sean inferiores al extremo del bigote

inferior estaremos ante valores que son atpicos u outliers. En concreto, un

outlier extremo es aquel caso que est ms all de Q13IQR o Q3+3IQRy son marcados con una equis; mientras que los outliers son casos que estn

ms all de Q1 1:5 IQR o Q3 + 1:5 IQR pero no son extremos y sonmarcados con un crculo.

En muchos procedimientos no es tan problemtico que un caso sea atpi-

co respecto a una variable sino respecto al conjunto de las que se incorporan

37

al anlisis. Ello hace necesario buscar un mtodo que contemple simultnea-

mente todas las variables para determinar si algn caso tienen un compor-

tamiento anmalo. Un procedimiento bastante intuitivo consiste en calcular

la distancia de cada caso al centroide del conjunto de los datos. Cuanto ms

lejos est un caso de la media de las observaciones, ms probable es que

sea un outlier. La distancia habitualmente empleada para detectar los casos

atpicos es la de Mahalanobis:

D2i = (yi jyi)0S1(yi jyi); j = 1; : : : ; n

o en forma vectorial:

D2 = diagfYcS1Y0cg = (D21; : : : ; D2n)

Bajo hiptesis de normalidad multivariante se verica que Di 2(p)(sin elevar al cuadrado). Para declarar a una observacin como atpica des-

de un punto multivariante conviene ser bastante conservador y slo hacerlo

cuando la probabilidad Di 2p;0:01, con 2p;0:01 el cuantil que deja una pro-babilidad en la cola superior de 0.01.

1.5.2. Ejemplo

Consideremos de nuevo el chero europa con las 26 observaciones y es-

tudiemos los casos atpicos de las 3 primeras variables: Agr, Min y Man. En

la gura 1.2 aparece a la izquierda una representacin grca de los datos

tipicados para las tres variables. Se observa que nicamente la variable Agr

posee una observacin, la 18, que tipicada supera el valor de 3. Sin em-

bargo, si reducimos los lmites a 2.5 dado el tamao de la matriz de datos,

entonces tambin se declarara a la observacin 18 de Man como atpica. A

la derecha aparecen los tres grcos de caja. La variable Min no posee casos

ms extremos que los bigotes. La variable Agr posee dos (la ms extrema es

la 18 y la menos la 26) y la variable Man una tambin en la observacin 18.

Realizamos con el paquete outliers de R el test de Grubbs para Agr:

G = 3:0662 (p = 0:00825), declarando a la observacin y18;1 = 66:8 comoatpica. Para Man: G = 2:7266 (p = 0:0413) declarando a y18;3 = 7:9 comoatpico. Por ltimo, Min no posee valores atpicos. Observando, el chero de

datos se detecta que el caso 18 corresponde a Turqua que posee un porcentaje

de empleados en la agricultura muy alto y un porcentaje de empleados en

industria muy bajo en relacin al resto de pases europeos.

Desde una perspectiva multivariante, calculamos las distancias de Maha-

lanobis Di, i = 1; : : : ; 26, y las representamos en la gura 1.3 junto con el

38

0 5 10 15 20 25

3

2

1

01

23

AgrManMin

Agr Min Man

010

2030

4050

60

Figura 1.2: Izqda: Grco de valores tipicados. Dcha: Grcos de caja.

cuantil de una 23;0:01. Se puede observar que ninguna supera la lnea pun-teada que representa el valor de este cuantil.

0 5 10 15 20 25

02

46

810

12

casos

D_i

Figura 1.3: Distancias de Mahalanobis y lnea discontinua con altura igual

al cuantil 23;0:01.

39

serv. edad tiem. ingr. emp. pers.

tiempo t .4 .3 . 3.5 1.4 1.0

gl 202.2 192.5 . 313.6 191.1 199.5

no pres. 819 832 850 693 766 824

no perdido 149 143 0 128 138 142

Media(pres.) 35.68 41.79 11.47 74.07 11.20 2.34

Media(perd.) 34.91 41.49 . 55.27 9.86 2.21

ingresos t 5.0 8.3 3.9 . 5.9 3.6

gl 249.5 222.8 191.1 . 203.3 315.2

no pres. 793 801 693 821 741 792

no perdido 175 174 157 0 163 174

Media(pres.) 33.93 40.01 10.67 71.14 9.91 2.39

Media(perd.) 42.97 49.73 14.97 . 15.93 2.02

empleo t 1.0 .4 .7 .5 . .3

gl 110.5 110.2 97.6 114.9 . 110.9

no pres. 877 881 766 741 904 874

no perdido 91 94 84 80 0 92

Media(pres.) 35.34 41.69 11.37 71.49 11.00 2.31

Media(perd.) 37.70 42.27 12.32 67.91 . 2.37

marital t .0 1.8 1.2 .8 .9 2.2

gl 148.1 149.5 138.8 121.2 128.3 134.2

no pres. 856 862 748 728 805 857

no perdido 112 113 102 93 99 109

Media(pres.) 35.56 42.00 11.61 70.38 11.10 2.28

Media(perd.) 35.57 39.85 10.43 77.07 10.17 2.61

jubilado t .6 .4 .4 .3 . .2

gl 95.4 94.4 84.0 93.2 . 99.0

no pres. 888 893 777 751 904 885

no perdido 80 82 73 70 0 81

Media(pres.) 35.44 41.70 11.42 71.33 11.00 2.32

Media(perd.) 36.89 42.29 11.96 69.11 . 2.30

Cuadro 1.2: Contrastes t. Las variables indicadoras con menos del 5% de losvalores perdidos no se muestran.

40

Jubilado

Total No S Perdidos

tiempo Presente Recuento 850 744 33 73

Porcentaje 85.0 85.0 80.5 86.9

Perdidos % perd. sistema 15.0 15.0 19.5 13.1

ingresos Presente Recuento 821 732 19 70

Porcentaje 82.1 83.7 46.3 83.3


empleo Presente Recuento 904 864 40 0

Porcentaje 90.4 98.7 97.6 .0


marital Presente Recuento 885 777 38 70

Porcentaje 88.5 88.8 92.7 83.3


Cuadro 1.3:

agrupacion y reduccion

Documents