agrupacion y reduccion

Upload: alvaro-ruiz

Post on 07-Jan-2016

90 views

Category:

Documents


0 download

DESCRIPTION

ee

TRANSCRIPT

  • TCNICAS DE AGRUPACIN Y

    REDUCCIN DE LA

    DIMENSIN

    Juan Carlos Ruiz Molina

    Departamento de Estadstica e I.O.

    Universidad de Jan

  • ndice general

    1. Representacin de Datos Multivariantes 1

    1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2. Clasicacin de las Tcnicas Multivariantes . . . . . . . . . . 4

    1.2.1. Tcnicas de dependencia . . . . . . . . . . . . . . . . . 4

    1.2.2. Tcnicas de interdependencia . . . . . . . . . . . . . . 6

    1.2.3. Otros criterios de clasicacin . . . . . . . . . . . . . . 7

    1.3. Estadsticos Multivariantes . . . . . . . . . . . . . . . . . . . 8

    1.3.1. Estadsticos para el vector completo de variables . . . 8

    1.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.3.3. Estadsticos para subconjuntos de variables . . . . . . 14

    1.3.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    1.3.5. Combinaciones lineales de variables . . . . . . . . . . . 17

    1.3.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    1.3.7. Medidas de la variabilidad total y de multicolinealidad 23

    1.3.8. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    1.3.9. Distancia entre vectores . . . . . . . . . . . . . . . . . 26

    1.3.10. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    1.4. Valores Perdidos . . . . . . . . . . . . . . . . . . . . . . . . . 29

    1.4.1. Diagnstico de la aleatoriedad . . . . . . . . . . . . . . 30

    1.4.2. Tratamiento . . . . . . . . . . . . . . . . . . . . . . . . 32

    1.4.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    1.5. Observaciones atpicas . . . . . . . . . . . . . . . . . . . . . . 35

    1.5.1. Deteccin de casos atpicos . . . . . . . . . . . . . . . 36

    1.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    2. Anlisis de Componentes Principales 42

    2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    2.2. Componentes principales a partir de la matriz de covarianzas 44

    2.2.1. Interpretacin geomtrica . . . . . . . . . . . . . . . . 48

    1

  • 2.2.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    2.2.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    2.3. Componentes principales a partir de la matriz de correlaciones 52

    2.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    2.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    2.4. Representacin grca de las componentes principales . . . . 55

    2.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    2.5. Nmero de componentes principales a retener . . . . . . . . . 61

    2.5.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    2.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    2.6. Informacin en las ltimas componentes principales . . . . . . 65

    2.7. Interpretacin de las componentes principales . . . . . . . . . 65

    2.7.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    2.7.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    2.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    2.7.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    3. Anlisis Factorial 74

    3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    3.2. Modelo factorial ortogonal . . . . . . . . . . . . . . . . . . . . 77

    3.2.1. Formulacin e hiptesis . . . . . . . . . . . . . . . . . 77

    3.2.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    3.2.3. No unicidad de las cargas factoriales . . . . . . . . . . 82

    3.2.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    3.3. Estimacin de las cargas y las comunalidades . . . . . . . . . 84

    3.3.1. Mtodo de las componentes principales . . . . . . . . . 84

    3.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    3.3.3. Mtodo de los ejes principales . . . . . . . . . . . . . . 89

    3.3.4. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    3.3.5. Mtodo de mxima verosimilitud . . . . . . . . . . . . 93

    3.3.6. Otros mtodos de extraccin de factores . . . . . . . . 93

    3.3.7. Comparacin de mtodos . . . . . . . . . . . . . . . . 94

    3.3.8. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    3.4. Determinacin del nmero de factores . . . . . . . . . . . . . 96

    3.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    3.4.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    3.5. Rotacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    3.5.1. Rotacin ortogonal . . . . . . . . . . . . . . . . . . . . 100

    3.5.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 101

    3.5.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 103

    2

  • 3.5.4. Rotacin oblicua . . . . . . . . . . . . . . . . . . . . . 104

    3.5.5. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    3.5.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    3.5.7. Interpretacin . . . . . . . . . . . . . . . . . . . . . . . 108

    3.6. Puntuaciones factoriales . . . . . . . . . . . . . . . . . . . . . 109

    3.6.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 111

    3.7. Validez de modelo de anlisis factorial . . . . . . . . . . . . . 111

    3.7.1. Tipos de variables . . . . . . . . . . . . . . . . . . . . 113

    3.7.2. Tamao muestral . . . . . . . . . . . . . . . . . . . . . 114

    3.7.3. Contrastes en el modelo factorial . . . . . . . . . . . . 116

    3.7.4. Consistencia interna . . . . . . . . . . . . . . . . . . . 117

    3.7.5. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 118

    3.7.6. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 119

    3.8. Relacin entre el AF y el ACP . . . . . . . . . . . . . . . . . 121

    3.9. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

    3.10. La cuestin del nmero de factores a retener: una visin moderna129

    3.11. AF con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

    4. Anlisis de Correspondencias 135

    4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

    4.2. Perles la y columna . . . . . . . . . . . . . . . . . . . . . . 136

    4.2.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    4.3. Contraste de independencia . . . . . . . . . . . . . . . . . . . 141

    4.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    4.3.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    4.4. Coordenadas para representar grcamente a los perles las

    y a los perles columnas . . . . . . . . . . . . . . . . . . . . . 144

    4.4.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 147

    4.5. Normalizacin e interpretacin del ACO . . . . . . . . . . . . 148

    4.5.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 149

    4.6. Masa, inercia, contribucin y calidad . . . . . . . . . . . . . . 149

    4.6.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 153

    4.6.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 155

    4.7. Puntos suplementarios . . . . . . . . . . . . . . . . . . . . . . 158

    4.7.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 159

    4.7.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 163

    4.8. Anlisis de Correspondencias Mltiple . . . . . . . . . . . . . 165

    4.8.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 168

    4.8.2. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 169

    3

  • 5. Anlisis Cluster 174

    5.1. Medidas de similitud o disimilitud . . . . . . . . . . . . . . . 176

    5.2. Agrupamiento jerrquico . . . . . . . . . . . . . . . . . . . . . 177

    5.2.1. Encadenamiento simple o vecino ms prximo . . . . . 178

    5.2.2. Encadenamiento completo o vecino ms alejado . . . . 182

    5.2.3. Encadenamiento medio . . . . . . . . . . . . . . . . . . 184

    5.2.4. Centroide . . . . . . . . . . . . . . . . . . . . . . . . . 186

    5.2.5. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . 186

    5.2.6. Mtodo de Ward . . . . . . . . . . . . . . . . . . . . . 188

    5.2.7. Propiedades de los mtodos jerrquicos . . . . . . . . . 190

    5.3. Mtodos no jerrquicos: mtodo de las k-medias . . . . . . . . 1955.3.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . 196

    5.4. Eleccin del nmero de clusters . . . . . . . . . . . . . . . . . 199

    5.5. Validacin de clusters . . . . . . . . . . . . . . . . . . . . . . 200

    5.6. Agrupamiento de variables . . . . . . . . . . . . . . . . . . . . 201

    5.7. Hiptesis del AC . . . . . . . . . . . . . . . . . . . . . . . . . 203

    5.8. ACP y AC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

    4

  • Captulo 1

    Representacin de Datos

    Multivariantes

    1.1. Introduccin

    El anlisis multivariante consiste en una coleccin de mtodos que pueden

    ser utilizados cuando se dispone de diversas medidas sobre cada individuo

    u objeto en una o ms muestras. No referiremos a las medidas como va-

    riables y a los individuos u objetos como unidades

    1

    , observaciones o casos.

    En la prctica, los conjuntos de datos multivariantes son comunes, aunque

    no siempre se analizan atendiendo a tal caracterstica. El uso exclusivo de

    procedimientos univariantes con datos multivariantes ignora la informacin

    conjunta que presentan y debe recurrirse a las tcnicas multivariantes para

    descubrir la informacin que contienen. En concreto, estas tcnicas permiten

    evaluar relaciones simultneas entre varias variables, lo que constituye un

    objetivo primordial en la mayor parte de las investigaciones cientcas. Ade-

    ms, la potencia de clculo que proporcionan los ordenadores actuales y el

    software disponible hacen inexcusable el uso de los mtodos multivariantes.

    Histricamente, la mayor parte de las aplicaciones de las tcnicas multi-

    variantes han sido en las ciencias biolgicas y del comportamiento. Sin em-

    bargo, su inters se ha ampliado a otros numerosos campos de investigacin.

    De hecho, son frecuentemente aplicadas en estudios de economa, empresa,

    marketing, investigacin de mercados, nanzas, ingeniera, psicologa, etc.

    Algunos ejemplos de problemas que presentan observaciones multivariantes

    son los siguientes:

    1

    Unidades muestrales o experimentales.

    1

  • i) Economa: estudio de la relacin existente entre el tipo de inters de

    las letras del Tesoro, la tasa de inacin anual calculada sobre el IPC

    y el dcit como un porcentaje del PIB.

    ii) Empresa: investigacin sobre ingresos, nivel educativo y experiencia de

    los ejecutivos junto con el tamao de la empresa.

    iii) Marketing: anlisis conjunto de los gastos en publicidad, laborales, en

    materias primas y las ventas del producto.

    iv) Investigacin de mercados: determinacin del perl de los consumidores

    en funcin de sus edad, sexo, estrato social, ingresos, etc.

    v) Finanzas: decisin sobre la concesin de crditos a partir de los ingre-

    sos, ahorros, patrimonio, nivel de deudas contradas, estabilidad en el

    empleo, etc.

    De estos ejemplos se desprende que la escala de medida de las variables

    intervinientes puede ser distinta. Por ejemplo, a un individuo se le puede des-

    cribir en relacin a caractersticas tales como la edad, el nivel educativo, los

    ingresos, el sexo, el coeciente de inteligencia, la puntuacin en una prueba

    de actitud o la preferencia por una marca u otra. Este simple ejemplo pone

    de maniesto que las variables pueden ser de dos tipos: 1) cuantitativas o

    mtricas y 2) cualitativas o no mtricas. Dentro de esta clasicacin pode-

    mos a su vez subdividir de la siguiente forma. Las cuantitativas pueden ser

    de: a) intervalo o b) razn; y las cualitativas pueden ser: c) nominales u d)

    ordinales.

    La escala nominal es la ms bsica, presenta valores que son categoras

    exhaustivas y mutuamente excluyentes y no puede establecerse un orden en

    ella (por ejemplo, el sexo o la preferencia por una marca). La siguiente es

    la ordinal que, presentando las caractersticas anteriores, puede establecerse

    un orden entre ellas (por ejemplo, el nivel educativo). La escala de intervalo

    aade a las caractersticas anteriores el hecho de que las diferencias tienen

    sentido aunque no tienen un cero absoluto, es decir, el punto cero de la escala

    es arbitrario (por ejemplo, el coeciente de inteligencia o la puntuacin en

    una prueba de actitud). As se puede armar que la distancia entre 100 y

    120 en el coeciente de inteligencia es la misma que la existente entre 80

    y 100. Lo que no podemos establecer es que un coeciente de 70 equivale

    a la mitad de uno de 140. Por ltimo, la escala de razn posee las mismas

    caractersticas que la escala de intervalo, con la diferencia que cuentan con un

    cero absoluto; es decir, el valor cero representa la ausencia total de medida,

    por lo que se puede realizar cualquier operacin aritmtica (suma, resta,

    2

  • multiplicacin y divisin) y lgica (comparacin y ordenamiento). Este tipo

    de escala permite el nivel ms alto de medicin. La edad, altura o el salario,

    son algunos ejemplos de este tipo de escala de medida

    2

    .

    Las escalas de medida deben ser adecuadas para medir las caractersticas

    objeto de estudio. El tipo de escala utilizado es fundamental en la eleccin

    y aplicacin correcta del anlisis multivariante. En determinadas tcnicas es

    necesario que las variables tengan similar escala de medida (por ejemplo, el

    anlisis de perles). Sin embargo, la mayor parte de las tcnicas no precisan

    esta condicin.

    En general, las variables son medidas simultneamente sobre cada uni-

    dad muestral. Estas variables estn tpicamente correladas. Si no fuera as,

    muchas de las tcnicas del anlisis multivariantes sera intiles. El reto es

    desenmaraar la informacin comn que presentan las variables correladas

    y descubrir su estructura subyacente. Por tanto, el objetivo de muchas tc-

    nicas multivariantes es la simplicacin. A este propsito lo denominaremos

    reducir la dimensin. Tales tcnicas son exploratorias en el sentido de que

    esencialmente son utilizadas para generar hiptesis en lugar de contrastarlas.

    Por otro lado, si nuestro objetivo es un test de hiptesis formal necesitare-

    mos tcnicas que permitan contrastar informacin relativa a varias variables

    preservando el nivel de signicacin y para cualquier estructura de interco-

    rrelacin de las mismas. Estas tcnicas son denominadas inferenciales.

    Como hemos indicado, el anlisis multivariante se ocupa generalmente de

    dos reas: exploratoria e inferencial. En el campo descriptivo, se obtiene a

    menudo combinaciones lineales ptimas de variables. El criterio de optimali-

    dad depende de la tcnica. Aunque las combinaciones lineales pueden parecer

    demasiado simples para revelar la estructura subyacente, las utilizaremos por

    dos motivos obvios: por ser tratables matemticamente y por funcionar bien

    con frecuencia en la prctica. Esas combinaciones lineales pueden tambin

    ser tiles como un complemento a los procedimientos inferenciales. En el rea

    inferencial, los tests multivariantes proporcionan un control total para la tasa

    de error experimental, es decir, independientemente del nmero de variables

    involucradas en el contraste, el valor del nivel de signicacin permanece en

    el nivel jado por el investigador.

    2

    Debido a la similitud existente entre las escalas de intervalo y de razn, SPSS las ha

    reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala.

    Las variables de escala son para SPSS todas aquellas variables cuyos valores representan

    magnitudes, ya sea que cuenten con un cero absoluto o no.

    3

  • 1.2. Clasicacin de las Tcnicas Multivariantes

    La importancia de una adecuada clasicacin de las tcnicas multiva-

    riantes no reside tanto en la necesidad tipolgica, sino en que es necesario

    disponer de ella para una correcta eleccin de la tcnica para resolver el

    problema planteado. Las siguientes preguntas ayudan en este propsito:

    1. El estudio responde a un problema de dependencia entre variables o

    de interdependencia de entre las mismas?.

    2. Cmo estn medidas las variables implicadas, en escala mtrica o no

    mtrica?.

    3. Si estamos en un problema de dependencia, cuntas relaciones se plan-

    tean entre las variables dependientes e independientes?, cuntas va-

    riables dependientes existen?.

    1.2.1. Tcnicas de dependencia

    Las tcnicas de anlisis de dependencia investigan las relaciones existen-

    tes entre dos grupos de variables. Si por conocimiento previo se es capaz

    de caracterizar a un grupo de variables como dependiente y al otro como

    independiente

    3

    , entonces el objetivo ser establecer si el conjunto de varia-

    bles independientes afecta al conjunto de dependientes de forma individual o

    simultnea. Por ejemplo, si en un grupo de individuos se miden sus ingresos,

    nivel de estudios, edad y sexo, podemos plantearnos si los ingresos (varia-

    ble dependiente) pueden explicarse a travs del resto de variables (variables

    independientes). Estaramos ante un problema de dependencia y sera nece-

    sario ver cmo estn medidas las variables para elegir entre una tcnica u

    otra.

    Sin embargo, podemos encontrarnos ante un problema en el que sea im-

    posible distinguir conceptualmente entre variables dependientes e indepen-

    dientes. Nos interesa simplemente saber cmo se relacionan las variables

    del problema. Los mtodos estadsticos que abordan estas cuestiones seran

    los denominados de interdependencia. Siguiendo con el ejemplo anterior, el

    investigador puede querer saber si considerando todas las variables que ca-

    racterizan a los individuos puede encontrarse grupos de individuos que se

    3

    La caracterizacin de un conjunto de variables como independientes responde al hecho

    de que la informacin que stas contiene es utilizada para explicar el comportamiento del

    otro conjunto de variables, denominadas entonces variables dependientes. Se establece

    por tanto una direccin en la explicacin del comportamiento de las variables, siendo las

    variables independientes las que explican el comportamiento de las dependientes.

    4

  • parezcan mucho entre s respecto a estas variables y que dieran de otros

    grupos. Aqu no nos encontramos ante dos conjuntos de variables, sino que se

    consideran todas juntas. La tcnica que se elija para resolver este problema

    deber pertenecer al grupo de mtodos de interdependencia.

    Las principales tcnicas de dependencia son las siguientes:

    i) Regresin lineal mltiple: pretende analizar la relacin existente en-

    tre una variable dependiente mtrica y un conjunto de variables in-

    dependientes mtricas o no mtricas. Por ejemplo, queremos analizar

    la relacin existente entre el nivel de ingresos medido en euros y el

    nivel educativo, sexo y edad. En este caso, las variables independien-

    tes (educacin, edad y sexo) pretenden explicar el comportamiento de

    una nica variable dependiente mtrica (ingresos). Si existe ms de

    una variable dependiente y todas son mtricas, entonces la tcnica se

    denomina regresin lineal mltiple multivariante.

    ii) Anlisis discriminante y regresin logstica: tienen un propsito similar

    a la regresin lineal mltiple pero ahora la variable dependiente es no

    mtrica. Por ejemplo, si el nivel de ingresos est codicado en tres

    niveles (subsistencia, medio y alto).

    iii) Anlisis multivariante de la varianza (MANOVA): trata de explicar

    un conjunto de diversas variables mtricas a partir de un conjunto de

    variables independientes no mtricas. Por ejemplo, si se desea explicar

    el nivel de ingresos en euros y aos de permanencia en la empresa

    (variables dependientes) en funcin del sexo, nivel educativo (ESO,

    bachiller o universitario) y nivel de ingls hablado (bsico, intermedio

    y alto).

    iv) Anlisis de correlaciones cannicas: a diferencia del anlisis de regre-

    sin lineal mltiple multivariante, en donde un grupo de variables inde-

    pendientes (mtricas o no) explican a otro grupo de variables mtricas

    y no al revs, ahora el tratamiento de ambos conjuntos de variables es

    del mismo modo o de forma simtrica. Por ejemplo, supongamos que

    el primer grupo de variables es de rendimiento escolar y el segundo de

    uso del tiempo de ocio entre estudiantes. En este caso, no existe clara-

    mente un conjunto de variables que sea la causa del otro, es decir, no

    es posible caracterizar a un grupo como de variables dependientes y a

    otro como de independientes. En general, este tipo de anlisis se utiliza

    cuando un conjunto de variables puede dividirse en dos grupos homog-

    neos (por criterios econmicos, demogrcos, sociales, etc.) y se desea

    5

  • estudiar la relacin entre ambos conjuntos de variables. En particular,

    los dos grupos pueden corresponder a las mismas variables medidas en

    dos momentos distintos en el tiempo, espacio, etc. Esta tcnica es muy

    general y permite en ambos grupos tanto variables mtricas como no

    mtricas.

    v) Ecuaciones estructurales: en todos los casos anteriores el investigador

    busca evaluar la intensidad de una nica relacin entre dos conjuntos de

    variables. La extensin a ms de una ecuacin es el objeto del conjunto

    de tcnicas denominadas sistemas de ecuaciones estructurales, entre las

    que se encuentran el anlisis factorial conrmatorio y los modelos de

    estructura de covarianza.

    1.2.2. Tcnicas de interdependencia

    Como se ha comentado anteriormente, existen situaciones de investiga-

    cin en las que es imposible separar las variables en dos grupos distintos y

    lo que interesa es determinar cmo y por qu estn relacionadas entre ellas.

    Las principales tcnicas de interdependencia son:

    i) Anlisis de componentes principales: es una tcnica de reduccin de va-

    riables cuyo objetivo fundamental es construir combinaciones lineales

    de las variables originales que expliquen la mayor parte de la informa-

    cin recogida en stas. Cada combinacin lineal se extrae de tal forma

    que est incorrelada con las anteriores y, adems, contiene cada vez

    menos informacin sobre las variables originales que las anteriores. Por

    ejemplo, un analista contable puede extraer del balance muchos indica-

    dores nancieros para medir la salud de su empresa. Puede emplearlos

    todos o, por el contrario, obtener un nmero reducido de combinacio-

    nes lineales de ellos que aporten una informacin aproximada a la que

    se obtendran con todos ellos. Es ms sencillo comparar empresas a

    partir de dos indicadores que con muchos de ellos.

    ii) Anlisis factorial: es tambin una tcnica de reduccin de variables

    pero, a diferencia de la anterior, el inters se centra en establecer qu

    factores latentes (no observables) pueden estar causando la correlacin

    entre las variables observadas. Puede considerarse como una tcnica

    que pretende identicar grupos de variables de tal forma que la co-

    rrelacin de las variables dentro de cada grupo sean superiores a las

    correlaciones de las variables entre grupos diferentes.

    6

  • iii) Anlisis de correspondencias: permite visualizar grcamente tablas de

    contingencia. Por ejemplo, si deseamos investigar si existe relacin en-

    tre dos variables no mtricas, cada una de las cuales tiene 20 categoras.

    Un ejemplo concreto sera analizar la relacin entre el tipo de ocupacin

    y la universidad donde el sujeto se gradu. La tabla 2020 resultanteno resulta fcil de estudiar, sin embargo, el anlisis de corresponden-

    cias permitir mostrar un mapa, probablemente bidimensional, en el

    que una universidad estar tanto ms cerca de un tipo de ocupacin

    cuanto mayor sea la frecuencia de esa celda en la tabla de contingencia.

    iv) Anlisis cluster: a diferencia del anlisis factorial o de componente

    principales cuyo objetivo es agrupar variables, esta tcnica pretende

    agrupar observaciones. La agrupacin se realiza de tal forma que las

    observaciones de cada grupo o conglomerado sean lo ms parecidas po-

    sible respecto a las caractersticas que miden las variables consideradas

    y lo ms diferentes posibles en relacin a esas caractersticas de otras

    observaciones que estn en otros grupos distintos.

    v) Escalamiento multidimensional: permite al investigador descubrir qu

    criterios subyacentes utilizan los individuos para considerar que distin-

    tos objetos son parecidos o distintos entre s. Una de las principales

    utilidades de este anlisis es la construccin de mapas, normalmente

    bidimensionales, donde los objetos estn tanto ms cercanos cuanto

    ms parecidos son para el conjunto de individuos entrevistados.

    1.2.3. Otros criterios de clasicacin

    Evidentemente el criterio utilizado atendiendo al nmero de grupos y

    a la naturaleza de las variables para clasicar a las tcnicas multivariantes

    es uno de los posibles. Otros criterios son tambin admisibles. Por ejemplo,

    en funcin del objetivo de la tcnica. As, si los que se pretende es reducir

    la dimensin del problema original, tal y como hacen el anlisis de compo-

    nentes principales, el anlisis factorial, el anlisis de correspondencias o el

    escalamiento multidimensional, estaremos ante una tcnica de reduccin de

    la dimensin. Si lo que se pretende es agrupar observaciones, tal y como hace

    el anlisis cluster u otros mtodos de agrupacin, estaremos ante una tcnica

    de agrupacin. Por otro lado, si lo que pretendemos es estudiar la asocia-

    cin entre variables, tal y como hacen los mtodos de regresin, el anlisis

    multivariante de la varianza o el anlisis de correlaciones cannicas, habla-

    remos de una tcnica de asociacin. Por ltimo, si el objetivo es describir

    cmo se clasican las observaciones en grupos predeterminados, como hacen

    7

  • el anlisis discriminante y la regresin logstica, estaremos ante tcnicas de

    clasicacin. Esta divisin de las tcnicas por objetivos, aunque no de forma

    literal, es la que ha dado nombre a las asignaturas de contenidos de Anlisis

    Multivariante que aparecen en el Grado de Estadstica y Empresa.

    1.3. Estadsticos Multivariantes

    Esta seccin tiene por objeto introducir los estimadores multivariantes

    ms importantes. Para ello vamos a considerar diversos casos: el primero

    recoge la situacin en la que nos interesa el vector de variables de forma

    completa, el segundo est relacionado con la divisin del vector original en

    dos subvectores y el tercero trata con combinaciones lineales de variables del

    vector aleatorio. Posteriormente estudiaremos como sintetizar en un nico

    valor la dispersin total que tienen los datos multivariantes y el problema

    de la multicolinealidad que aparece cuando las variables del vector aleatorio

    presentan una alta relacin lineal entre ellas.

    1.3.1. Estadsticos para el vector completo de variables

    Consideremos un vector aleatorio y = (y1; ; yp)0 y supongamos quehemos obtenido una muestra sobre n individuos denotada por y1; : : : ;yn,donde yi = (yi1; : : : ; yip)

    0, i = 1; : : : ; n. El vector media muestral y se puedecalcular de la forma:

    y =1

    n

    nXi=1

    yi = (y1; : : : ; yp)0(1.1)

    donde yj =1n

    Pni=1 yij . Por tanto, yj es la media muestral de la variable yj .Las n observaciones vectoriales y1; : : : ;yn pueden ser transpuestas a vec-tores las y recogidas en la matriz de datos Y como sigue:

    Y =

    0BBBBBBBB@

    y01y02.

    .

    .

    y0i.

    .

    .

    y0n

    1CCCCCCCCA=

    0BBBBBBBB@

    y11 y12 y1j y1py21 y22 y2j y2p.

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    yi1 yi2 yij yip.

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    .

    yn1 yn2 ynj ynp

    1CCCCCCCCA(1.2)

    donde las las representan a las unidades y las columnas a las variables.

    Puesto que n es usualmente mayor que p, los datos son tabulados ms conve-nientemente introduciendo las observaciones como las en lugar de columnas.

    8

  • Ntese que el primer subndice i corresponde a las unidades y el segundo j alas variables. Aparte de las dos formas de calcular

    y dadas en (1.1) podemostambin obtenerla a partir de la matriz de datos Y de la forma siguiente:

    y0 =1

    nj0Y (1.3)

    donde j0 = (1; 1; : : : ; 1) o tomando transpuestas:

    y =1

    nY0j (1.4)

    La media de y sobre todos los posibles valores en la poblacin es deno-minada vector de medias poblacional o valor esperado de y y se dene:

    = E(y) =

    0BBB@E(y1)E(y2).

    .

    .

    E(yp)

    1CCCA =0BBB@12.

    .

    .

    p

    1CCCAdonde j es la media poblacional de la variable yj . Se verica que:

    E(y) =

    0BBB@E(y1)E(y2).

    .

    .

    E(yp)

    1CCCA =0BBB@12.

    .

    .

    p

    1CCCA = y, por tanto,

    y es un estimador insesgado de .La matriz de varianzas-covarianzas muestral S = (sjk) es la matriz delas covarianzas muestrales:

    S =

    0BBB@s11 s12 s1ps21 s22 s2p.

    .

    .

    .

    .

    .

    .

    .

    .

    sp1 sp2 spp

    1CCCALa diagonal principal de S est conformada por las varianzas muestralesde las p variables, para las cuales suele utilizarse la notacin sjj = s

    2j , mien-

    tras que las covarianzas muestrales aparecen fuera de esta diagonal principal.

    A S tambin se le denomina matriz de covarianzas y matriz de dispersin.Existen tres formas para obtener S. La primera de ellas es elemento a ele-mento:

    sjk =1

    n 1nXi=1

    (yij yj)(yik yk) = 1n 1

    nXi=1

    yijyik nyj yk!

    9

  • La segunda forma utiliza vectores de observaciones:

    S =1

    n 1nXi=1

    (yi y)(yi y)0 = 1n 1

    nXi=1

    yiy0i nyy0

    !Por ltimo, se puede obtener S directamente a partir de Y. Para ello hayque tener en cuenta que de (1.2) se verica:

    nXi=1

    yiy0i = (y1;y2; : : : ;yn)

    0BBB@y01y02.

    .

    .

    y0n

    1CCCA = Y0Yy que:

    jj0 = J =

    0BBB@1 1 11 1 1.

    .

    .

    .

    .

    .

    .

    .

    .

    1 1 1

    1CCCAy as, teniendo en cuenta (1.3) y (1.4), se sigue que:

    nyy0 =1

    nY0jj0Y =

    1

    nY0JY

    En consecuencia, de la segunda forma, se tiene que:

    S =1

    n 1Y0Y Y0

    1

    nJ

    Y

    =

    1

    n 1Y0I 1

    nJ

    Y

    Esta ltima expresin es una representacin conveniente de S ya que haceuso directo de la matriz de datos Y. Sin embargo, la matriz IJ=n es nny puede suponer un alto coste computacional si n es grande.Por otra parte, la expresin Yc =

    I 1nJ

    Y es la forma centrada4 de la

    matrizY. Por multiplicacin directa, es fcil demostrar queI 1nJ

    0 I 1nJ

    =

    I 1nJy as podemos expresar:

    S =1

    n 1Y0I 1

    nJ

    Y

    =1

    n 1Y0I 1

    nJ

    0I 1

    nJ

    Y

    =1

    n 1Y0cYc (1.5)

    4

    Veamos que Yc es la versin centrada de Y, es decir, sus datos tienen media 0. Para

    10

  • La matriz de covarianzas poblacional es denida:

    = E[(y )(y )0] =

    0BBB@11 12 1p21 22 2p.

    .

    .

    .

    .

    .

    .

    .

    .

    p1 p2 pp

    1CCCAen donde los elementos diagonales jj =

    2j = E(yj j)2 son las varianzaspoblacionales de las variables yj y los elementos fuera de la diagonal principaljk = E[(yj j)(yk k)] son las covarianzas poblacionales de yj e yk,j; k = 1; : : : ; p. Se verica adems que:

    = E(yy0) 0

    Dado que E(sjk) = jk, entonces E(S) = y S es un estimador inses-gado de .El tercer estadstico multivariante que vamos a estudiar es la matriz de

    correlaciones. La correlacin muestral entre las variables yj e yk se denecomo:

    rjk =sjkpsjjskk

    =sjksjsk

    La matriz de correlaciones muestral es anloga a la matriz de covarian-

    zas en la que se sustituyen las covarianzas muestrales por sus respectivas

    ello tengamos en cuenta que:

    Yc =

    I 1

    nJ

    Y = Y 1

    nJY = Y 1

    njj0Y = Y jy0

    =

    0BBB@y11 y12 y1py21 y22 y2p.

    .

    .

    .

    .

    .

    .

    .

    .

    yn1 yn2 ynp

    1CCCA0BBB@11.

    .

    .

    1

    1CCCA (y1; : : : ; yp)

    =

    0BBB@y11 y12 y1py21 y22 y2p.

    .

    .

    .

    .

    .

    .

    .

    .

    yn1 yn2 ynp

    1CCCA0BBB@y1 y2 ypy1 y2 yp.

    .

    .

    .

    .

    .

    .

    .

    .

    y1 y2 yp

    1CCCA

    =

    0BBB@y11 y1 y12 y2 y1p ypy21 y1 y22 y2 y2p yp.

    .

    .

    .

    .

    .

    .

    .

    .

    yn1 y1 yn2 y2 ynp yp

    1CCCA

    11

  • correlaciones muestrales:

    R =

    0BBB@1 r12 r1pr21 1 r2p.

    .

    .

    .

    .

    .

    .

    .

    .

    rp1 rp2 1

    1CCCALa matriz de correlaciones puede obtenerse a partir de la matriz de co-

    varianzas, y vice versa. Para ver esto, denamos:

    Ds = diag(ps11;

    ps22; : : : ;

    pspp) = diag(s1; s2; : : : ; sp) =

    0BBB@s1 0 00 s2 0.

    .

    .

    .

    .

    .

    .

    .

    .

    0 0 sp

    1CCCAentonces:

    R = D1s SD1s

    S = DsRDs

    Denotemos por Z a la matriz de datos estandarizada, entonces Z = (zij),con zij = (yij yj)=sj . Adems, se verica que Z = YcD1s y la matrizde covarianzas de Z es la matriz de correlaciones de Y. Para demostrar estaarmacin, utilizamos la tercera forma de clculo de la matriz de covarianzas:

    Sz =1

    n 1Z0Z Z0

    1

    nJ

    Z

    (ya que nzz0 =

    1

    nZ0JZ = 0)

    =1

    n 1Z0Z (Z = YcD1s )

    = D1sY0cYcn 1D

    1s (por (1.5))

    = D1s SD1s = R

    La matriz de correlaciones poblacional se dene como:

    P =

    0BBB@1 12 1p21 1 2p.

    .

    .

    .

    .

    .

    .

    .

    .

    p1 p2 1

    1CCCAdonde

    jk =jkjk

    Finalmente, indicar que R es un estimador sesgado de P.

    12

  • 1.3.2. Ejemplo

    El chero europa contiene datos referidos a los porcentajes de empleados

    en diferentes sectores productivos de 26 pases europeos en 1979. De este

    chero hemos extrado las 10 primeras observaciones correspondientes a las

    3 primeras variables. Los datos aparecen en la tabla adjunta en donde:

    1. Agr: porcentaje de empleados en agricultura (y1)

    2. Min: porcentaje de empleados en minera (y2)

    3. Man: porcentaje de empleados en industria (y3)

    Pas Agr Min Man

    1 Belgium 3.30 0.90 27.60

    2 Denmark 9.20 0.10 21.80

    3 France 10.80 0.80 27.50

    4 W. Germany 6.70 1.30 35.80

    5 Ireland 23.20 1.00 20.70

    6 Italy 15.90 0.60 27.60

    7 Luxembourg 7.70 3.10 30.80

    8 Netherlands 6.30 0.10 22.50

    9 United Kingdom 2.70 1.40 30.20

    10 Austria 12.70 1.10 30.20

    Para obtener el vector de medias calculamos las medias por variable:

    y0 = (y1; y2; y3) = (9:85; 1:04; 27:47). La matriz de varianzas-covarianzasmuestrales es:

    S =

    0@ 38:38 0:69 12:690:69 0:72 2:2612:69 2:26 22:01

    1Adonde, por ejemplo, la covarianza s23 se ha calculado de la forma:

    10Xi=1

    yi2yi3 = 0:9 27:6 + 0:1 21:8 + + 1:4 30:2 + 1:1 30:2 = 306:05

    y as:

    s23 =1

    10 1

    10Xi=1

    yi2yi3 10y2y3!

    =1

    9(306:05 10 1:04 27:47) = 2:26

    13

  • Teniendo en cuenta que:

    Ds =

    0@p38:38 0 0

    0p0:72 0

    0 0p22:01

    1Aentonces:

    R = D1s SD1s =

    0@ 1 0:13 0:430:13 1 0:560:43 0:56 1

    1A1.3.3. Estadsticos para subconjuntos de variables

    En ocasiones el investigador est interesado en dos clases diferentes de

    variables, ambas medidas sobre el mismo conjunto de unidades muestrales.

    Por ejemplo, diversas variables que miden el comportamiento del consumidor

    son observadas para un grupo de personas durante un periodo de tiempo y se

    desea estudiar la relacin entre tales variables en funcin del sexo del consu-

    midor. Denotemos a los dos subvectores y = (y1; ; yp)0 y x = (x1; ; xq)0.As, cada observacin muestral puede ser dividida de la forma:

    yixi

    =

    0BBBBBBBB@

    yi1.

    .

    .

    yipxi1.

    .

    .

    xiq

    1CCCCCCCCA; i = 1; : : : ; n

    Para la muestra de n observaciones vectoriales, el vector de medias y lamatriz de covarianzas pueden expresarse:

    yx

    =

    0BBBBBBBB@

    y1.

    .

    .

    ypx1.

    .

    .

    xq

    1CCCCCCCCAy S =

    Syy SyxSxy Sxx

    donde Syy es pp, Syx es pq, Sxy es qp y Sxx es qq. Ntese que, dadoque S es simtrica, ha de vericarse Sxy = S

    0yx. Por ejemplo, para p = 2 y

    14

  • q = 3 se tiene que:

    yx

    =

    0BBBB@y1y2x1x2x3

    1CCCCA

    S =

    Syy SyxSxy Sxx

    =

    0BBBBB@s2y1 sy1y2 sy1x1 sy1x2 sy1x3sy2y1 s

    2y2 sy2x1 sy2x2 sy2x3

    sx1y1 sx1y2 s2x1 sx1x2 sx1x3

    sx2y1 sx2y2 sx2x1 s2x2 sx2x3

    sx3y1 sx3y2 sx3x1 sx3x2 s2x3

    1CCCCCADe esta forma, Syy es la matriz de covarianzas de y y Sxx la matriz decovarianzas de x, mientras que Syx es la matriz de covarianzas5

    entre y y x.Adems, ya que sykxl = sxlyk , se tiene que Sxy = S

    0yx.

    Los correspondientes parmetros poblacionales pueden ser divididos anlo-

    gamente:

    E

    yx

    =

    E(y)E(x)

    =

    yx

    cov

    yx

    = =

    yy yxxy xx

    donde xy =

    0yx. La submatriz yy es una matriz de covarianzas p p quecontiene en su diagonal principal a las varianzas de y1; : : : ; yp y fuera de staa las covarianzas entre yk e yj para j; k = 1; : : : ; p, con j 6= k. Similarmentexx es la matriz de covarianzas de x1; : : : ; xq y tiene dimensiones q q. Porltimo, yx es p q y contiene las covarianzas de cada yj con cada xk. Lamatriz yx es denotada tambin por cov(y;x)6

    .

    Si y y x son independientes entonces yx = 0. Esto signica que cadayj est incorrelada con cada xk por lo que yjxk = 0 para j = 1; : : : ; p yk = 1; : : : ; q.La extensin a ms de dos subconjuntos de variables es inmediata. Si el

    5

    Tambin denominada matriz de covarianzas cruzada de y y de x.6

    Ntese la diferencia de notacin entre: cov(y;x) = E[(y y)(x x)0] = yx ycov

    yx

    = . La primera involucra a dos vectores y la segunda implica a un vector nico

    de p+ q variables.

    15

  • vector de observaciones y es dividido de la forma siguiente:

    y =

    0BBB@y1y2.

    .

    .

    yk

    1CCCAdonde y1 tiene p1 variables, y2 tiene p2 variables, ..., yk tiene pk variablescon p1 + p2 + + pk = p, entonces esta particin induce otras en el vectorde medias y en la matriz de covarianzas muestrales dadas por:

    y =

    0BBB@y1y2.

    .

    .

    yk

    1CCCA y S =0BBB@S11 S12 S1kS21 S22 S2k.

    .

    .

    .

    .

    .

    .

    .

    .

    Sk1 Sk2 Skk

    1CCCAPor ejemplo, la submatriz S2k tiene dimensiones p2 pk y contiene lascovarianzas de las variables en y2 con las variables en yk.Los correspondientes parmetros poblacionales pueden subdividirse de

    igual forma:

    =

    0BBB@12.

    .

    .

    k

    1CCCA y =0BBB@11 12 1k21 22 2k.

    .

    .

    .

    .

    .

    .

    .

    .

    k1 k2 kk

    1CCCA1.3.4. Ejemplo

    Supongamos ahora que consideramos 2 variables adicionales del chero

    europa tratado en el ejemplo anterior y que ahora las dividimos en dos grupos

    de acuerdo al sector productivo al que pertenecen: primario (y) y secundario(x). En concreto, consideramos las 5 variables siguientes y con los datos queaparecen en la tabla posterior:

    1. Agr:% de empleados en agricultura (y1)

    2. Min:% de empleados en minera (y2)

    3. Man:% de empleados en industria (x1)

    4. PS:% de empleados en las industrias suministradoras de energa (x2)

    5. Con:% de empleados en la construccin (x3)

    16

  • Pas Agr Min Man PS Con

    1 Belgium 3.30 0.90 27.60 0.90 8.20

    2 Denmark 9.20 0.10 21.80 0.60 8.30

    3 France 10.80 0.80 27.50 0.90 8.90

    4 W. Germany 6.70 1.30 35.80 0.90 7.30

    5 Ireland 23.20 1.00 20.70 1.30 7.50

    6 Italy 15.90 0.60 27.60 0.50 10.00

    7 Luxembourg 7.70 3.10 30.80 0.80 9.20

    8 Netherlands 6.30 0.10 22.50 1.00 9.90

    9 United Kingdom 2.70 1.40 30.20 1.40 6.90

    10 Austria 12.70 1.10 30.20 1.40 9.00

    Entonces:

    yx

    =

    0BBBB@y1y2x1x2x3

    1CCCCA =0BBBB@

    9:851:04

    27:470:978:52

    1CCCCA

    S =

    Syy SyxSxy Sxx

    =

    0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:06

    0:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

    1CCCCANtese que Syy y Sxx son simtricas y que S

    0yx = Sxy.

    1.3.5. Combinaciones lineales de variables

    En temas subsiguientes ser de inters la consideracin de combinacio-

    nes lineales de las variables y1; : : : ; yp. Por ejemplo, dos de los problemasque involucran a funciones lineales interesantes sern: encontrar la combina-

    cin lineal que maximice alguna funcin y determinar combinaciones lineales

    que permitan comparar variables (por ejemplo, y1 y3). En esta seccin es-tudiaremos la media, varianza y covarianza de una combinacin lineal de

    variables.

    Denotemos a una combinacin lineal de los elementos de y de la forma:

    z = a0y =pX

    j=1

    ajyj

    17

  • donde a0 = (a1; a2; : : : ; ap) es un vector de constantes. Si esta combinacinlineal es aplicada a cada yi en la muestra se tiene:

    zi = a0yi =

    pXj=1

    ajyij ; i = 1; : : : ; n

    La media muestral de los zi puede obtenerse promediando los n valoreszi o como una combinacin lineal de y:

    z =1

    n

    nXi=1

    zi =1

    na0

    nXi=1

    yi = a0y

    Similarmente, la varianza muestral de los zi puede obtenerse a partir dela denicin de varianza muestral o directamente a partir de a y S (la matrizde covarianzas de y1; : : : ;yn):

    s2z =

    Pni=1(zi z)2n 1

    =

    Pni=1(a

    0yi a0y)2n 1

    =

    Pni=1(a

    0yi a0y)(a0yi a0y)0n 1

    =

    Pni=1 a

    0(yi y)(yi y)0an 1

    = a0Pn

    i=1(yi y)(yi y)0n 1

    a

    = a0Sa (1.6)

    Puesto que una varianza es siempre no negativa, se tiene que s2z 0 y asa0Sa 0, para cada a. Por tanto, S es al menos semidenida positiva. Si lasvariables son continuas y no estn relacionadas linealmente, y si n 1 > p(por lo que S es de rango completo), entonces S es denida positiva (conprobabilidad 1).

    Denamos otra combinacin lineal de y de la forma:

    w = b0y =pX

    j=1

    bjyj

    entonces la covarianza muestral de z y w es:

    szw =

    Pni=1(zi z)(wi w)

    n 1 = a0Sb (1.7)

    18

  • y la correlacin muestral entre z y w es:

    rzw =szwps2zs

    2w

    =a0Sbp

    (a0Sa)(b0Sb)

    Cambiemos la notacin de los vectores a y b por a1 y a2 para facilitar eldesarrollo posterior a ms de dos de tales vectores. Sea:

    A =

    a01a02

    y denamos:

    z =

    a01ya02y

    =

    z1z2

    entonces:

    z =

    a01a02

    y = Ay

    Si evaluamos esta transformacin en la muestra se tiene zi = Ayi, i =1; : : : ; n, y la media puede obtenerse:

    z =

    z1z2

    =

    a01ya02y

    =

    a01a02

    y = Ay

    La matriz de covarianzas de z puede calcularse de la forma:

    Sz =

    s2z1 sz1z2sz2z1 sz22

    =

    a01Sa1 a01Sa2a02Sa1 a02Sa2

    =

    a01a02

    S(a1;a2) = ASA

    0

    Estos dos ltimos resultados pueden extenderse sencillamente a ms de

    dos combinaciones lineales. Supongamos que tenemos las siguientes k trans-formaciones lineales:

    z1 = a01y =

    pXj=1

    a1jyj

    z2 = a02y =

    pXj=1

    a2jyj

    .

    .

    .

    zk = a0ky =

    pXj=1

    akjyj

    19

  • o matricialmente:

    z =

    0BBB@z1z2.

    .

    .

    zk

    1CCCA =0BBB@a01ya02y.

    .

    .

    a0ky

    1CCCA =0BBB@a01a02.

    .

    .

    a0k

    1CCCAy = Aydonde A es k p (tpicamente k p). Si evaluamos esta transformacin enla muestra se tiene zi = Ayi, i = 1; : : : ; n, y la media puede obtenerse:

    z =

    0BBB@z1z2.

    .

    .

    zk

    1CCCA =0BBB@a01ya02y.

    .

    .

    a0ky

    1CCCA =0BBB@a01a02.

    .

    .

    a0k

    1CCCA y = AyLa matriz de covarianzas de z puede obtenerse ahora de la forma:

    Sz =

    0BBB@a01Sa1 a01Sa2 a01Saka02Sa1 a02Sa2 a02Sak.

    .

    .

    .

    .

    .

    .

    .

    .

    a0kSa1 a0kSa2 a0kSak

    1CCCA =0BBB@a01a02.

    .

    .

    a0k

    1CCCAS(a1;a2; : : : ;ak) = ASA0De esta ltima expresin se deduce que:

    tr(ASA0) =kXi=1

    a0iSai

    Todava podemos considerar una combinacin lineal algo ms general de

    la forma:

    zi = Ayi + b i = 1; : : : ; n

    con b un vector constante, entonces:

    z = Ay + b (1.8)

    Sz = ASA0(1.9)

    A continuacin esquematizamos la versin poblacional de estos resulta-

    dos. La media poblacional de z = a0y es:

    E(z) = E(a0y) = a0E(y) = a0

    y su varianza poblacional:

    2z = var(a0y) = a0a

    20

  • Sea w = b0y otra combinacin lineal de y, entonces la covarianza pobla-cional de z y w es:

    cov(z; w) = zw = a0b

    y la correlacin poblacional entre z y w es:

    zw = corr(a0y;b0y) =

    a0bp(a0a)(b0b)

    Si Ay representa diversas combinaciones lineales, entonces su vector demedias y matriz de covarianzas poblacionales son:

    E(Ay) = AE(y) = A

    cov(Ay) = AA0 (1.10)

    La transformacin ms general z = Ay + b tiene vector de medias ymatriz de covarianzas poblacionales:

    E(Ay + b) = AE(y) + b = A+ b

    cov(Ay + b) = AA0 (1.11)

    Por ltimo, si las las de C representan los coecientes de otra combina-cin lineal Cy + d, entonces

    cov(Ay + b;Cy + d) = AC0 (1.12)

    1.3.6. Ejemplo

    Consideremos de nuevo las 5 variables del ejemplo anterior obtenidas

    del chero europa. Cambiemos la notacin para hacerla compatible con la

    utilizada en esta seccin: y1 = Agr, y2 = Min, y3 = Man, y4 = PS e y5 =Con. Denamos la siguiente combinacin lineal:

    z = 3y1 + 2y2 y3 + y4 + 4y5 = (3; 2;1; 1; 4)y = a0ySi calculamos z para cada una de las 10 observaciones obtenemos: z1 = 17:8,z2 = 39:8, z3 = 43, z4 = 17, z5 = 82:2, z6 = 61:8, z7 = 36:1, z8 = 37:2,z9 = 9:7 y z10 = 47:5. Entonces su media es z = 39:21 y varianza s

    2z =

    475:3454. Alternativamente, podemos utilizar el vector de medias y la matrizde covarianzas muestrales ya calculadas en el ejemplo anterior:

    y =

    0BBBB@9:851:0427:470:978:52

    1CCCCA y S =0BBBB@

    38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

    1CCCCA21

  • entonces:

    z = a0y = (3; 2;1; 1; 4)

    0BBBB@9:851:0427:470:978:52

    1CCCCA = 39:21s2z = a

    0Sa

    = (3; 2;1; 1; 4)

    0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

    1CCCCA0BBBB@

    32114

    1CCCCA = 475:3454Denamos ahora una segunda combinacin lineal:

    w = y1 y2 2y3 + 2y4 + 3y5 = (1;1;2; 2; 3)y = b0yentonces su media muestral es w = 18:63 y su varianza muestral es s2w =b0Sb = 215:6534. La covarianza muestral de z y w es szw = a0Sb = 276:447.De esta forma, podemos calcular el coeciente de correlacin muestral entre

    z y w:

    rzw =szwps2zs

    2w

    =276:447p

    475:3454 215:6534 = 0:863

    Consideremos ahora tres funciones lineales dadas por:

    z1 = 2y1 2y2 2y3 + y4 3y5z2 = y1 + y2 + 2y3 2y4 y5z3 = 3y1 3y2 y3 2y4 4y5que puede ser expresada matricialmente, z = Ay, de la forma siguiente:

    z =

    0@z1z2z3

    1A =0@2 2 2 1 31 1 2 2 13 3 1 2 4

    1A0BBBB@y1y2y3y4y5

    1CCCCAy as, la media muestral puede ser calculada como:

    z = Ay =

    0@2 2 2 1 31 1 2 2 13 3 1 2 4

    1A0BBBB@

    9:851:0427:470:978:52

    1CCCCA =0@61:9155:3737:06

    1A

    22

  • y la matriz de covarianzas muestral de z puede obtenerse:

    Sz = ASA0 =

    0@355:21 49:04 390:1249:04 86:32 6:69390:12 6:69 457:80

    1APor ltimo, calculamos la matriz de correlaciones:

    Rz = D1z SzD

    1z =

    0@ 1 0:28 0:960:28 1 0:030:96 0:03 1

    1Adonde

    Dz =

    0@p355:21 0 0

    0p86:32 0

    0 0p457:80

    1A =0@18:84 0 00 9:29 0

    0 0 21:39

    1A1.3.7. Medidas de la variabilidad total y de multicolinealidad

    La matriz de covarianzas contiene las varianzas de las p variables y lascovarianzas entre todos los pares de variables y es, por tanto, una repre-

    sentacin polifactica de la variacin total de los datos. A veces es deseable

    disponer de un valor numrico nico para la dispersin multivariante global.

    Una de tales medidas es la varianza muestral generalizada, denida como el

    determinante de la matriz de covarianzas: jSj.La varianza muestral generalizada tiene una interpretacin geomtrica.

    La extensin de una elipse a ms de dos dimensiones es denominada hi-

    perelipsoide o elipsoide simplemente. Un elipsoide de dimensin p, centradoen

    y y que utiliza S1 para estandarizar las distancias al centro, tiene porecuacin:

    (y y)0S1(y y) = a2

    y contiene una proporcin de las observaciones y1; : : : ;yn en la muestra7

    .

    Este elipsoide tiene ejes proporcionales a las races cuadradas de los autova-

    lores de S. Se puede demostrar que el volumen del elipsoide es proporcionala jSj1=2. Si el autovalor ms pequeo p es cero, entonces no hay ningn ejeen la direccin determinada por ese autovalor, y el elipsoide se encuentra

    completamente en un subespacio de dimensin p 1 del espacio de dimen-sin p. En consecuencia, el volumen en el espacio de dimensin p es cero8.

    7

    De hecho, si y Np(;), entonces (y )01(y ) 2(p).8

    Alternativamente, ya que jSj = 12 : : : p, entonces si p = 0, jSj = 0.

    23

  • Un autovalor nulo indica redundancia en la forma de la relacin lineal entre

    las variables. Como veremos en el tema siguiente, el vector propio corres-

    pondiente al autovalor nulo revela la forma de la dependencia lineal. Una

    solucin al dilema cuando p = 0 es eliminar una o ms variables.Otra medida de la variabilidad total es la varianza muestral total, denida

    como la traza de S: tr(S) =Pp

    j=1 sjj . Esta medida ignora completamentela estructura de covarianza pero es til en tcnicas tales como el anlisis de

    componentes principales con propsitos de comparacin.

    En general, valores grandes de jSj y tr(S) son reejo de una amplia dis-persin de y1; : : : ;yn en relacin a y, mientras que valores pequeos indicanconcentracin alrededor de

    y. En el caso de jSj, sin embargo, un valor extre-madamente pequeo de jSj (o equivalentemente de jRj) puede indicar tantopequea variabilidad como la existencia de multicolinealidad, trmino que

    indica una alta dependencia lineal en un conjunto de variables. La multico-

    linealidad puede ser un problema serio que puede afectar gravemente a la

    utilidad de la tcnica multivariante que se est usando. Puede ser debida

    a unas altas correlaciones por pares o a una alta correlacin mltiple entre

    una variable y diversas de las otras variables. Por tanto, en muchas ocasiones

    es deseable obtener una medida global de la cantidad de intercorrelacin en

    un conjunto de variables y1; y2; : : : ; yp, es decir, representar la correlacionesrecogidas en R mediante un nico nmero. Muchas de estas medidas suelenestar basadas en los autovalores de R. El cociente entre el mayor autovalory el menor es el denominado nmero de condicin (un valor superior a 30

    indica le presencia de multicolinealidad severa). Otra medida son los factores

    de inacin de la varianza denidos como:

    FIVj = rjj ; j = 1; : : : ; p

    donde rjj son los elementos diagonales de R1 (valores por encima de 5son indicio de problemas por causa de la multicolinealidad). Por ltimo, una

    medida comprendida entre 0 y 1 que utiliza los autovalores de R1 (losinversos de los autovalores de R) fue propuesta por Heo:

    q2 = 1 pPpj=1 1=j

    donde ahora utilizamos j para denotar a los autovalores de R.Por ltimo, una forma de visualizar mediante un grco la informacin

    recogida en R se consigue mediante una matriz de diagramas de disper-sin. Este grco muestra todos los pares de diagramas de dispersin que

    se pueden formar con las variables y1; y2; : : : ; yp. En cada diagrama, un pa-trn lineal en la nube de puntos es indicio de una alta relacin entre el par

    24

  • de variables implicado y se corresponder con un alto valor absoluto de la

    correlacin en la posicin correspondiente de R.

    1.3.8. Ejemplo

    Calculemos las medidas de la variabilidad total para los 10 primeras

    observaciones de las 5 variables del ejemplo anterior obtenidas del chero

    europa. Se tiene que la varianza muestral generalizada es:

    jSj =

    38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

    = 25:74

    y la varianza muestral total:

    tr(S) =5X

    j=1

    sjj = 62:35

    Para estudiar la multicolinealidad calculamos en primer lugar la matriz

    de correlaciones:

    R = D1s SD1s =

    0BBBB@1:00 0:13 0:43 0:04 0:140:13 1:00 0:56 0:14 0:140:43 0:56 1:00 0:06 0:210:04 0:14 0:06 1:00 0:470:14 0:14 0:21 0:47 1:00

    1CCCCAque no maniesta ninguna correlacin por pares excesivamente alta. En la

    gura 1.1 se muestra la matriz de diagramas de dispersin para las 5 va-

    riables. Aunque el tamao muestral es pequeo para visualizar con claridad

    la existencia de patrones lineales, es evidente que la mayor asociacin li-

    neal la presentan las variables Min y Man, en correspondencia con el valor

    r32 = 0:56. El resto de diagramas de dispersin no presentan un patrn linealmuy pronunciado.

    Por otra parte, los valores propios de R son: 1 = 1:96, 2 = 1:33,3 = 0:88, 4 = 0:48 y 5 = 0:34. Entonces, el nmero de condicin es:

    15

    =1:96

    0:34= 5:79

    25

  • Agr0.0 1.0 2.0 3.0 0.6 0.8 1.0 1.2 1.4

    510

    1520

    0.01.

    02.

    03.0 Min

    Man

    2530

    35

    0.61.

    01.

    4

    PS

    5 10 15 20 25 30 35 7.0 8.0 9.0 10.0

    7.0

    8.09.0

    10.0

    Con

    Figura 1.1: Matriz de diagramas de dispersin.

    cuyo valor es moderado. Calculamos los factores de inacin de la varianza

    a traves de la inversa de la matriz de correlaciones: FIV1 = r11 = 1:28,

    FIV2 = r22 = 1:53, FIV3 = r

    33 = 1:86, FIV4 = r44 = 1:33 y FIV5 = r

    55 =1:36, valores que se mantienen por debajo de 5. Por ltimo, el ndice de Heo:

    q2 = 1 5P5j=1 1=j

    = 1 57:4

    = 0:324

    maniesta un valor alejado de 1. En consecuencia, para estos datos la mul-

    ticolinealidad no es un problema.

    1.3.9. Distancia entre vectores

    En un contexto univariante, la distancia entre dos puntos es simplemente

    la diferencia en valor absoluto entre sus valores. Para propsitos estadsticos,

    esta diferencia puede no ser muy informativa. En realidad, no deseamos cono-

    cer cuntos centmetros estn de alejadas dos observaciones, pero s cuntas

    desviaciones tpicas distan entre s. Por ejemplo, consideremos una variable

    X N(0; 1) y una observacin x que dista dos unidades respecto al origen.Se verica que P [0 X 2] = 0:4772. Por otro lado, consideremos otravariable Y N(0; 4) y otra observacin y que tambin diste dos unidadesrespecto al origen. Ahora se tiene que P [0 Y 2] = 0:3413, indicando quey est ms cerca del origen que x. Es decir, la distancia eucldea es incapazde reejar la verdadera distancia entre las observaciones ya que no tiene en

    cuenta las desviaciones tpicas (X = 1 y Y = 2). De hecho, x dista dos

    26

  • desviaciones estndares respecto de su media mientras que y est a una des-viacin tpica de su media. Por tanto, nos interesa las distancias estadsticas

    o estandarizadas de la forma:

    d2 =(xi xj)2

    2= (xi xj)(2)1(xi xj)

    donde 2 es la varianza poblacional. En nuestro ejemplo, el punto x tiene unadistancia estadstica al cuadrado de d2 = 4 mientras que a y le corresponded2 = 1, lo que mantiene la desigualdad en probabilidades indicando que Yest ms cercana a cero que X.Para obtener una distancia til en un marco multivariante debemos con-

    siderar no slo las varianzas de las variables si no tambin sus covarian-

    zas o correlaciones. La distancia eucldea al cuadrado entre dos vectores

    (yi yj)0(yi yj) no es til en ciertas situaciones ya que no tiene en cuen-ta las varianzas y las covarianzas. Para obtener una distancia estadstica

    apropiada estandarizamos mediante la matriz de covarianzas:

    d2 = (yi yj)0S1(yi yj)Otros ejemplos son:

    D2 = (y )0S1(y )2 = (y )01(y )2 = (1 2)01(1 2)Esas distancias cuadrticas entre dos vectores fueron propuestas por pri-

    mera vez por Mahalanobis en 1936 y son denominadas distancias de Maha-

    lanobis. Cuando la matriz de covarianzas es la identidad entonces la distan-

    cia de Mahalanobis se reduce a la distancia eucldea. Si una variable tiene

    una varianza mayor que otra, recibe menor peso relativo en la distancia de

    Mahalanobis. Similarmente, dos variables altamente correladas no contribu-

    yen tanto como dos variables que estn menos correladas. En esencia, por

    tanto, el uso de la inversa de la matriz de covarianzas en la distancia de

    Mahalanobis tiene dos efectos:

    i) estandarizar todas las variables para que tengan la misma varianza y

    ii) eliminar las correlaciones.

    Para ver esto, consideremos 2 y expresemosla de la forma:

    2 = (y )01(y ) = (y )01=21=21(y )=h1=2

    1(y )

    i0h1=2

    1(y )

    i= z0z

    27

  • donde z =1=2

    1(y ) = 1=21y 1=21 y as, aplicando(1.11), se tiene que:

    cov(z) =1=2

    1cov(y)

    1=2

    10=1=2

    1 1n1=2

    1=

    1

    nI

    Por tanto, las variables transformadas z1; : : : ; zp estn incorreladas y cadauna tiene varianza 1=n. Si se utiliza la matriz de covarianzas apropiada enla distancia de Mahalanobis, las varianzas se reducen a 1. Por ejemplo, si

    cov(y) = =n fuera utilizada en lugar de entonces obtendramos cov(z) =I.

    1.3.10. Ejemplo

    Calculemos la distancia de Mahalanobis entre las dos primeras observa-

    ciones del chero europa para las 5 primeras variables. Se tiene que:

    y1 y2 = (3:3; 0:9; 27:6; 0:9; 8:2)0 (9:2; 0:1; 21:8; 0:6; 8:3)0= (5:9; 0:8; 5:8; 0:3;0:1)0

    entonces:

    d2 = (y1 y2)0S1(y1 y2)

    = (5:9; 0:8; 5:8; 0:3;0:1)

    0BBBB@38:38 0:69 12:69 0:09 0:930:69 0:72 2:26 0:03 0:1312:69 2:26 22:01 0:09 1:060:09 0:03 0:09 0:09 0:150:93 0:13 1:06 0:15 1:13

    1CCCCA10BBBB@

    5:90:85:80:30:1

    1CCCCA= 3:19

    Sin embargo, la distancia eucldea al cuadrado proporciona:

    D2 = (y1 y2)0(y1 y2) = (5:9; 0:8; 5:8; 0:3;0:1)

    0BBBB@5:90:85:80:30:1

    1CCCCA = 69:19Ntese que el valor de D2 se debe fundamentalmente a dos coordenadas:

    5:9 y 5:8, que una vez elevadas al cuadrado son las que contribuyen esen-cialmente al resultado nal de la distancia. Sin embargo, en d2 estos valoresse ponderan de acuerdo al valor de su varianza de tal forma que su contribu-

    cin se ve disminuida si sta es grande y esto es precisamente lo que ocurre

    dado que s21 = 38:38 y s23 = 22:01.

    28

  • 1.4. Valores Perdidos

    En ocasiones disponemos de un vector de observaciones en el que todos

    los casos no estn completos, es decir, algunos valores estn ausentes para

    una o ms variables. Por ejemplo, no es infrecuente que los entrevistados en

    una encuesta se nieguen a declarar su nivel de ingresos, o que el entrevistador

    no recoja una respuesta en la casilla adecuada o, simplemente, que la tasa

    de paro no est disponible todava para el semestre que se analiza.

    La distribucin de los valores faltantes en un conjunto de datos es una

    cuestin importante. Los valores ausentes aleatoriamente distribuidos a lo

    largo de la matriz de datos son menos problemticos que un patrn de valo-

    res ausentes que dependen hasta cierto punto de los valores de las variables

    faltantes. Para entender el efecto que puede tener un patrn de valores per-

    didos consideremos el siguiente ejemplo: un investigador desea conocer cul

    es la actitud de los jvenes hacia el tabaco. Para ello les pide que expresen

    su acuerdo o desacuerdo con un conjunto de armaciones, entre ellas fumar

    perjudica la salud y deben aumentarse los impuestos sobre el tabaco (la

    escala de respuesta es 1=estoy en total desacuerdo, 5=estoy en total acuer-

    do), adems de identicar su hbito como fumador o no. Supongamos que

    los valores ausentes se producen en la variable relacionada con aumentar los

    impuestos sobre el tabaco. Si estos valores perdidos son aleatorio entonces

    la media muestral de esta variable no debiera diferir sustancialmente de la

    media de la muestra completa. Sin embargo, si los valores ausentes siguen

    un patrn, por ejemplo, los fumadores se niegan a contestar en mucha mayor

    medida que los no fumadores, quizs porque pueden pensar que la opinin

    vertida en la encuesta puede tener alguna inuencia en la administracin y

    puede conllevar una nueva subida del precio, entonces tal media se eleva arti-

    cialmente (mayor valor ms acuerdo) ya que ellos, que precisamente estarn

    en ms desacuerdo con la medida son los que principalmente no responden.

    Hay tres casos importantes en los que se pueden clasicar los valores

    faltantes:

    1. Ausentes completamente aleatorios (Missing Completely At Random o

    MCAR): si la distribucin de las ausencias no depende ni de la parte

    observada ni de la parte faltante, es decir, el mecanismo que genera

    los datos faltantes no depende de las variables de inters ni de ninguna

    otra variable que haya sido observada en el conjunto de datos.

    2. Ausentes aleatorios (Missing At Random o MAR): si la distribucin

    de las ausencias depende de la parte observada pero no de la parte

    faltante. El trmino MAR es algo confuso ya que da a entender que las

    29

  • ausencias ocurren por motivos aleatorios y, sin embargo, MAR real-

    mente signica que existe una relacin sistemtica entre una o ms

    variables observadas y la probabilidad de los valores perdidos.

    3. Ausentes no aleatorios (Missing Not At Random o MNAR): si la dis-

    tribucin de las ausencias depende tanto de la parte observada como

    de la faltante.

    Como ilustracin consideremos las variables edad e ingresos. Entonces los

    datos son MCAR si la probabilidad de ausencias es la misma para todos los

    individuos, independientemente de su edad o ingresos. Si la probabilidad de

    que los ingresos estn ausentes varan de acuerdo a la edad del encuestado

    (por ejemplo, ms ausentes cuanto mayor es la edad) pero no vara de acuerdo

    a los ingresos de los encuestados con la misma edad (por ejemplo, para una

    edad dada la distribucin de las ausencias es aleatoria), entonces las ausencias

    en la variable ingresos son MAR. Sin embargo, si la probabilidad de que los

    ingresos estn disponibles varan de acuerdo a los ingresos de aquellos con

    la misma edad (por ejemplo, ms ausencias para altos ingresos que para

    bajos ingresos en determinadas valores de edad), entonces las ausencias de

    la variable ingresos son MNAR. Naturalmente, MNAR es difcil de detectar.

    En la prctica suele ser difcil detectar el mecanismo que genera los valores

    faltantes exactamente ya que esto precisara el conocimiento de los valores

    perdidos.

    1.4.1. Diagnstico de la aleatoriedad

    Aunque la tentacin es asumir que los valores perdidos se han generado

    de manera completamente aleatoria, las graves consecuencias para la investi-

    gacin de que esto no sea as obligan a desarrollar estrategias para determinar

    si los valores ausentes son MCAR. El primer procedimiento para establecer si

    los valores perdidos guardan o no un patrn sistemtico se basa en la lgica

    de la investigacin. Si el patrn es sistemtico, los casos con valores perdi-

    dos debern tener un comportamiento distinto respecto de otras variables

    que en los casos sin valores perdidos. Por ejemplo, como son los fumadores

    quienes no han querido contestar principalmente a la pregunta de si deben

    aumentarse los impuestos, es probable que los casos con valores perdidos

    (principalmente fumadores) estn ms en desacuerdo con que, por ejemplo,

    no se permita fumar en lugares pblicos que los casos sin valores perdidos.

    Es evidente que el investigador no puede tener esta hiptesis a priori, y

    deber comprobar qu variables se comportan de manera distinta en los dos

    grupos para deducir la existencia o no de un patrn. De no existir variable

    30

  • cuya media sea distinta en los casos con y sin valores perdidos habr que

    asumir la aleatoriedad de los mismos. Para ello es necesario crear una variable

    cticia por cada variable que presente valores ausentes tal que tomar el

    valor 1 si el caso tiene un valor perdido en esta variable o 0 si no lo tiene.

    A continuacin se contrasta si la media de otras variables (por ejemplo,

    permitir o no fumar en lugares pblicos) es igual o distinta en el grupo de

    casos con valores perdidos en relacin al grupo que no los tiene mediante un

    estadstico t-Student para muestras independientes. Si se concluye que lasmedias no son signicativamente distintas en ambos grupos para la mayora

    de variables, entonces podramos decir que los valores perdidos no siguen un

    patrn dado. De la misma forma, la signicacin del contraste para diversas

    variables indicara la existencia de un patrn sistemtico, es decir, que los

    datos son MAR o MNAR.

    El enfoque de los tests t-Student tiene diversos inconvenientes a tener encuenta: la generacin de todos los posibles contrastes puede ser engorroso a

    menos que se disponga de una software adecuado que automatice el proceso

    (el mdulo de datos perdidos de SPSS los genera), los test no tienen en

    cuenta la posible correlacin entre las variables, los errores tipo I pueden

    inarse notablemente y puede haber grupos con muy pocos datos faltante

    (lo que hace decrecer la potencia de los tests y en ocasiones imposibilita la

    realizacin del test).

    Una alternativa multivariante a los test t es el test MCAR de Littleque simultneamente evala las diferencias de medias sobre cada variable.

    A diferencia de los tests t, el test MCAR de Little produce un test globalde MCAR sobre el conjunto completo de datos. Este test est disponible

    en el mdulo de datos perdidos de SPSS. Similarmente a los tests t, evalalas diferencias de medias sobre subgrupos de casos que comparten el mismo

    patrn de valores perdidos. El estadstico del test tiene la forma:

    2MCAR =

    JXj=1

    nj2j

    donde nj es el nmero de casos en el patrn j de datos perdidos y 2j es

    una distancia de Mahalanobis calculada sobre el patrn j. Este estadsticose distribuye aproximadamente segn una 2(

    Pj pj p), con pj el nmerode variables completas para el patrn j y p el nmero total de variables.Este test tambin adolece de un nmero de problemas, entre otros: no

    identica la variable especca que viola MCAR y tiene baja potencia, espe-

    cialmente cuando el nmero de variables que violan MCAR es pequeo.

    31

  • 1.4.2. Tratamiento

    El tratamiento ms sencillo es la eliminacin de las (listwise deletion) y

    realizar el anlisis con las restantes. Un nmero pequeo de las con entradas

    faltantes en la matriz de datos Y no constituye un problema serio ya quepodemos simplemente descartar cada una de estas las que tengan valores

    perdidos. De hecho, si existe aproximadamente un nmero de casos perdidos

    inferior al 5% del total de observaciones y pueden ser considerados MCAR,

    entonces el mtodo de eliminacin por las es relativamente seguro. Sin em-

    bargo, con este procedimiento, una pequea proporcin de datos ausentes

    que estn ampliamente distribuidos conducira a una substancial prdida de

    datos. Por ejemplo, en un conjunto grande de datos con n = 550 y p = 85, sinicamente un 1:5% de los 550 85 = 46750 medidas estuvieran ausentes,podran dar lugar a que casi la mitad de las las de Y estuvieran incom-pletas. Aunque la eliminacin por las a menudo produce un decremento

    importante del tamao muestral disponible, tiene importantes ventajas. En

    concreto, si los datos son MCAR conduce a estimadores insesgados.

    Una segunda opcin es la eliminacin por pares (pairwise deletion). Este

    mtodo busca pares de variables y usa una observacin nicamente si tiene

    valores para ambas variables. Las frecuencias, medias y desviaciones estnda-

    res son calculadas separadamente para cada par. Los elementos de la matriz

    de correlaciones (o covarianzas) se calculan para todos los datos disponibles.

    As, por ejemplo, si un encuestado informa de sus ingresos y antigedad en la

    empresa pero no de su edad, ste es incluido en la correlacin entre ingresos

    y antigedad pero no en las correlaciones que impliquen a edad. El problema

    con este enfoque es que puede dar lugar a matrices de correlaciones que no

    son denidas positivas. Adems, los anlisis pueden hacerse con diferentes

    conjuntos de datos, con diferentes tamaos muestrales y con diferentes erro-

    res estndares. Por tanto, no es un mtodo muy aconsejable. En cualquier

    caso, la aplicacin de este mtodo est condicionada al supuesto de que los

    valores perdidos son MCAR.

    La alternativa a la eliminacin es la imputacin, es decir, sustituir el valor

    ausente por alguna estimacin de su valor. Vamos a discutir dos mtodos de

    imputacin. Ambos mtodos asumen que los valores faltantes ocurren alea-

    toriamente, es decir, son MCAR. Si la ocurrencia o no de los valores faltantes

    est relacionada con los valores de las variables, entonces las tcnicas pueden

    no estimar adecuadamente a estos datos perdidos.

    El primer mtodo es sencillo: utilizar la media de los datos disponibles en

    la columna correspondiente como estimacin del dato ausente. Reemplazar

    una observacin por su media reduce la varianza y el valor absoluto de la

    32

  • covarianza. Por tanto, la matriz de covarianzas muestral S calculada a par-tir de la matriz de datos Y con medias imputadas por valores faltantes essesgada. Sin embargo, es denida positiva.

    La segunda tcnica es un enfoque de regresin. La matriz de datos Yes dividida en dos partes, una que contiene a todas las las con entradas

    faltantes y la otra con todas las las que estn completas. Supongamos que

    yij es la nica entrada ausente en la la i-sima de Y. Entonces, utilizandolos datos en la submatriz con las completas, yj es regresada sobre las otrasvariables para obtener un modelo ajustado del tipo:

    y^j = ^0 + ^1y1 + + ^j1yj1 + ^j+1yj+1 + + ^pypEntonces las entradas disponibles en la la i-sima son introducidas comovariables independientes en la ecuacin de regresin para obtener el valor

    predicho y^ij .El mtodo de regresin normalmente proporciona mejores resultados que

    el mtodo de las medias. Sin embargo, si las otras variables no estn alta-

    mente correladas con la que se pretende predecir, la tcnica de regresin es

    esencialmente equivalente a imputar medias. El mtodo de regresin subes-

    tima las varianzas y las covarianzas, aunque en menor grado que el mtodo

    basado en las medias.

    Existen otros procedimientos ms modernos de imputacin como el al-

    goritmo EM o la imputacin mltiple (que aparecen en el mdulo de impu-

    tacin mltiple de SPSS). No obstante, su estudio est fuera del alcance de

    este curso. Los mtodos de eliminacin por las o por pares y los mtodo de

    imputacin por la media o por regresin funcionan bien (proporcionan esti-

    madores insesgados y consistentes de las covarianzas y correlaciones) cuando

    los datos son MCAR. Si los datos no son MCAR se debe utilizar otros pro-

    cedimientos, como la estimacin EM.

    1.4.3. Ejemplo

    Un suministrador de telecomunicaciones desea conocer el uso que hacen

    sus clientes de los servicios prestados. Para ello dispone de una base de datos

    de clientes de la que extrae una muestra al azar de 1000 de ellos que se recoge

    en el chero europa. Las variables estudiadas fueron las siguientes:

    1. servicio: meses de servicio

    2. edad: en aos

    3. tiempo: aos viviendo en la direccin actual

    33

  • 4. ingresos: ingresos del hogar en miles

    5. empleo: aos en la empresa actual

    6. personas: nmero de personas en el hogar

    7. marital: estado civil (soltero/casado)

    8. educacion: (ESO,Bachillerato,Diplomado,Licenciado,Mster)

    9. jubilado: (si/no)

    10. sexo: (hombre/mujer)

    Se sabe que la base de datos est incompleta y se desea conocer si los

    valores perdidos lo son por motivos aleatorios o existe un patrn para ellos.

    La tabla 1.1 nos muestra algunas estadsticas univariantes: el nmero

    de valores presentes por variable y el de valores perdidos. La columna de

    porcentaje de valores perdidos muestra el porcentaje de casos con valores

    ausentes y suministra una buena medida de comparacin de valores perdidos

    entre variables, siendo la variable ingresos la que presenta el mayor nmero

    de observaciones faltantes (17.9%), mientras que edad es la que menos tiene

    (2.5%). As mismo, ingresos es la que tiene un mayor nmero de valores

    extremos (71 por encima del lmite superior).

    N Media Desv. tp. Perdidos % N

    o

    de extremos

    Bajos Altos

    servicio 968 35.56 21.26 32 3.2 0 0

    edad 975 41.75 12.57 25 2.5 0 0

    tiempo 850 11.47 9.96 150 15.0 0 9

    ingresos 821 71.14 83.14 179 17.9 0 71

    empleo 904 11.00 10.11 96 9.6 0 15

    personas 966 2.32 1.43 34 3.4 0 33

    marital 885 115 11.5

    educacion 965 35 3.5

    jubilado 916 84 8.4

    sexo 958 42 4.2

    Nmero de casos fuera del rango (Q1 1:5 IQR;Q3 + 1:5 IQR)

    Cuadro 1.1: Estadsticas descriptivas univariantes. Las variables indicadoras

    con menos del 5% de los valores perdidos no se muestran.

    34

  • La tabla 1.2 [pg. 40] contiene los contrastes t y permite identicar lasvariables cuyo patrn de valores faltantes puede estar inuenciado por varia-

    bles cuantitativas. Se observa que los encuestados ms mayores son menos

    propensos a informar de sus niveles de ingresos. Cuando un valor de ingresos

    est perdidos, la edad media es 49.73, comparada con 40.01 cuando el dato

    de ingresos est presente. De hecho, la ausencia de ingresos parece afectar

    a las medias de diversas variables cuantitativas (todos los contrastes t sonsignicativos). Esto es indicativo de que los datos no son MCAR.

    La tabla 1.3 [pg. 41] muestra la tabulacin cruzada de las variables

    categricas frente a las indicadoras dando una informacin similar a la pro-

    porcionada por los contraste t. En este caso, las variables indicadoras sonutilizas para calcular frecuencias en cada categora de la variable indicadora.

    Los valores pueden ayudar a determinar si existen diferencias en valores per-

    didos entre categoras. Como ilustracin, a continuacin incluimos slo la de

    jubilado. Se observa que los jubilados son poco propensos a informar de sus

    ingresos en comparacin con los no jubilados: slo un 46.3% de los jubilados

    han aportado el dato de sus ingresos, mientras que el porcentaje de ellos que

    no estn jubilados y han proporcionado sus ingresos fue de 83.7%.

    Por ltimo, realizamos el test MCAR de Little: 2MCAR = 179:83 (p 0). Todo lo anteriormente expuesto conrma que los datos no pueden serconsiderados MCAR y, por tanto, los procedimientos explicados para tratar

    los valores perdidos no pueden ser aplicados.

    1.5. Observaciones atpicas

    Los outliers o casos atpicos son aquellas observaciones para las que una

    o varias variables toman valores extremos que las hace diferir del compor-

    tamiento del resto de la muestra y hacen sospechar que han sido generadas

    por mecanismos distintos. La deteccin de los valores atpicos es importante

    por las consecuencias que pueden tener sobre el anlisis:

    i) distorsionan los resultados al oscurecer el patrn de comportamiento

    de los dems casos y obtenerse resultados que, sin ellos, seran comple-

    tamente distintos, y

    ii) pueden afectar a gravemente a la propiedad de normalidad, una de las

    condiciones de aplicabilidad de muchas de las tcnicas de las tcnicas

    multivariantes (especialmente las inferenciales).

    De forma genrica, las causas que generan la existencia de valores atpicos

    en un chero de datos se dividen en dos grupos: los ocasionados por errores

    35

  • de los datos y los ocasionados por la inevitable y necesaria variabilidad de

    esos datos. Ms especcamente, las causas pueden ser:

    i) errores en la recogida de los datos o en su introduccin en las bases de

    datos,

    ii) errores intencionados en la respuesta al cuestionario por parte del en-

    trevistado,

    iii) errores en el muestreo, que se concretan en introducir en la muestra a

    individuos pertenecientes a una poblacin distinta a la objetivo,

    iv) casos pertenecientes a la poblacin objetivo que se desea muestrear

    pero que por la variabilidad inherente a las muestras dieren del resto

    de observaciones.

    Posteriormente estudiaremos procedimientos univariantes y multivarian-

    tes para detectar esos valores atpicos. Una vez identicados la cuestin que

    se plantea es qu hacer con ellos. La respuesta depende del tipo de outlier.

    Si se est seguro de que corresponde a un error en la introduccin de los

    datos, se puede intentar corregir o imputar. Otra alternativa es su elimina-

    cin. En el caso de una observacin atpica legtima, que no es producto de

    un error, entonces la decisin es ms difcil ya que existe controversia en la

    literatura. Existen distintas recomendaciones, aunque todas ellas tienen sus

    detractores. Hay autores que deenden su eliminacin para que las conclu-

    siones sean correctas para la mayora de la poblacin y otros que deenden

    que la eliminacin es el ltimo recurso y que se puede intentar suavizar su

    inuencia transformando las variables, lo que puede no tener sentido ya que

    las variables originales pueden tener una unidad de medida lgica que se

    pierde con la transformacin. Una alternativa es la utilizacin de procedi-

    mientos robustos especialmente diseados para amortiguar la inuencia de

    estas observaciones.

    1.5.1. Deteccin de casos atpicos

    La deteccin de casos atpicos puede realizarse desde una perspectiva uni-

    variante (analizando si para una variable dada algunos casos toman valores

    anormales) o multivariante (el vector de datos diere notablemente del cen-

    troide o vector media muestral). Ha de tenerse en cuenta que un caso puede

    no tomar valores atpicos en dos variables consideradas individualmente, pe-

    ro s hacerlo si se consideran conjuntamente. Por ejemplo, un ejecutivo con

    poca experiencia puede ser una unidad muestral lgica en una investigacin y

    36

  • un sujeto con un alto salario tambin, pero un ejecutivo con baja experiencia

    y alto salario ser, con casi toda seguridad, un caso atpico.

    El procedimiento univariante ms extendido es considerar atpicos aque-

    llos casos cuyo valor estandarizado supere un valor determinado. En general,

    se suele considerar atpico aquel valor que diste de la media ms de tres

    desviaciones tpicas: jyij yj j 3sj o, equivalentemente, jzij j 3. Si ladistribucin fuera normal esto implicara que menos del 0.25% de los casos

    puede estar fuera de ese intervalo. Algunos autores recomiendan utilizar 2.5

    en lugar de 3 para muestras de tamao moderado (menos de 80 casos).

    Un procedimiento recomendado para la deteccin univariante de outliers

    es el test de Grubbs. Este contraste est basado en la hiptesis de normalidad

    y contrasta la hiptesis nula de no existencia de valores atpicos entre los

    datos. El estadstico de Grubbs es:

    G =jyij yj j

    sj

    y rechazaremos la hiptesis nula si:

    G >n 1p

    n

    vuut t2n2;=2nn 2 + t2n2;=2nUna alternativa muy til a los procedimientos numricos de deteccin

    univariantes es un grco de caja (boxplot). Este grco representa una caja

    en la que la base inferior es el primer cuartil Q1, la superior el tercero Q3y entre medias se muestra la mediana Q2. Desde la base inferior y desde lasuperior se trazan sendas lneas, denominadas bigotes, con longitudes Q1 1:5 IQR y Q3 + 1:5 IQR, respectivamente, y donde IQR = Q3 Q1 esel rango intercuartlico. Las longitudes de los bigotes son acortados bajo dos

    supuestos: si el valor mnimo en los datos es superior aQ11:5IQR entoncesel bigote inferior toma como extremo este valor mnimo, o si el valor mximo

    en los datos es inferior a Q3 + 1:5 IQR en cuyo caso el bigote superior esacortado hasta este mximo. Sin embargo, si existen valores en los datos que

    superen el extremo del bigote superior o sean inferiores al extremo del bigote

    inferior estaremos ante valores que son atpicos u outliers. En concreto, un

    outlier extremo es aquel caso que est ms all de Q13IQR o Q3+3IQRy son marcados con una equis; mientras que los outliers son casos que estn

    ms all de Q1 1:5 IQR o Q3 + 1:5 IQR pero no son extremos y sonmarcados con un crculo.

    En muchos procedimientos no es tan problemtico que un caso sea atpi-

    co respecto a una variable sino respecto al conjunto de las que se incorporan

    37

  • al anlisis. Ello hace necesario buscar un mtodo que contemple simultnea-

    mente todas las variables para determinar si algn caso tienen un compor-

    tamiento anmalo. Un procedimiento bastante intuitivo consiste en calcular

    la distancia de cada caso al centroide del conjunto de los datos. Cuanto ms

    lejos est un caso de la media de las observaciones, ms probable es que

    sea un outlier. La distancia habitualmente empleada para detectar los casos

    atpicos es la de Mahalanobis:

    D2i = (yi jyi)0S1(yi jyi); j = 1; : : : ; n

    o en forma vectorial:

    D2 = diagfYcS1Y0cg = (D21; : : : ; D2n)

    Bajo hiptesis de normalidad multivariante se verica que Di 2(p)(sin elevar al cuadrado). Para declarar a una observacin como atpica des-

    de un punto multivariante conviene ser bastante conservador y slo hacerlo

    cuando la probabilidad Di 2p;0:01, con 2p;0:01 el cuantil que deja una pro-babilidad en la cola superior de 0.01.

    1.5.2. Ejemplo

    Consideremos de nuevo el chero europa con las 26 observaciones y es-

    tudiemos los casos atpicos de las 3 primeras variables: Agr, Min y Man. En

    la gura 1.2 aparece a la izquierda una representacin grca de los datos

    tipicados para las tres variables. Se observa que nicamente la variable Agr

    posee una observacin, la 18, que tipicada supera el valor de 3. Sin em-

    bargo, si reducimos los lmites a 2.5 dado el tamao de la matriz de datos,

    entonces tambin se declarara a la observacin 18 de Man como atpica. A

    la derecha aparecen los tres grcos de caja. La variable Min no posee casos

    ms extremos que los bigotes. La variable Agr posee dos (la ms extrema es

    la 18 y la menos la 26) y la variable Man una tambin en la observacin 18.

    Realizamos con el paquete outliers de R el test de Grubbs para Agr:

    G = 3:0662 (p = 0:00825), declarando a la observacin y18;1 = 66:8 comoatpica. Para Man: G = 2:7266 (p = 0:0413) declarando a y18;3 = 7:9 comoatpico. Por ltimo, Min no posee valores atpicos. Observando, el chero de

    datos se detecta que el caso 18 corresponde a Turqua que posee un porcentaje

    de empleados en la agricultura muy alto y un porcentaje de empleados en

    industria muy bajo en relacin al resto de pases europeos.

    Desde una perspectiva multivariante, calculamos las distancias de Maha-

    lanobis Di, i = 1; : : : ; 26, y las representamos en la gura 1.3 junto con el

    38

  • 0 5 10 15 20 25

    3

    2

    1

    01

    23

    AgrManMin

    Agr Min Man

    010

    2030

    4050

    60

    Figura 1.2: Izqda: Grco de valores tipicados. Dcha: Grcos de caja.

    cuantil de una 23;0:01. Se puede observar que ninguna supera la lnea pun-teada que representa el valor de este cuantil.

    0 5 10 15 20 25

    02

    46

    810

    12

    casos

    D_i

    Figura 1.3: Distancias de Mahalanobis y lnea discontinua con altura igual

    al cuantil 23;0:01.

    39

  • serv. edad tiem. ingr. emp. pers.

    tiempo t .4 .3 . 3.5 1.4 1.0

    gl 202.2 192.5 . 313.6 191.1 199.5

    no pres. 819 832 850 693 766 824

    no perdido 149 143 0 128 138 142

    Media(pres.) 35.68 41.79 11.47 74.07 11.20 2.34

    Media(perd.) 34.91 41.49 . 55.27 9.86 2.21

    ingresos t 5.0 8.3 3.9 . 5.9 3.6

    gl 249.5 222.8 191.1 . 203.3 315.2

    no pres. 793 801 693 821 741 792

    no perdido 175 174 157 0 163 174

    Media(pres.) 33.93 40.01 10.67 71.14 9.91 2.39

    Media(perd.) 42.97 49.73 14.97 . 15.93 2.02

    empleo t 1.0 .4 .7 .5 . .3

    gl 110.5 110.2 97.6 114.9 . 110.9

    no pres. 877 881 766 741 904 874

    no perdido 91 94 84 80 0 92

    Media(pres.) 35.34 41.69 11.37 71.49 11.00 2.31

    Media(perd.) 37.70 42.27 12.32 67.91 . 2.37

    marital t .0 1.8 1.2 .8 .9 2.2

    gl 148.1 149.5 138.8 121.2 128.3 134.2

    no pres. 856 862 748 728 805 857

    no perdido 112 113 102 93 99 109

    Media(pres.) 35.56 42.00 11.61 70.38 11.10 2.28

    Media(perd.) 35.57 39.85 10.43 77.07 10.17 2.61

    jubilado t .6 .4 .4 .3 . .2

    gl 95.4 94.4 84.0 93.2 . 99.0

    no pres. 888 893 777 751 904 885

    no perdido 80 82 73 70 0 81

    Media(pres.) 35.44 41.70 11.42 71.33 11.00 2.32

    Media(perd.) 36.89 42.29 11.96 69.11 . 2.30

    Cuadro 1.2: Contrastes t. Las variables indicadoras con menos del 5% de losvalores perdidos no se muestran.

    40

  • Jubilado

    Total No S Perdidos

    tiempo Presente Recuento 850 744 33 73

    Porcentaje 85.0 85.0 80.5 86.9

    Perdidos % perd. sistema 15.0 15.0 19.5 13.1

    ingresos Presente Recuento 821 732 19 70

    Porcentaje 82.1 83.7 46.3 83.3

    Perdidos % perd. sistema 17.9 16.3 53.7 16.7

    empleo Presente Recuento 904 864 40 0

    Porcentaje 90.4 98.7 97.6 .0

    Perdidos % perd. sistema 9.6 1.3 2.4 100.0

    marital Presente Recuento 885 777 38 70

    Porcentaje 88.5 88.8 92.7 83.3

    Perdidos % perd. sistema 11.5 11.2 7.3 16.7

    Cuadro 1.3: