clase multivaariado 01

Universidad Nacional de Trujillo

Departamento Académico de CC.BB

ALUMNOS:

Armando

ANALISIS MULTIVARIADO

DISTICA

Analisis Multivariado:

• El Análisis Multivariado es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos de diversas variables medidas para cada individuo ú objeto estudiado.

• Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo información que los métodos estadísticos univariados y bivariados son incapaces de conseguir.

• Este análisis permite obtener una mayor comprensión de fenómenos complejos sea cual sea el ámbito que se esté considerando.

• Poseen mucha mayor potencia y versatilidad, que las técnicas univariantes y bivariantes ya que representan mucho mejor la realidad.

Spearman (1904) y Pearson (1901) trataron de definir una variable que midiese la cantidad de inteligencia y que fuese un compendio o resumen (de hecho una combinación lineal) de los componentes de la misma. Esto sería el origen de lo que luego se denominó el método de los Componentes Principales. Posteriormente se han ido desarrollando numerosas técnicas para variables tanto cuantitativas como categóricas.

HISTORIASu origen histórico se encuentra en los primeros años del siglo XX. Surge dentro del marco de la psicología aplicada como una teoría matemática que trata de explicar el concepto de inteligencia. Es decir, se supone que la inteligencia constituye un compendio de diversas habilidades y conocimientos y se suele medir mediante aspectos o manifestaciones parciales.

Clasificación de los métodos

multivariados

Problemas de interdependencia o creación de índices (análisis factorial, clúster y escalamiento).

Problemas de causalidad o asociación (análisis de varianza, regresión y discriminante).

La investigación EMPÍRICA se ocupa de fenómenos multidimensionales

Métodos multivariados

Su clasificación

Métodos de interdependencia

Descripción de Dimensiones: posibilitan la identificación de dimensiones o conceptos complejos subyacentes (Análisis Factorial, Componentes Múltiples, etc.).

Clasificación de unidades o variables: permiten clasificar unidades individuales o colectivas o variables con el fin de crear tipologías, cluster o clases de individuos (Cluster, Escalamiento, etc.).

Utilidad de este tipo de métodos:

Evalúan correlaciones y sintetiza información

Muestran la estructura de los datos según criterio

Establecen clasificaciones y/o genera valores índices

Técnicas de Análisis ANÁLISIS FACTORIAL

ANÁLISIS DE CORRESPONDENCIAS ANÁLISIS DE CLUSTER

Métodos de interdependencia

Análisis factorial

Busca una síntesis del fenómeno objeto de estudio. Logra resumir la información e identificar lo fundamental de la misma, revelando la estructura subyacente de los datos.

Algunos ejemplos:

Identificar los factores o componentes principales que intervienen en la construcción de la imagen de una marca o de una organización, de un comportamiento o de una actitud.

ANÁLISIS DE CASOS

Análisis factorial

Identificación de estructuras subyacentes

Reducción de información

EN LA INVESTIGACIÓN SOCIAL SE TRABAJA CON MUCHOS CONCEPTOS COMPLEJOS QUE

NO SON DIRECTAMENTE OBSERVABLES

Creación de variables resumen

USOS MÁS FRECUENTES

Análisis factorial

REQUISITOS PARA SU UTILIZACIÓN

Selección de variables que formen conjuntos coherentes (FACTORES)

Variables en escala métrica

Variables no métricas (ESTADARIZACIÓN DE SUS VALORES)

CANTIDAD DE CASOS: mínimo de 100 casos

CIERTA CORRELACIONES ENTRE LAS VARIABLES OBSERVABLES

Análisis factorial

ETAPAS BÁSICAS

a) FASE DE PREPARACIÓN DE VARIABLES. ANÁLISIS DE CORRELACIÓN.

b) MÉTODO DE COMPONENTES. EXTRACCIÓN Y SELECCIÓN DE LOS FACTORES.

c) GRÁFICO DE SEGMENTACIÓN. VALORES PROPIOS Y VARIANZA EXPLICADA. MATRIZ DE CARGAS FACTORIALES.

d) INTERPRETACIÓN: ROTACIÓN VARIMAX Y REPRESENTACIÓN GRÁFICA

e) EVALUACIÓN Y VALORACIÓN DEL ANÁLISIS

Análisis de Componentes PrincipalesCaracterización de los factores: Saturaciones

Factor 1 Acceso deficitario a la educación y la vivienda

Extracción de los factores principales

Gráfico de Sedimentación

Component Number

252321191715131197531

Análisis de Componentes Principales

Análisis de correspondencia

Busca descubrir y describir las dimensiones fundamentales de un fenómeno pero con la particularidad de que trabaja con variables categóricas que proporcionan mapas perceptuales que permiten una representación fácilmente comprensible.

Algunos ejemplos:

Posicionamiento de productos y de atributos.

ANÁLISIS DE CASOS

RELACIONES ENTRE VARIABLES CATEGÓRICAS QUE SE ANALIZAN MEDIANTE MAPAS

PERCEPTUALES Y EFECTOS FACTORIALES

A TRAVÉS DE FACTORESREDUCE LAS DIMENSIONES

DE ANÁLISIS

Paso intermedio para la aplicación de otras técnicas como el

análisis de cluster, regresión y análisis

discriminante.

Permite estudiar las formas que adoptan las relaciones entre

las variables

ETAPAS BÁSICASANÁLISIS DE

CORRESPONDENCIAS SIMPLES

ANÁLISIS DE CORRESPONDENCIAS

MÚLTIPLES

Preparar tablas de contingencia: Perfiles filas y columnas

Distancias chi-cuadrado entre filas y columnas Valores propios e inercia de valores propios Contribuciones absolutas y relativas Coordenadas de filas y columnas Representación factorial de filas y columnas

Tablas bidimensionales Tablas multidimensionales

Análisis cluster

Partiendo de un conjunto de variables se obtienen subconjuntos o grupos, ya sea de casos ya sea de variables. Se busca establecer grupos HOMOGÉNEOS internamente y HETEROGÉNEOS entre ellos.

Algunos ejemplos:

En el campo del Marketing es útil para clasificar e identificar segmentos, tipos de productos, tipos de consumidores, etc.

ANÁLISIS DE CASOS

Análisis cluster

Responde a la necesidad de:

DIFERENCIAR

CLASIFICAR

SEGMENTAR (TIPOLOGÍAS)

CASOS /

INDIVIDUOSVARIABLES /

CARACTERÍSTICAS

SE PUEDEN AGRUPAR

Análisis cluster

CRITERIOS PARA DISTINGUIR GRUPOS

Criterio estricto

(dicotómico)

Criterio estadístico

(probabilidad)

Se busca formar grupos mutuamente excluyentes y colectivamente exhaustivos, pero los criterios de agrupamiento y la medida de distancia pueden producir cambios en la estructura de los grupos

Análisis cluster

REQUISITOS y ETAPAS

Representatividad de la MUESTRA

Controlar la MULTICOLINEALIDAD entre las variables

Definir MÉTODO y medidas de distancia para la formación de grupos

Análisis de distancias euclídeas (diagrama en árbol), esquemas de agrupación y de la media de los grupos.

Delimitación del NÚMERO de grupos significativos.

Análisis de ClusterCluster Aglomerado Media Máx. Mín. Media Máx. Mín. Media Máx. Mín.

Gran Buenos Aires 49,0 43,2 11,9 Gran La Plata 46,1 40,2 12,8 Bahía Blanca - Cerri 45,8 42,0 8,4 Gran Rosario 45,5 39,2 13,7 Gran Córdoba 45,3 41,2 9,2 Neuquen-Plottier 45,2 40,6 10,1 Ushuaia - Río Grande 47,7 43,2 9,5 Mar del Plata y Batán 48,4 43,1 11,0 Río Cuarto 43,7 39,4 9,7 Total 46,3 49,0 43,7 41,3 43,2 39,2 10,7 13,7 8,4 Gran Resistencia 35,4 33,4 5,6 Formosa 33,3 31,8 4,5

Total 34,4 35,4 33,3 32,6 33,4 31,8 5,1 5,6 4,5 Gran Santa Fe 39,2 36,4 7,2 Gran Paraná 41,3 38,1 7,7 Posadas 39,0 35,7 8,5 Corrientes 37,6 34,6 8,0 Concordia 40,0 35,9 10,1 Santiago del Estero- La Banda 40,5 36,8 9,2 Gran Catamarca 40,9 36,6 10,5 Salta 42,5 37,1 12,6 Gran San Juan 42,9 38,7 9,8 Gran Tucumán-Tafí Viejo 40,5 35,4 12,6 Total 40,4 42,9 37,6 36,5 38,7 34,6 9,6 12,6 7,2 Comodoro Rivadavia- Rada Tilly 44,0 40,7 7,4 Gran Mendoza 45,8 42,6 6,9 Jujuy- Palpalá 43,0 39,9 7,2 Río Gallegos 44,5 43,8 1,7 La Rioja 43,1 40,0 7,2 San Luis - El Chorrillo 44,1 43,5 1,2 Santa Rosa - Toay 41,2 39,6 4,0 Total 43,7 45,8 41,2 41,4 43,8 39,6 5,1 7,4 1,2

Tasa de Actividad Tasa de Empleo Tasa de Desocupación

Análisis de Cluster

Anexo 3. Tasas del Mercado de Trabajo, Bienestar y Desigualdad por grupos y aglomerados. Variación Porcentual 1991-2001.

Aglomerados agrupados por Grupo

Activi-dad

Empleo Pleno

Subempl

Desempl

I ng. Tot. Fliar.

I ng. x Perc.

I ng. x Eq. Adul.

Coef. Sen

Coef.Gini

Grupo 1

Río Gallegos 9.5 6.8 178.4 -26.0 15.6 11.9 35.1 21.8 -12.2

Media Grupo 1 9.5 6.8 85.7 -26.0 15.6 11.9 35.1 21.8 -12.2

Ushuaia y Río Grande

-2.3 -9.8 56.8 8.5 -23.1 -23.6 -13.7 -22.5 -1.7

Comodoro Rivadavia

0.3 -9.6 64.5 37.2 -2.6 4.5 14.5 -12.0 24.4 Grupo 2

Gran San Miguel de Tuc.-Tafí Viejo

1.1 -14.7 43.1 58.7 -3.3 0.4 11.3 -1.0 -4.7

Media Grupo 2 -0.3 -11.4 54.8 34.8 -9.7 -6.2 4.0 -11.8 6.0

Gran Córdoba -2.1 -20.9 53.8 188.2 -20.3 -17.0 -9.7 -21.3 3.1

Gran Mendoza 0.3 -20.0 79.1 207.6 -10.8 -6.5 -3.7 -15.1 10.9

San Luis y El Chorrillo

-2.4 -22.5 162.2 124.7 -28.8 -21.3 -20.8 -31.1 7.4

Grupo 3

San Salvador de J ujuy y Palpalá

6.1 -19.2 38.6 526.7 -7.4 -7.8 -1.5 -12.8 13.2

Media Grupo 3 0.5 -20.6 83.4 261.8 -16.8 -13.1 -8.9 -20.1 8.7

Ciudad de Bs. As. 10.1 -9.3 116.5 257.8 20.4 21.5 25.2 14.2 10.8

Gran La Plata 13.3 -7.0 90.7 163.9 6.6 10.4 16.9 3.8 7.3

Paraná 15.2 -10.3 90.0 264.0 -28.0 -23.0 -20.9 -28.2 0.4

Grupo 4

Gran San Juan 12.0 -11.5 80.2 162.3 -11.1 -10.7 -2.0 -13.6 6.2

Media Grupo 4 12.6 -9.5 75.5 212.0 -3.1 -0.4 4.8 -6.0 6.2

Salta 15.9 -17.8 164.0 351.2 -27.4 -27.8 -18.8 -33.1 16.8

Santa Rosa y Toay 11.6 -13.6 300.5 528.4 -4.6 0.4 11.0 -15.0 32.0

Gran Rosario 9.2 -20.5 131.9 164.9 -22.5 -20.9 -16.6 -24.5 5.6

Partidos del Conurbano

8.5 -24.6 171.2 69.4 -14.3 -12.0 -7.2 -21.5 19.4

Grupo 5

Neuquén 10.7 -14.2 217.1 184.3 -19.2 -16.8 -7.6 -16.4 -6.9

Media Grupo 5 11.2 -18.1 196.9 259.6 -17.6 -15.4 -7.8 -22.1 13.4

Fuente: Elaboración propia, con base en datos de la EPH, I NDEC (Octubre 1991-2001).

Problemas de causalidad

Diferencian entre variables (a) explicativas, independientes o predictivas, (b) variables a explicar o dependientes, y (c) variables control o intervinientes.

La distinción entre variables dependientes e independientes debe efectuarse con arreglo a fundamentos teóricos, por conocimiento o experiencia y estudios anteriores.

Métodos de tipo:

EXPLICATIVOS /PREDICTIVOS

Utilidad de este tipo de métodos

Mide la fuerza y sentido de relaciones parciales Predice valores a partir de una serie de variables Explica el comportamiento de una o más variables Evalúa la bondad de ajuste de un modelo teórico a los

datos MÉTODOS

ANÁLISIS DE VARIANZA (ANOVA) ANÁLISIS DE REGRESIÓN ANÁLISIS DISCRIMINANTE

REGRESIÓN LOGÍSTICA

Problemas de causalidad

Análisis de regresión

Es suceptible de utilizar cuando contamos con una variable dependiente métrica y variables independientes métricas ó categóricas (ficticia).

Explica el comportamiento de la variable dependiente (ej: ventas, gastos, consumo),

Anticipa sus valores en función de los atributos de las variables independientes (ej: precio, gasto en publicidad, atributos personales, segmento de mercado) y

Estima las incidencias que cada una de éstas tiene en la variable dependiente.

ANÁLISIS DE CASOS

TIPOS DE DATOS

Los datos que se utilizan en la aplicación de esta técnica pueden ser:

SERIES DE TIEMPO y

DATOS DE CORTE TRASVERSAL

Modelo de Regresión Lineal Simple (MLS) Figura una sola variable explicativa, el

comportamiento de la variable Y se puede explicar a través de la variable X

Modelo de Regresión Múltiple La variable dependiente viene explicada por varias

variables independientes.

HIPÓTESIS BÁSICAS

Se supone que la forma funcional que liga

la variable explicada son las variables

explicativas es de tipo LINEAL al menos en

los parámetros.

Las variables explicativas deben ser

linealmente INDEPENDIENTES, es decir, que

no hay multicolinalidad exacta.

REQUISITOS Y ETAPAS

Control de distribución de errores

Estimación de coeficientes e interpretación

Intervalos de confianza y prueba de hipótesis

Bondad de ajuste

Predicción

Variables ficticias

El ingreso horario de los ocupados (entre 25 y 45 años) no se ve afectados por el sexo sino que depende de la cantidad de años de instrucción

Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO

Años de estudio (aprox.)

Varón

EJEMPLO CORRELACIÓN

Total Ocupados entre 25 y 45 años (con ingresos)

Correlationsa

1,000 ,354** ,365** -,072**

, ,000 ,000 ,000

,354** 1,000 ,945** -,223**

,000 , ,000 ,000

,365** ,945** 1,000 -,217**

,000 ,000 , ,000

-,072** -,223** -,217** 1,000

,000 ,000 ,000 ,

Pearson Correlation

Sig. (2-tailed)

Pearson Correlation

Sig. (2-tailed)

Pearson Correlation

Sig. (2-tailed)

Pearson Correlation

Sig. (2-tailed)

Ingreso horario de laocupación ppal

Nivel de Instrucción

Cantidad de hijosmenores de 12 años

Ingresohorario de

laocupación

Años deestudio(aprox.)

Nivel deInstrucción

Cantidadde hijosmenores

de 12 años

Correlation is significant at the 0.01 level (2-tailed).**.

Listwise N=10338a.

BONDAD DE AJUSTE DEL MODELO (R2)

Variables Entered/Removedb

Sexo (dummy: 0=Varón)a , Enter

Años de estudio (aprox.)a , Enter

Model1

Variables EnteredVariablesRemoved Method

All requested variables entered.a.

Dependent Variable: Ingreso horario de la ocupación ppalb. Model Summary

,014a ,000 ,000 3,3032

,359b ,129 ,129 3,0832

Model1

R R SquareAdjustedR Square

Std. Errorof the

Estimate

Predictors: (Constant), Sexo (dummy: 0=Varón)a.

Predictors: (Constant), Sexo (dummy: 0=Varón),Años de estudio (aprox.)

ANÁLISIS DE VARIANZA DE LOS MODELOS

ANOVAc

22,486 1 22,486 2,061 ,151a

112779,9 10336 10,911

112802,4 10337

14557,248 2 7278,624 765,683 ,000b

98245,112 10335 9,506

112802,4 10337

Regression

Residual

Regression

Residual

Model1

Sum ofSquares df

MeanSquare F Sig.

Predictors: (Constant), Sexo (dummy: 0=Varón)a.

Predictors: (Constant), Sexo (dummy: 0=Varón), Años de estudio (aprox.)b.

Dependent Variable: Ingreso horario de la ocupación ppalc.

COEFICIENTES B Y PRUEBAS T DE SIGNIFICANCIA

Coefficientsa

3,476 ,043 80,455 ,000

-,0941 ,066 -,014 -1,436 ,151

,271 ,091 2,964 ,003

-,426 ,062 -,064 -6,898 ,000

,306 ,008 ,362 39,102 ,000

(Constant)

Sexo (dummy: 0=Varón)

(Constant)

Sexo (dummy: 0=Varón)

Model1

B Std. Error

UnstandardizedCoefficients

Standardized

Coefficients

t Sig.

Dependent Variable: Ingreso horario de la ocupación ppala.

Detección de MULTICOLINEALIDAD a través de tablas de correlación simple entre las variables independientes. Seleccionar las variables con menor correlación o transformar en variables ficticias no correlacionadas.

Detección de la HETEROSCEDASTICIDAD /a través de gráficos de residuos є para cada valor de ŷ. Estandarización de la variable dependiente Y.

Detección de la AUTOCORRELACIÓN DE ERRORES / a través de la prueba Durbin-Watson. El valor 2 indica no autocorrelación. Corrección de observaciones o eliminación de casos.

Modelos de Regresión LinealControl de Supuestos

Análisis de regresión logística

Es un caso particular de regresión en el cual la variable dependiente es de naturaleza dicotómica y las independientes son cuantitativas o categóricas y no exige restricciones tan fuertes sobre la distribución de las variables independientes. Estima y explica las probabilidades de que un evento ocurra.

Estas peculiaridades la hacen interesante para situaciones en las que no cabe aplicar la regresión lineal.

Algunos ejemplos:

Identificar los principales factores que pueden influir en aumentar la probabilidad de que un nuevo producto sea introducido con éxito en el mercado.ANÁLISIS DE CASOS

Permite construir un MODELO EXPLICATIVO a partir de un conjunto de variables independientes de tipo categóricas o continuas (estado civil, ingresos, nivel de estudios, edad y números de hijos) y una variable dicotómica o binaria que solo definen opciones (contratar un servicio o no, consumir determinado producto o no, etc.)

Ejemplo: En qué medida ciertas características socio-

demográficas influyen en que un individuo contrate un nuevo servicio de televisión por cable.

¿En qué medida la aceptación de un producto está relacionado con el nivel de ingresos del cliente?

REQUISITOS Y ETAPAS

Proceso de codificación de las variables independientes categóricas

a) Codificación de variable dependientes en 0 y 1

b) Significancia de los coeficientes de regresión

c) Significancia global del modelo

d) Bondad de ajuste y eficacia predictiva

e) Estimación de probabilidades parciales y conjuntas

f) Métodos de selección de las variables independientes (INTRODUCIR Y ELIMINACIÓN POR PASOS)

Modelos de Regresión LogísticaANÁLISIS DE UN EJEMPLO

• Classification Table for XCDEA• The Cut Value is ,78

Observed

Predicted

Activo Inactivo Percent CorrectA I

Activo A 6.774 5.130 56,91%

Inactivo I 458 2.985 86,70%

Overall 63,59%

Variable B S.E. Wald Df Sig R Exp(B)

H13(1) 2,1547 ,0535 1620,21 1 ,0000 ,3147 8,6251

XMEN5(1 ,2425 ,0424 32,7129 1 ,0000 ,0434 1,2744

Constant -2,7914 ,0516 2926,26 1 ,0000

H13(1) 1,7112 ,0626 746,165 1 ,0000 ,2301 5,5357

XMEN5 -,8638 ,1170 54,4647 1 ,0000 -,0611 ,4216

INT_1 1,3302 ,1262 111,185

1 ,0000 ,0881 3,7818

Constant -2,4388 ,0549 1974,89 1 ,0000

Beginning Block Number 2. Method: Enter• Variable(s) Entered on Step Number• 1.. H13 * XMEN5

Observed

Predicted

Activo Inactivo Percent CorrectA I

Activo A 7.557 4.347 63,48%

Inactivo I 620 2.823 81,99%

Overall 67,64%

H13(1) -1,7161 ,0634 732,350 1 ,0000 -,2290 ,1798

XMEN5 1,0891 ,1182 84,8889 1 ,0000 ,0771 2,9716

INT_1 -1,3462 ,1270 112,346 1 ,0000 -,0890 ,2602

XQUINTI ,3088 ,0168 339,416 1 ,0000 ,1556 1,3618

XH12 ,2411 ,0451 28,5608 1 ,0000 ,0437 1,2726

XEDAD2 -,0031 ,0006 23,1655 1 ,0000 -,0390 ,9969

Constant -2,8649 ,7656 14,0034 1 ,0002

clase multivaariado 01

Documents

01 clase energia_y_materia

clase 01 tgp

clase 01 vida

notas clase 01

clase 01 presentacion

hermeneutica - clase 01

clase 01-09

m1a1 clase 01

clase 9_sap_2015-01

clase 01 geopolitica

clase semana 01

clase 01 biocel

clase 01-2.0

clase 01 bi-01

fd clase 01

proyect clase 01

clase 01 mecanica_solidos x clase uno.pptx

clase 01 -

clase 01 - electrostática

clase 01 estucturaycomposicitejidosmineralizados09