clase multivaariado 01
Post on 15-Jun-2015
2.467 Views
Preview:
TRANSCRIPT
1
Universidad Nacional de Trujillo
Departamento Académico de CC.BB
Universidad Nacional de Trujillo
Departamento Académico de CC.BB
ALUMNOS:
Armando
2
ANALISIS MULTIVARIADO
Universidad Nacional de Trujillo
Departamento Académico de CC.BB
Universidad Nacional de Trujillo
Departamento Académico de CC.BB
ESTA
DISTICA
Analisis Multivariado:
• El Análisis Multivariado es el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos de diversas variables medidas para cada individuo ú objeto estudiado.
• Su razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio obteniendo información que los métodos estadísticos univariados y bivariados son incapaces de conseguir.
• Este análisis permite obtener una mayor comprensión de fenómenos complejos sea cual sea el ámbito que se esté considerando.
• Poseen mucha mayor potencia y versatilidad, que las técnicas univariantes y bivariantes ya que representan mucho mejor la realidad.
Spearman (1904) y Pearson (1901) trataron de definir una variable que midiese la cantidad de inteligencia y que fuese un compendio o resumen (de hecho una combinación lineal) de los componentes de la misma. Esto sería el origen de lo que luego se denominó el método de los Componentes Principales. Posteriormente se han ido desarrollando numerosas técnicas para variables tanto cuantitativas como categóricas.
HISTORIASu origen histórico se encuentra en los primeros años del siglo XX. Surge dentro del marco de la psicología aplicada como una teoría matemática que trata de explicar el concepto de inteligencia. Es decir, se supone que la inteligencia constituye un compendio de diversas habilidades y conocimientos y se suele medir mediante aspectos o manifestaciones parciales.
Clasificación de los métodos
multivariados
Problemas de interdependencia o creación de índices (análisis factorial, clúster y escalamiento).
Problemas de causalidad o asociación (análisis de varianza, regresión y discriminante).
La investigación EMPÍRICA se ocupa de fenómenos multidimensionales
Métodos multivariados
Su clasificación
Métodos de interdependencia
Descripción de Dimensiones: posibilitan la identificación de dimensiones o conceptos complejos subyacentes (Análisis Factorial, Componentes Múltiples, etc.).
Clasificación de unidades o variables: permiten clasificar unidades individuales o colectivas o variables con el fin de crear tipologías, cluster o clases de individuos (Cluster, Escalamiento, etc.).
Métodos multivariados
Utilidad de este tipo de métodos:
Evalúan correlaciones y sintetiza información
Muestran la estructura de los datos según criterio
Establecen clasificaciones y/o genera valores índices
Técnicas de Análisis ANÁLISIS FACTORIAL
ANÁLISIS DE CORRESPONDENCIAS ANÁLISIS DE CLUSTER
Métodos de interdependencia
Métodos multivariados
Análisis factorial
Busca una síntesis del fenómeno objeto de estudio. Logra resumir la información e identificar lo fundamental de la misma, revelando la estructura subyacente de los datos.
Algunos ejemplos:
Identificar los factores o componentes principales que intervienen en la construcción de la imagen de una marca o de una organización, de un comportamiento o de una actitud.
ANÁLISIS DE CASOS
Análisis factorial
Identificación de estructuras subyacentes
Reducción de información
EN LA INVESTIGACIÓN SOCIAL SE TRABAJA CON MUCHOS CONCEPTOS COMPLEJOS QUE
NO SON DIRECTAMENTE OBSERVABLES
Creación de variables resumen
USOS MÁS FRECUENTES
Análisis factorial
REQUISITOS PARA SU UTILIZACIÓN
Selección de variables que formen conjuntos coherentes (FACTORES)
Variables en escala métrica
Variables no métricas (ESTADARIZACIÓN DE SUS VALORES)
CANTIDAD DE CASOS: mínimo de 100 casos
CIERTA CORRELACIONES ENTRE LAS VARIABLES OBSERVABLES
Análisis factorial
ETAPAS BÁSICAS
a) FASE DE PREPARACIÓN DE VARIABLES. ANÁLISIS DE CORRELACIÓN.
b) MÉTODO DE COMPONENTES. EXTRACCIÓN Y SELECCIÓN DE LOS FACTORES.
c) GRÁFICO DE SEGMENTACIÓN. VALORES PROPIOS Y VARIANZA EXPLICADA. MATRIZ DE CARGAS FACTORIALES.
d) INTERPRETACIÓN: ROTACIÓN VARIMAX Y REPRESENTACIÓN GRÁFICA
e) EVALUACIÓN Y VALORACIÓN DEL ANÁLISIS
Análisis de Componentes PrincipalesCaracterización de los factores: Saturaciones
Factor 1 Acceso deficitario a la educación y la vivienda
Extracción de los factores principales
Gráfico de Sedimentación
Component Number
252321191715131197531
Eig
enva
lue8
6
4
2
0
Análisis de Componentes Principales
Análisis de correspondencia
Busca descubrir y describir las dimensiones fundamentales de un fenómeno pero con la particularidad de que trabaja con variables categóricas que proporcionan mapas perceptuales que permiten una representación fácilmente comprensible.
Algunos ejemplos:
Posicionamiento de productos y de atributos.
ANÁLISIS DE CASOS
Análisis de correspondencia
RELACIONES ENTRE VARIABLES CATEGÓRICAS QUE SE ANALIZAN MEDIANTE MAPAS
PERCEPTUALES Y EFECTOS FACTORIALES
A TRAVÉS DE FACTORESREDUCE LAS DIMENSIONES
DE ANÁLISIS
Paso intermedio para la aplicación de otras técnicas como el
análisis de cluster, regresión y análisis
discriminante.
Permite estudiar las formas que adoptan las relaciones entre
las variables
Análisis de correspondencia
ETAPAS BÁSICASANÁLISIS DE
CORRESPONDENCIAS SIMPLES
ANÁLISIS DE CORRESPONDENCIAS
MÚLTIPLES
Preparar tablas de contingencia: Perfiles filas y columnas
Distancias chi-cuadrado entre filas y columnas Valores propios e inercia de valores propios Contribuciones absolutas y relativas Coordenadas de filas y columnas Representación factorial de filas y columnas
Tablas bidimensionales Tablas multidimensionales
Análisis cluster
Partiendo de un conjunto de variables se obtienen subconjuntos o grupos, ya sea de casos ya sea de variables. Se busca establecer grupos HOMOGÉNEOS internamente y HETEROGÉNEOS entre ellos.
Algunos ejemplos:
En el campo del Marketing es útil para clasificar e identificar segmentos, tipos de productos, tipos de consumidores, etc.
ANÁLISIS DE CASOS
Análisis cluster
Responde a la necesidad de:
DIFERENCIAR
CLASIFICAR
SEGMENTAR (TIPOLOGÍAS)
CASOS /
INDIVIDUOSVARIABLES /
CARACTERÍSTICAS
SE PUEDEN AGRUPAR
Análisis cluster
CRITERIOS PARA DISTINGUIR GRUPOS
Criterio estricto
(dicotómico)
Criterio estadístico
(probabilidad)
Se busca formar grupos mutuamente excluyentes y colectivamente exhaustivos, pero los criterios de agrupamiento y la medida de distancia pueden producir cambios en la estructura de los grupos
Análisis cluster
REQUISITOS y ETAPAS
Representatividad de la MUESTRA
Controlar la MULTICOLINEALIDAD entre las variables
Definir MÉTODO y medidas de distancia para la formación de grupos
Análisis de distancias euclídeas (diagrama en árbol), esquemas de agrupación y de la media de los grupos.
Delimitación del NÚMERO de grupos significativos.
Análisis de ClusterCluster Aglomerado Media Máx. Mín. Media Máx. Mín. Media Máx. Mín.
Gran Buenos Aires 49,0 43,2 11,9 Gran La Plata 46,1 40,2 12,8 Bahía Blanca - Cerri 45,8 42,0 8,4 Gran Rosario 45,5 39,2 13,7 Gran Córdoba 45,3 41,2 9,2 Neuquen-Plottier 45,2 40,6 10,1 Ushuaia - Río Grande 47,7 43,2 9,5 Mar del Plata y Batán 48,4 43,1 11,0 Río Cuarto 43,7 39,4 9,7 Total 46,3 49,0 43,7 41,3 43,2 39,2 10,7 13,7 8,4 Gran Resistencia 35,4 33,4 5,6 Formosa 33,3 31,8 4,5
Total 34,4 35,4 33,3 32,6 33,4 31,8 5,1 5,6 4,5 Gran Santa Fe 39,2 36,4 7,2 Gran Paraná 41,3 38,1 7,7 Posadas 39,0 35,7 8,5 Corrientes 37,6 34,6 8,0 Concordia 40,0 35,9 10,1 Santiago del Estero- La Banda 40,5 36,8 9,2 Gran Catamarca 40,9 36,6 10,5 Salta 42,5 37,1 12,6 Gran San Juan 42,9 38,7 9,8 Gran Tucumán-Tafí Viejo 40,5 35,4 12,6 Total 40,4 42,9 37,6 36,5 38,7 34,6 9,6 12,6 7,2 Comodoro Rivadavia- Rada Tilly 44,0 40,7 7,4 Gran Mendoza 45,8 42,6 6,9 Jujuy- Palpalá 43,0 39,9 7,2 Río Gallegos 44,5 43,8 1,7 La Rioja 43,1 40,0 7,2 San Luis - El Chorrillo 44,1 43,5 1,2 Santa Rosa - Toay 41,2 39,6 4,0 Total 43,7 45,8 41,2 41,4 43,8 39,6 5,1 7,4 1,2
Tasa de Actividad Tasa de Empleo Tasa de Desocupación
4
3
2
1
Análisis de Cluster
Anexo 3. Tasas del Mercado de Trabajo, Bienestar y Desigualdad por grupos y aglomerados. Variación Porcentual 1991-2001.
Aglomerados agrupados por Grupo
Activi-dad
Empleo Pleno
Subempl
Desempl
I ng. Tot. Fliar.
I ng. x Perc.
I ng. x Eq. Adul.
Coef. Sen
Coef.Gini
Grupo 1
Río Gallegos 9.5 6.8 178.4 -26.0 15.6 11.9 35.1 21.8 -12.2
Media Grupo 1 9.5 6.8 85.7 -26.0 15.6 11.9 35.1 21.8 -12.2
Ushuaia y Río Grande
-2.3 -9.8 56.8 8.5 -23.1 -23.6 -13.7 -22.5 -1.7
Comodoro Rivadavia
0.3 -9.6 64.5 37.2 -2.6 4.5 14.5 -12.0 24.4 Grupo 2
Gran San Miguel de Tuc.-Tafí Viejo
1.1 -14.7 43.1 58.7 -3.3 0.4 11.3 -1.0 -4.7
Media Grupo 2 -0.3 -11.4 54.8 34.8 -9.7 -6.2 4.0 -11.8 6.0
Gran Córdoba -2.1 -20.9 53.8 188.2 -20.3 -17.0 -9.7 -21.3 3.1
Gran Mendoza 0.3 -20.0 79.1 207.6 -10.8 -6.5 -3.7 -15.1 10.9
San Luis y El Chorrillo
-2.4 -22.5 162.2 124.7 -28.8 -21.3 -20.8 -31.1 7.4
Grupo 3
San Salvador de J ujuy y Palpalá
6.1 -19.2 38.6 526.7 -7.4 -7.8 -1.5 -12.8 13.2
Media Grupo 3 0.5 -20.6 83.4 261.8 -16.8 -13.1 -8.9 -20.1 8.7
Ciudad de Bs. As. 10.1 -9.3 116.5 257.8 20.4 21.5 25.2 14.2 10.8
Gran La Plata 13.3 -7.0 90.7 163.9 6.6 10.4 16.9 3.8 7.3
Paraná 15.2 -10.3 90.0 264.0 -28.0 -23.0 -20.9 -28.2 0.4
Grupo 4
Gran San Juan 12.0 -11.5 80.2 162.3 -11.1 -10.7 -2.0 -13.6 6.2
Media Grupo 4 12.6 -9.5 75.5 212.0 -3.1 -0.4 4.8 -6.0 6.2
Salta 15.9 -17.8 164.0 351.2 -27.4 -27.8 -18.8 -33.1 16.8
Santa Rosa y Toay 11.6 -13.6 300.5 528.4 -4.6 0.4 11.0 -15.0 32.0
Gran Rosario 9.2 -20.5 131.9 164.9 -22.5 -20.9 -16.6 -24.5 5.6
Partidos del Conurbano
8.5 -24.6 171.2 69.4 -14.3 -12.0 -7.2 -21.5 19.4
Grupo 5
Neuquén 10.7 -14.2 217.1 184.3 -19.2 -16.8 -7.6 -16.4 -6.9
Media Grupo 5 11.2 -18.1 196.9 259.6 -17.6 -15.4 -7.8 -22.1 13.4
Fuente: Elaboración propia, con base en datos de la EPH, I NDEC (Octubre 1991-2001).
Problemas de causalidad
Diferencian entre variables (a) explicativas, independientes o predictivas, (b) variables a explicar o dependientes, y (c) variables control o intervinientes.
La distinción entre variables dependientes e independientes debe efectuarse con arreglo a fundamentos teóricos, por conocimiento o experiencia y estudios anteriores.
Métodos de tipo:
EXPLICATIVOS /PREDICTIVOS
Métodos multivariados
Utilidad de este tipo de métodos
Mide la fuerza y sentido de relaciones parciales Predice valores a partir de una serie de variables Explica el comportamiento de una o más variables Evalúa la bondad de ajuste de un modelo teórico a los
datos MÉTODOS
ANÁLISIS DE VARIANZA (ANOVA) ANÁLISIS DE REGRESIÓN ANÁLISIS DISCRIMINANTE
REGRESIÓN LOGÍSTICA
Problemas de causalidad
Métodos multivariados
Análisis de regresión
Es suceptible de utilizar cuando contamos con una variable dependiente métrica y variables independientes métricas ó categóricas (ficticia).
Explica el comportamiento de la variable dependiente (ej: ventas, gastos, consumo),
Anticipa sus valores en función de los atributos de las variables independientes (ej: precio, gasto en publicidad, atributos personales, segmento de mercado) y
Estima las incidencias que cada una de éstas tiene en la variable dependiente.
ANÁLISIS DE CASOS
Análisis de regresión
TIPOS DE DATOS
Los datos que se utilizan en la aplicación de esta técnica pueden ser:
SERIES DE TIEMPO y
DATOS DE CORTE TRASVERSAL
Modelo de Regresión Lineal Simple (MLS) Figura una sola variable explicativa, el
comportamiento de la variable Y se puede explicar a través de la variable X
Modelo de Regresión Múltiple La variable dependiente viene explicada por varias
variables independientes.
Análisis de regresión
HIPÓTESIS BÁSICAS
Se supone que la forma funcional que liga
la variable explicada son las variables
explicativas es de tipo LINEAL al menos en
los parámetros.
Las variables explicativas deben ser
linealmente INDEPENDIENTES, es decir, que
no hay multicolinalidad exacta.
Análisis de regresión
REQUISITOS Y ETAPAS
Control de distribución de errores
Estimación de coeficientes e interpretación
Intervalos de confianza y prueba de hipótesis
Bondad de ajuste
Predicción
Variables ficticias
El ingreso horario de los ocupados (entre 25 y 45 años) no se ve afectados por el sexo sino que depende de la cantidad de años de instrucción
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Años de estudio (aprox.)
20100
Ing
reso
ho
rari
o d
e la
ocu
pa
ció
n p
pa
l
80
60
40
20
0
Sexo
Mujer
Varón
EJEMPLO CORRELACIÓN
Total Ocupados entre 25 y 45 años (con ingresos)
Correlationsa
1,000 ,354** ,365** -,072**
, ,000 ,000 ,000
,354** 1,000 ,945** -,223**
,000 , ,000 ,000
,365** ,945** 1,000 -,217**
,000 ,000 , ,000
-,072** -,223** -,217** 1,000
,000 ,000 ,000 ,
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Ingreso horario de laocupación ppal
Años de estudio (aprox.)
Nivel de Instrucción
Cantidad de hijosmenores de 12 años
Ingresohorario de
laocupación
ppal
Años deestudio(aprox.)
Nivel deInstrucción
Cantidadde hijosmenores
de 12 años
Correlation is significant at the 0.01 level (2-tailed).**.
Listwise N=10338a.
BONDAD DE AJUSTE DEL MODELO (R2)
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Variables Entered/Removedb
Sexo (dummy: 0=Varón)a , Enter
Años de estudio (aprox.)a , Enter
Model1
2
Variables EnteredVariablesRemoved Method
All requested variables entered.a.
Dependent Variable: Ingreso horario de la ocupación ppalb. Model Summary
,014a ,000 ,000 3,3032
,359b ,129 ,129 3,0832
Model1
2
R R SquareAdjustedR Square
Std. Errorof the
Estimate
Predictors: (Constant), Sexo (dummy: 0=Varón)a.
Predictors: (Constant), Sexo (dummy: 0=Varón),Años de estudio (aprox.)
b.
ANÁLISIS DE VARIANZA DE LOS MODELOS
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
ANOVAc
22,486 1 22,486 2,061 ,151a
112779,9 10336 10,911
112802,4 10337
14557,248 2 7278,624 765,683 ,000b
98245,112 10335 9,506
112802,4 10337
Regression
Residual
Total
Regression
Residual
Total
Model1
2
Sum ofSquares df
MeanSquare F Sig.
Predictors: (Constant), Sexo (dummy: 0=Varón)a.
Predictors: (Constant), Sexo (dummy: 0=Varón), Años de estudio (aprox.)b.
Dependent Variable: Ingreso horario de la ocupación ppalc.
COEFICIENTES B Y PRUEBAS T DE SIGNIFICANCIA
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Coefficientsa
3,476 ,043 80,455 ,000
-,0941 ,066 -,014 -1,436 ,151
,271 ,091 2,964 ,003
-,426 ,062 -,064 -6,898 ,000
,306 ,008 ,362 39,102 ,000
(Constant)
Sexo (dummy: 0=Varón)
(Constant)
Sexo (dummy: 0=Varón)
Años de estudio (aprox.)
Model1
2
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: Ingreso horario de la ocupación ppala.
Detección de MULTICOLINEALIDAD a través de tablas de correlación simple entre las variables independientes. Seleccionar las variables con menor correlación o transformar en variables ficticias no correlacionadas.
Detección de la HETEROSCEDASTICIDAD /a través de gráficos de residuos є para cada valor de ŷ. Estandarización de la variable dependiente Y.
Detección de la AUTOCORRELACIÓN DE ERRORES / a través de la prueba Durbin-Watson. El valor 2 indica no autocorrelación. Corrección de observaciones o eliminación de casos.
Modelos de Regresión LinealControl de Supuestos
Análisis de regresión logística
Es un caso particular de regresión en el cual la variable dependiente es de naturaleza dicotómica y las independientes son cuantitativas o categóricas y no exige restricciones tan fuertes sobre la distribución de las variables independientes. Estima y explica las probabilidades de que un evento ocurra.
Estas peculiaridades la hacen interesante para situaciones en las que no cabe aplicar la regresión lineal.
Algunos ejemplos:
Identificar los principales factores que pueden influir en aumentar la probabilidad de que un nuevo producto sea introducido con éxito en el mercado.ANÁLISIS DE CASOS
Análisis de regresión logística
Permite construir un MODELO EXPLICATIVO a partir de un conjunto de variables independientes de tipo categóricas o continuas (estado civil, ingresos, nivel de estudios, edad y números de hijos) y una variable dicotómica o binaria que solo definen opciones (contratar un servicio o no, consumir determinado producto o no, etc.)
Ejemplo: En qué medida ciertas características socio-
demográficas influyen en que un individuo contrate un nuevo servicio de televisión por cable.
¿En qué medida la aceptación de un producto está relacionado con el nivel de ingresos del cliente?
Análisis de regresión logística
REQUISITOS Y ETAPAS
Proceso de codificación de las variables independientes categóricas
a) Codificación de variable dependientes en 0 y 1
b) Significancia de los coeficientes de regresión
c) Significancia global del modelo
d) Bondad de ajuste y eficacia predictiva
e) Estimación de probabilidades parciales y conjuntas
f) Métodos de selección de las variables independientes (INTRODUCIR Y ELIMINACIÓN POR PASOS)
Modelos de Regresión LogísticaANÁLISIS DE UN EJEMPLO
• Classification Table for XCDEA• The Cut Value is ,78
Observed
Predicted
Activo Inactivo Percent CorrectA I
Activo A 6.774 5.130 56,91%
Inactivo I 458 2.985 86,70%
Overall 63,59%
Variable B S.E. Wald Df Sig R Exp(B)
H13(1) 2,1547 ,0535 1620,21 1 ,0000 ,3147 8,6251
XMEN5(1 ,2425 ,0424 32,7129 1 ,0000 ,0434 1,2744
Constant -2,7914 ,0516 2926,26 1 ,0000
Modelos de Regresión LogísticaANÁLISIS DE UN EJEMPLO
Variable B S.E. Wald Df Sig R Exp(B)
H13(1) 1,7112 ,0626 746,165 1 ,0000 ,2301 5,5357
XMEN5 -,8638 ,1170 54,4647 1 ,0000 -,0611 ,4216
INT_1 1,3302 ,1262 111,185
1 ,0000 ,0881 3,7818
Constant -2,4388 ,0549 1974,89 1 ,0000
Beginning Block Number 2. Method: Enter• Variable(s) Entered on Step Number• 1.. H13 * XMEN5
Modelos de Regresión LogísticaANÁLISIS DE UN EJEMPLO
Observed
Predicted
Activo Inactivo Percent CorrectA I
Activo A 7.557 4.347 63,48%
Inactivo I 620 2.823 81,99%
Overall 67,64%
Variable B S.E. Wald Df Sig R Exp(B)
H13(1) -1,7161 ,0634 732,350 1 ,0000 -,2290 ,1798
XMEN5 1,0891 ,1182 84,8889 1 ,0000 ,0771 2,9716
INT_1 -1,3462 ,1270 112,346 1 ,0000 -,0890 ,2602
XQUINTI ,3088 ,0168 339,416 1 ,0000 ,1556 1,3618
XH12 ,2411 ,0451 28,5608 1 ,0000 ,0437 1,2726
XEDAD2 -,0031 ,0006 23,1655 1 ,0000 -,0390 ,9969
Constant -2,8649 ,7656 14,0034 1 ,0002
top related