análisis bivariado de asociaciones - myuvmcollege.com³n bivariada... · naturaleza de la...
TRANSCRIPT
4.1 Análisis bivariado de asociaciones
Los gerentes posiblemente estén interesadosen el grado de asociación entre dos variables
Las técnicas estadísticas adecuadas pararealizar este tipo de análisis se llamantécnicas bivariadas y cuando participanmás de dos variables, se emplean técnicasmultivariadas.
Grado de Asociación:
Se clasifican como:
Variable independiente (el factor de predicción)
Variable dependiente (el criterio)
VARIABLE INDEPENDIENTE:
Son las que se piensa que afectan el valor de lavariable dependiente
Ejemplos: precio, gastos de publicidad o cantidad detiendas detallistas— se emplean a menudo parapredecir y explicar las ventas o la participación delmercado de una marca, que es la VARIABLE
DEPENDIENTE
TIPOS DE PROCEDIMIENTOS BIVARIADOS
Definición de regresión bivariada Procedimiento estadístico que sirve para estudiar la relación entre
dos variables cuando una se considera como variable dependiente yla otra como variable independiente
Por ejemplo, podría ser de interés analizar la relación entre lasventas (variable dependiente) y la publicidad (variableindependiente)
Si el investigador estima la relación entre los gastos publicitarios ylas ventas mediante el análisis de regresión, podrá predecir lasventas para diferentes niveles publicitarios. Cuando se emplean dos omás variables independientes en el problema (como publicidad yprecio) para pronosticar la variable dependiente de interés, convieneaplicar el análisis de regresión múltiple
NATURALEZA DE LA RELACIÓN
La variable dependiente Y se grafica en el eje vertical y lavariable independiente X, en el eje horizontal
Al examinar el diagrama de dispersión, se ve si larelación entre las dos variables, en caso de que exista, eslineal o curva
Si la relación parece lineal o está cerca de ella, puedeaplicarse la regresión lineal
Cuando se observa una relación no lineal en el diagramade dispersión, se emplean técnicas de regresión no linealpara adaptación a una curva, aunque estas técnicas seencuentran más allá del alcance de este análisis
Ejemplos de la regresión bivariada
EJEMPLO:
Las tiendas Stop ‘N Go llevaron a cabo recientemente unainvestigación con el fin de medir el efecto del tráfico vehicularen las cercanías de ciertas tiendas sobre sus ventas anuales
se identificaron 20 tiendas prácticamente idénticas en cuantoa las demás variables con efecto significativo sobre las ventas(como superficie, disponibilidad de estacionamiento, datosdemográficos de la colonia en que se ubican, entre otros)
Este análisis específico forma parte del esfuerzo general querealiza Stop ‘N Go para identificar y cuantificar los efectos delos diversos factores que ejercen impacto sobre las ventas desus tiendas
Su meta final es desarrollar un modelo para evaluar sitiospotenciales a fin de ubicar tiendas, con el fin de analizarlos yelegir los más convenientes y que produzcan mayores nivelesde ventas, comprar el terreno y construirla tienda.
Tras identificar 20 sitios; la empresa realizórecuentos diarios del tráfico en cada punto durante30 días. Además, obtuvo de sus registros internos losdatos de ventas totales de cada una de las 20 tiendas,de prueba en los 12 meses anterioresSe advierte que las ventas totales aumentan a medidaque el tráfico vehicular diario se incrementa.
Ahora es necesario caracterizar esta relación demanera más explícita, en forma cuantitativa.
Ventas anuales y tráfico vehicular diario promedio
Número de tiendas
(i)
Conteo vehicular diario
promedio de miles (Xi)
Ventas anuales en miles de
dólares (Yi)
1 62 1,121
2 35 766
3 36 701
4 72 1.304
5 41 832
6 39 782
7 49 977
8 25 503
9 41 773
10 39 839
11 35 893
12 27 588
13 55 957
14 38 703
15 24 497
16 28 657
17 53 1.209
18 55 997
19 33 844
20 29 883
PROCEDIMIENTO PARA ESTIMAR MÍNIMOS CUADRADOS
El método de los mínimos cuadrados da lugar a lalínea recta que se ajusta mejor a las observaciones(puntos) que cualquier otra
En otras palabras, la suma de las desviaciones alcuadrado con respecto a esta línea (las diferencias alcuadrado entre los puntos y la línea) será menor quepara cualquier otra línea adaptable a lasobservaciones
La ecuación general para la línea es Y= a + bX. Laecuación que se emplea en análisis de regresión es:
Diagrama de dispersión de ventas anuales en relación con el tráfico
Los valores de a + b se calcula como sigue:
Con los datos de la siguiente tabla s calcula el valor de b:
Tienda X Y X2 Y
2 XY
1 62 1,121 3,844 1,256,641 69,502
2 35 766 1,225 586,756 26,810
3 36 701 1,296 491,401 25,236
4 72 1.304 5,184 1,700,416 93,888
5 41 832 1,681 692,224 34,112
6 39 782 1,521 611,524 30,498
7 49 977 2,401 954,529 47,873
8 25 503 625 253,009 12,575
9 41 773 1,681 597,529 31,693
10 39 839 1,521 703,921 32,721
11 35 893 1,225 797,449 31,225
12 27 588 729 345,744 15,876
13 55 957 3,025 915,849 52,635
14 38 703 1,444 494,209 26,714
15 24 497 576 247,009 11,928
16 28 657 784 431,649 18,396
17 53 1.209 2,809 1,461,681 64,077
18 55 997 3,025 994,009 54,835
19 33 844 1,089 712,336 27,852
20 29 883 841 779,689 25,607
(suma) 816 16,826 36,526 15,027,574 734,083
(media) 40.8 841.3
Fórmulas aplicadas:
CONCLUSIÓN:
Según la función de regresión estimada, por cada1000 vehículos adicionales por día de tráfico (X), eltotal de ventas anuales aumentará 14 720 dólares(valor estimado de b)
El valor de a es 240.86
Técnicamente, un sombrero es el valor estimado dela variable dependiente (Y o las ventas anuales)cuando el valor de la variable independiente (X o eltráfico vehicular diario promedio) es cero
La línea de regresión
La fuerza de asociación: R2
Valores de predicción y errores para cada observación
Tienda X Y Ŷ Y –Ŷ (Y –Ŷ)2
(Ỹ- Y)2
1 62 1,121 1,153.3 -32,2951 1,043 78,232
2 35 766 755.9 10.05716 101 5,670
3 36 701 770.7 -69.6596 4,852 19,984
4 72 1.304 1,300.5 3.537362 13 214,091
5 41 832 844.2 -12.2434 150 86
6 39 782 814.8 -32.8098 1,076 3,516
7 49 977 962.0 15.02264 226 18,414
8 25 503 608.8 -105.775 11,188 114,447
9 41 773 844.2 -71.2434 5,076 4,665
10 39 839 814.8 24.19015 585 5
11 35 893 755.9 137.0572 18,785 2,673
12 27 588 635.2 -50.2088 2,521 64,161
13 55 957 1,050.3 -93.2779 8,701 13,386
14 38 703 800.1 -97.0931 9,427 19,127
15 24 497 594.1 -97.0586 9,420 118,542
16 28 657 652.9 4.074415 17 33,966
17 53 1.209 1,020.8 188.1556 35,403 135,203
18 55 997 1,050.3 -53.2779 2,839 24,242
19 33 844 726.5 117.4907 13,804 7
20 29 883 667.6 215.3577 46,379 1,739
(suma) 816 16,826 16,826.0 171,604.8 871,860.2
(media) 40.8 841.3
Significado estadístico de los resultados de regresión
Al calcular R2, la variación total de Y se dividió en dos sumas de cuadrados componentes:
Variación total = Variación explicada + variación no explicada
La variación total mide la variación de los valores de Y observados, en torno a la Y media.
Mide la variación de los valores de Y sin tomar en cuenta los valores de X.
La variación total, llamada suma total de cuadrados (SST), se obtiene así:
La variación explicada o suma de cuadrados debida a la regresión (SSR, por sus siglas en
inglés) se obtiene de este modo
La variación no explicada, o error de suma de cuadrados (SSE), se obtiene de:
Tienda X Y Ŷ Y –Ŷ (Y –Ŷ)2
(Ỹ - Y )2
1 62 1,121 1153,3 -32,2951 1,043 78,232 97344
2 35 766 755,9 1.005.716 101 5,67 7293,16
3 36 701 770,7 -696.596 4,852 19,984 4984,36
4 72 1.304 1300,5 3.537.362 13 214,091 210864,64
5 41 832 844,2 -122.434 150 86 8,41
6 39 782 814,8 -328.098 1,076 3,516 702,25
7 49 977 962 1.502.264 226 18,414 14568,49
8 25 503 608,8 -105.775 11,188 114,447 54056,25
9 41 773 844,2 -712.434 5,076 4,665 8,41
10 39 839 814,8 2.419.015 585 5 702,25
11 35 893 755,9 1.370.572 18,785 2,673 7293,16
12 27 588 635,2 -502.088 2,521 64,161 42477,21
13 55 957 1050,3 -932.779 8,701 13,386 43681
14 38 703 800,1 -970.931 9,427 19,127 1697,44
15 24 497 594,1 -970.586 9,42 118,542 61107,84
16 28 657 652,9 4.074.415 17 33,966 35494,56
17 53 1.209 1020,8 1.881.556 35,403 135,203 32220,25
18 55 997 1050,3 -532.779 2,839 24,242 43681
19 33 844 726,5 1.174.907 13,804 7 13179,04
20 29 883 667,6 2.153.577 46,379 1,739 30171,69
(suma) 816 16,826 16,826.0 171,604.8 871,860.2 701535,41
(media) 40.8 841,3 SST SSR
TABLA 3: Valores de predicción y errores para cada observación
SSE
Medidas de variación:
Fuente de
variación
Grados de
libertad
Suma de
cuadrados
Media al
cuadrado
Valor
estadístico de F
Debido a la
regresión
(explicado) 1 SSR
Residual
(no explicado) n – 2 SSE
Total n - 1 SST
TABLA 4: Análisis de varianza (continuación)
Fuente de
variación
Grados de
libertad
Suma de
cuadrados
Media al
cuadrado
Valor
estadístico de
F
Debido a la
regresión
(explicado)
1 701,535.41 SSR MSR =
701,535.41 F = 74.13
Residual
(no explicado) n – 2 170,324.79 SSE
MSE =
9,462.48
Total n - 1 871,860.2 SST
F = MSR/MSE = 701,535.41/ 9,462.48 = 74.13
F se calcula como sigue:
Medidas de variación:
Fuente de
variación
Grados de
libertad
Suma de
cuadrados
Media al
cuadrado
Valor
estadístico de F
Debido a la
regresión
(explicado) 1 SSR
Residual
(no explicado) n – 2 SSE
Total n - 1 SST
Hipótesis con respecto a la regresión total
A continuación se analiza la hipótesis del valorcalculado de R2 para el problema
¿La varianza explicada por el resultado (por nuestromodelo) es significativamente mayor de lo que cabeesperar debido a la casualidad?
Si se emplean diversas pruebas estadísticas, ¿Hastaqué grado se puede descartar el error de muestreocomo explicación de los resultados obtenidos?
El análisis de la varianza (prueba de la F) se empleapara probar el significado de los resultados
Las hipótesis son:
Hipótesis nula H0: no hay relación lineal entre X(tráfico vehicular diario promedio) y Y (ventasanuales)
Hipótesis alterna Ha: hay una relación linealentre X y Y
Medidas de graduación en una regresión
Como en tras pruebas estadísticas, es preciso elegirel valor de a
Ésta es la probabilidad de que el resultado observadose deba a la casualidad, o la probabilidad de rechazarde manera incorrecta la hipótesis nula
En este caso se decidió emplear un nivel designificado bastante común, a = .05
Esto significa que si el valor calculado para F excedeal valor tabulado, estamos dispuestos a aceptar un 5por ciento de probabilidad de rechazarincorrectamente la hipótesis nula
Hipótesis sobre el coeficiente de regresión (b)
Formularemos una hipótesis sobre b, el coeficientede regresión
Como usted recordará, b estima el efecto de uncambio unitario de X sobre Y
Las hipótesis son
Hipótesis nula H0: b = 0
Hipótesis alterna Ha: b ≠ 0