análisis bivariado de asociaciones - myuvmcollege.com³n bivariada... · naturaleza de la...

4.1 Análisis bivariado de asociaciones

Los gerentes posiblemente estén interesadosen el grado de asociación entre dos variables

Las técnicas estadísticas adecuadas pararealizar este tipo de análisis se llamantécnicas bivariadas y cuando participanmás de dos variables, se emplean técnicasmultivariadas.

Grado de Asociación:

Se clasifican como:

Variable independiente (el factor de predicción)

Variable dependiente (el criterio)

VARIABLE INDEPENDIENTE:

Son las que se piensa que afectan el valor de lavariable dependiente

Ejemplos: precio, gastos de publicidad o cantidad detiendas detallistas— se emplean a menudo parapredecir y explicar las ventas o la participación delmercado de una marca, que es la VARIABLE

DEPENDIENTE

TIPOS DE PROCEDIMIENTOS BIVARIADOS

Definición de regresión bivariada Procedimiento estadístico que sirve para estudiar la relación entre

dos variables cuando una se considera como variable dependiente yla otra como variable independiente

Por ejemplo, podría ser de interés analizar la relación entre lasventas (variable dependiente) y la publicidad (variableindependiente)

Si el investigador estima la relación entre los gastos publicitarios ylas ventas mediante el análisis de regresión, podrá predecir lasventas para diferentes niveles publicitarios. Cuando se emplean dos omás variables independientes en el problema (como publicidad yprecio) para pronosticar la variable dependiente de interés, convieneaplicar el análisis de regresión múltiple

NATURALEZA DE LA RELACIÓN

La variable dependiente Y se grafica en el eje vertical y lavariable independiente X, en el eje horizontal

Al examinar el diagrama de dispersión, se ve si larelación entre las dos variables, en caso de que exista, eslineal o curva

Si la relación parece lineal o está cerca de ella, puedeaplicarse la regresión lineal

Cuando se observa una relación no lineal en el diagramade dispersión, se emplean técnicas de regresión no linealpara adaptación a una curva, aunque estas técnicas seencuentran más allá del alcance de este análisis

Ejemplos de la regresión bivariada

EJEMPLO:

Las tiendas Stop ‘N Go llevaron a cabo recientemente unainvestigación con el fin de medir el efecto del tráfico vehicularen las cercanías de ciertas tiendas sobre sus ventas anuales

se identificaron 20 tiendas prácticamente idénticas en cuantoa las demás variables con efecto significativo sobre las ventas(como superficie, disponibilidad de estacionamiento, datosdemográficos de la colonia en que se ubican, entre otros)

Este análisis específico forma parte del esfuerzo general querealiza Stop ‘N Go para identificar y cuantificar los efectos delos diversos factores que ejercen impacto sobre las ventas desus tiendas

Su meta final es desarrollar un modelo para evaluar sitiospotenciales a fin de ubicar tiendas, con el fin de analizarlos yelegir los más convenientes y que produzcan mayores nivelesde ventas, comprar el terreno y construirla tienda.

Tras identificar 20 sitios; la empresa realizórecuentos diarios del tráfico en cada punto durante30 días. Además, obtuvo de sus registros internos losdatos de ventas totales de cada una de las 20 tiendas,de prueba en los 12 meses anterioresSe advierte que las ventas totales aumentan a medidaque el tráfico vehicular diario se incrementa.

Ahora es necesario caracterizar esta relación demanera más explícita, en forma cuantitativa.

Ventas anuales y tráfico vehicular diario promedio

Número de tiendas

(i)

Conteo vehicular diario

promedio de miles (Xi)

Ventas anuales en miles de

dólares (Yi)

1 62 1,121

2 35 766

3 36 701

4 72 1.304

5 41 832

6 39 782

7 49 977

8 25 503

9 41 773

10 39 839

11 35 893

12 27 588

13 55 957

14 38 703

15 24 497

16 28 657

17 53 1.209

18 55 997

19 33 844

20 29 883

PROCEDIMIENTO PARA ESTIMAR MÍNIMOS CUADRADOS

El método de los mínimos cuadrados da lugar a lalínea recta que se ajusta mejor a las observaciones(puntos) que cualquier otra

En otras palabras, la suma de las desviaciones alcuadrado con respecto a esta línea (las diferencias alcuadrado entre los puntos y la línea) será menor quepara cualquier otra línea adaptable a lasobservaciones

La ecuación general para la línea es Y= a + bX. Laecuación que se emplea en análisis de regresión es:

Diagrama de dispersión de ventas anuales en relación con el tráfico

Los valores de a + b se calcula como sigue:

Con los datos de la siguiente tabla s calcula el valor de b:

Tienda X Y X2 Y

2 XY

1 62 1,121 3,844 1,256,641 69,502

2 35 766 1,225 586,756 26,810

3 36 701 1,296 491,401 25,236

4 72 1.304 5,184 1,700,416 93,888

5 41 832 1,681 692,224 34,112

6 39 782 1,521 611,524 30,498

7 49 977 2,401 954,529 47,873

8 25 503 625 253,009 12,575

9 41 773 1,681 597,529 31,693

10 39 839 1,521 703,921 32,721

11 35 893 1,225 797,449 31,225

12 27 588 729 345,744 15,876

13 55 957 3,025 915,849 52,635

14 38 703 1,444 494,209 26,714

15 24 497 576 247,009 11,928

16 28 657 784 431,649 18,396

17 53 1.209 2,809 1,461,681 64,077

18 55 997 3,025 994,009 54,835

19 33 844 1,089 712,336 27,852

20 29 883 841 779,689 25,607

(suma) 816 16,826 36,526 15,027,574 734,083

(media) 40.8 841.3

Fórmulas aplicadas:

CONCLUSIÓN:

Según la función de regresión estimada, por cada1000 vehículos adicionales por día de tráfico (X), eltotal de ventas anuales aumentará 14 720 dólares(valor estimado de b)

El valor de a es 240.86

Técnicamente, un sombrero es el valor estimado dela variable dependiente (Y o las ventas anuales)cuando el valor de la variable independiente (X o eltráfico vehicular diario promedio) es cero

La línea de regresión

La fuerza de asociación: R2

Valores de predicción y errores para cada observación

Tienda X Y Ŷ Y –Ŷ (Y –Ŷ)2

(Ỹ- Y)2

1 62 1,121 1,153.3 -32,2951 1,043 78,232

2 35 766 755.9 10.05716 101 5,670

3 36 701 770.7 -69.6596 4,852 19,984

4 72 1.304 1,300.5 3.537362 13 214,091

5 41 832 844.2 -12.2434 150 86

6 39 782 814.8 -32.8098 1,076 3,516

7 49 977 962.0 15.02264 226 18,414

8 25 503 608.8 -105.775 11,188 114,447

9 41 773 844.2 -71.2434 5,076 4,665

10 39 839 814.8 24.19015 585 5

11 35 893 755.9 137.0572 18,785 2,673

12 27 588 635.2 -50.2088 2,521 64,161

13 55 957 1,050.3 -93.2779 8,701 13,386

14 38 703 800.1 -97.0931 9,427 19,127

15 24 497 594.1 -97.0586 9,420 118,542

16 28 657 652.9 4.074415 17 33,966

17 53 1.209 1,020.8 188.1556 35,403 135,203

18 55 997 1,050.3 -53.2779 2,839 24,242

19 33 844 726.5 117.4907 13,804 7

20 29 883 667.6 215.3577 46,379 1,739

(suma) 816 16,826 16,826.0 171,604.8 871,860.2

(media) 40.8 841.3

Significado estadístico de los resultados de regresión

Al calcular R2, la variación total de Y se dividió en dos sumas de cuadrados componentes:

Variación total = Variación explicada + variación no explicada

La variación total mide la variación de los valores de Y observados, en torno a la Y media.

Mide la variación de los valores de Y sin tomar en cuenta los valores de X.

La variación total, llamada suma total de cuadrados (SST), se obtiene así:

La variación explicada o suma de cuadrados debida a la regresión (SSR, por sus siglas en

inglés) se obtiene de este modo

La variación no explicada, o error de suma de cuadrados (SSE), se obtiene de:

Tienda X Y Ŷ Y –Ŷ (Y –Ŷ)2

(Ỹ - Y )2

1 62 1,121 1153,3 -32,2951 1,043 78,232 97344

2 35 766 755,9 1.005.716 101 5,67 7293,16

3 36 701 770,7 -696.596 4,852 19,984 4984,36

4 72 1.304 1300,5 3.537.362 13 214,091 210864,64

5 41 832 844,2 -122.434 150 86 8,41

6 39 782 814,8 -328.098 1,076 3,516 702,25

7 49 977 962 1.502.264 226 18,414 14568,49

8 25 503 608,8 -105.775 11,188 114,447 54056,25

9 41 773 844,2 -712.434 5,076 4,665 8,41

10 39 839 814,8 2.419.015 585 5 702,25

11 35 893 755,9 1.370.572 18,785 2,673 7293,16

12 27 588 635,2 -502.088 2,521 64,161 42477,21

13 55 957 1050,3 -932.779 8,701 13,386 43681

14 38 703 800,1 -970.931 9,427 19,127 1697,44

15 24 497 594,1 -970.586 9,42 118,542 61107,84

16 28 657 652,9 4.074.415 17 33,966 35494,56

17 53 1.209 1020,8 1.881.556 35,403 135,203 32220,25

18 55 997 1050,3 -532.779 2,839 24,242 43681

19 33 844 726,5 1.174.907 13,804 7 13179,04

20 29 883 667,6 2.153.577 46,379 1,739 30171,69

(suma) 816 16,826 16,826.0 171,604.8 871,860.2 701535,41

(media) 40.8 841,3 SST SSR

TABLA 3: Valores de predicción y errores para cada observación

SSE

Medidas de variación:

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Media al

cuadrado

Valor

estadístico de F

Debido a la

regresión

(explicado) 1 SSR

Residual

(no explicado) n – 2 SSE

Total n - 1 SST

TABLA 4: Análisis de varianza (continuación)

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Media al

cuadrado

Valor

estadístico de

F

Debido a la

regresión

(explicado)

1 701,535.41 SSR MSR =

701,535.41 F = 74.13

Residual

(no explicado) n – 2 170,324.79 SSE

MSE =

9,462.48

Total n - 1 871,860.2 SST

F = MSR/MSE = 701,535.41/ 9,462.48 = 74.13

F se calcula como sigue:

Medidas de variación:

Fuente de

variación

Grados de

libertad

Suma de

cuadrados

Media al

cuadrado

Valor

estadístico de F

Debido a la

regresión

(explicado) 1 SSR

Residual

(no explicado) n – 2 SSE

Total n - 1 SST

Hipótesis con respecto a la regresión total

A continuación se analiza la hipótesis del valorcalculado de R2 para el problema

¿La varianza explicada por el resultado (por nuestromodelo) es significativamente mayor de lo que cabeesperar debido a la casualidad?

Si se emplean diversas pruebas estadísticas, ¿Hastaqué grado se puede descartar el error de muestreocomo explicación de los resultados obtenidos?

El análisis de la varianza (prueba de la F) se empleapara probar el significado de los resultados

Las hipótesis son:

Hipótesis nula H0: no hay relación lineal entre X(tráfico vehicular diario promedio) y Y (ventasanuales)

Hipótesis alterna Ha: hay una relación linealentre X y Y

Medidas de graduación en una regresión

Como en tras pruebas estadísticas, es preciso elegirel valor de a

Ésta es la probabilidad de que el resultado observadose deba a la casualidad, o la probabilidad de rechazarde manera incorrecta la hipótesis nula

En este caso se decidió emplear un nivel designificado bastante común, a = .05

Esto significa que si el valor calculado para F excedeal valor tabulado, estamos dispuestos a aceptar un 5por ciento de probabilidad de rechazarincorrectamente la hipótesis nula

Hipótesis sobre el coeficiente de regresión (b)

Formularemos una hipótesis sobre b, el coeficientede regresión

Como usted recordará, b estima el efecto de uncambio unitario de X sobre Y

Las hipótesis son

Hipótesis nula H0: b = 0

Hipótesis alterna Ha: b ≠ 0

análisis bivariado de asociaciones - myuvmcollege.com³n bivariada... · naturaleza de la...

Documents