estadÍstica bidimensional - el blog de mate de … · la representación gráfica más usual para...
TRANSCRIPT
el blog de mate de aida CSI: Estadística bidimensional Pág. 1
ESTADÍSTICA BIDIMENSIONAL
La estadística bidimensional es la ciencia que se ocupa de determinar si existe relación o no entre dos
variables. Ejemplos:
- Horas de estudio y calificaciones negativas de los alumnos.
- Calificaciones en Matemáticas y Física.
- Dinero gastado en publicidad y dinero obtenido por ventas en una empresa.
Una variable estadística bidimensional es el conjunto de pares de valores de dos caracteres o variables
estadísticas unidimensionales X e Y sobre una misma población.
Se llama distribución bidimensional a la tabla estadística bidimensional formada por todas las
frecuencias absolutas de todos los posibles valores de la variable estadística bidimensional. Es decir,
para cada elemento de una población o muestra se consideran los valores correspondientes a dos
caracteres cuantitativos distintos.
TABLA BIDIMENSIONAL SIMPLE
1º.- Ésta es una tabla con dos variables que son la talla en cm y el peso en kg de una muestra de 12
alumnos de una clase:
Talla (cm) 164 166 168 170 172 174 175 176 176 178 180 182
Peso (kg) 68 72 75 68 75 76 73 72 80 75 80 79
Halla la media, varianza y desviación típica de ambas variables.
Solución:
Es cómodo construir la siguiente tabla para hacer los cálculos:
ix iy 2
ix 2
iy
164 68 26896 4624
166 72 27556 5184
168 75 28224 5625
170 68 28900 4624
172 75 29584 5625
174 76 30276 5776
175 73 30625 5329
176 72 30976 5184
176 80 30976 6400
178 75 31684 5625
180 80 32400 6400
182 79 33124 6241
2081 893 361221 66637
42,17312
2081·
N
fxx ii
41,2842,17312
361221 2222 xxS x
33,541,28 xS
42,7412
893·
N
fyy ii
24,1542,7412
66637 2222 yyS y
9,324,15 yS
TABLA BIDIMENSIONAL DE DOBLE ENTRADA
Los datos también pueden darse mediante una tabla de doble entrada de la cual es posible extraer una
tabla bidimensional y los datos de cada variable por separado, que son las llamadas distribuciones
marginales.
el blog de mate de aida CSI: Estadística bidimensional Pág. 2
2º.- (ejercicio resuelto pág. 307):
En 35 familias que habitan en el mismo bloque de pisos hemos hecho un estudio sobre el número de
hijas e hijos que tienen cada una de ellas y hemos obtenido los resultados que figuran en la tabla
adjunta. La variable X indica el número de hijos y la variable Y, el número de hijas de las citadas
familias. Construye la tabla estadística bidimensional correspondiente. En las distribuciones marginales,
calcula la media y la desviación típica.
Y\X 0 1 2 3 Tot
0 0 2 3 1 6
1 3 6 4 1 14
2 4 2 3 0 9
3 3 1 1 1 6
Tot 10 11 11 3 35
Solución:
ix 0 0 0 1 1 1 1 2 2 2 2 3 3 3
iy 1 2 3 0 1 2 3 0 1 2 3 0 1 3
if 3 4 3 2 6 2 1 3 4 3 1 1 1 1
ix if ii xf · 2· ii xf
0 10 0 0
1 11 11 11
2 11 22 44
3 3 9 27
35 42 82
iy if ii yf · 2· ii yf
0 6 0 0
1 14 14 14
2 9 18 36
3 6 18 54
35 50 104
2,1x ; 95,0xS ; 43,1y ; 96,0yS .
DIAGRAMAS DE DISPERSIÓN O NUBES DE PUNTOS
La representación gráfica más usual para una distribución bidimensional es el diagrama de dispersión o
nube de puntos. Se realiza fijando en un sistema de ejes cartesiano un carácter en cada uno de los
ejes y representando los puntos correspondientes a cada par.
1º: Para la tabla del ejercicio 1 de la página 1 se obtiene:
el blog de mate de aida CSI: Estadística bidimensional Pág. 3
3º.- (ejercicio resuelto pág. 308):
En una clase compuesta por 30 alumnos se ha hecho un estudio sobre el número de horas diarias de
estudios X y el número de suspensos Y, obteniéndose los siguientes resultados: (2,0) (2,2) (0,5) (2,1)
(1,2) (2,1) (3,1) (4,0) (0,4) (2,2) (2,1) (2,1) (4,0) (3,1) (2,4) (2,1) (1,2) (2,1) (2,0) (3,0) (3,2) (2,2) (2,2)
(2,1) (0,5) (1,3) (2,2) (2,1) (1,3) (1,4)
Construye la tabla estadística bidimensional en la que figure el recuento correspondiente. En las
distribuciones marginales correspondientes, halla la media y la desviación típica. Dibuja el diagrama de
dispersión correspondiente.
Solución: 9,1x ; 978,0xS ; 8,1y ; 424,1yS
Y\X 0 1 2 3 4 Total
0 0 0 2 1 2 5
1 0 0 8 2 0 10
2 0 2 5 1 0 8
3 0 2 0 0 0 2
4 1 1 1 0 0 3
5 2 0 0 0 0 2
Total 3 5 16 4 2 30
ix if ii xf · 2· ii xf
0 3 0 0
1 5 5 5
2 16 32 64
3 4 12 36
4 2 8 32
30 57 137
iy if ii yf · 2· ii yf
0 5 0 0
1 10 10 10
2 8 16 32
3 2 6 18
4 3 12 48
5 2 10 50
30 54 158
4º.- En la tabla siguiente se da el número de exámenes aprobados en Matemáticas (x) y el número de
exámenes aprobados en Historia (y) de un total de tres en cada asignatura. Los datos se refieren a un
colectivo de 30 alumnos.
xf representa las frecuencias absolutas marginales de x. yf representa las frecuencias absolutas
marginales de y.
Y (Hª)
X (Mat.)
1 2 3 xf
1 3 4 0 7
2 4 9 0 13
3 0 2 8 10
yf 7 15 8 30
el blog de mate de aida CSI: Estadística bidimensional Pág. 4
A la vista de esta tabla podemos construir las siguientes tablas:
Distribución marginal de x:
ix if
1 7
2 13
3 10
30
Distribución marginal de y:
iy if
1 7
2 15
3 8
30
Distribución bidimensional:
ix 1 1 2 2 3 3
iy 1 2 1 2 2 3
if 3 4 4 9 2 8
5º.- Representa el diagrama de dispersión correspondiente a la variable bidimensional (x,y), donde x =
temperatura media (ºC), y = latitud de los países de la Unión Europea.
Capitales x y
Amsterdam 13 54
Atenas 24 37
Bonn 13 52
Bruselas 14 52
Copenhague 11 54
Dublín 13 53
Lisboa 19 39
Londres 14 53
Luxemburgo 14 50
Madrid 19 40
París 15 49
Roma 22 42
DISTRIBUCIONES CONDICIONADAS
Fijado un valor 0x de una de las variables unidimensionales x, que forman la bidimensional (x,y), las
frecuencias condicionadas a 0x de los valores iy de y, son los cocientes entre las frecuencias
absolutas de los pares iyx ,0 y la frecuencia absoluta marginal de iy .
6º.- Se ha realizado una encuesta a 120 estudiantes universitarios sobre Aficiones, en sus
modalidades de Lectura, Viajes, Deportes y Maquetas, obteniéndose los resultados recogidos en la
siguiente tabla, en función de la Facultad o Escuela en la que estudian, con tres modalidades: Filologías,
Telecomunicaciones y Medicina.
a) Determina las frecuencias condicionadas a la afición Lectura de las distintas modalidades
de Carreras.
b) Determina las frecuencias condicionadas a la afición Viajes de las distintas modalidades de
Carreras.
c) Determina las frecuencias condicionadas a la afición Deportes de las distintas modalidades
de Carreras.
A/C Lectura Viajes Deportes Maquetas
Filologías 20 15 5 0
IST 5 10 15 10
Medicina 18 12 8 2
Total 43 37 28 12
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 5
Solución:
(X,Y) = (Afición/Carrera).
F (Lectura/Filologías) = 20/43 = 0,46 46 % el 46 % de los lectores estudian Filologías.
F (Lectura/Telecomunicaciones) = 5/43 = 0,12 12 % el 12 % de los lectores estudian
Telecomunicaciones.
F (Lectura/Medicina) = 18/43 = 0,42 42 % el 42 % de los lectores estudian Medicina.
Y así sucesivamente.
CÁLCULO DE PARÁMETROS: COVARIANZA
Al considerar las distribuciones de cada variable por separado se obtienen dos distribuciones
unidimensionales, llamadas marginales cuyos parámetros (media, varianza, desviación típica) ya sabemos
calcular.
N
fxx ii · ;
222xxS x ;
2
xx SS
El parámetro específico de una variable bidimensional es la covarianza.
Se llama covarianza de una variable bidimensional, con valores ii yx , , a la media aritmética de los
productos de las desviaciones de cada variable respecto a su media. Se representa por xyS y su
expresión es:
yx
N
fyx
N
fyyxxS iiiiii
xy ·····
La covarianza presenta el inconveniente de que su valor depende de las unidades de medida de las
variables y, por tanto, no permite comparar la relación entre dos variables medidas en diferentes
unidades.
EJERCICIOS
7º.- (ejercicio resuelto pág. 307):
En 35 familias que habitan en el mismo bloque de pisos hemos hecho un estudio sobre el número de
hijas e hijos que tienen cada una de ellas y hemos obtenido los resultados que figuran en la página 2.
Calcula la covarianza. Dibuja el diagrama de dispersión correspondiente.
25,043,1·2,135
51xyS
8º.- (ejercicio resuelto pág. 308):
En una clase compuesta por 30 alumnos se ha hecho un estudio sobre el número de horas diarias de
estudios X y el número de suspensos Y, obteniéndose los siguientes resultados: (2,0) (2,2) (0,5) (2,1)
(1,2) (2,1) (3,1) (4,0) (0,4) (2,2) (2,1) (2,1) (4,0) (3,1) (2,4) (2,1) (1,2) (2,1) (2,0) (3,0) (3,2) (2,2) (2,2)
(2,1) (0,5) (1,3) (2,2) (2,1) (1,3) (1,4)
Construye la tabla estadística bidimensional en la que figure el recuento correspondiente. Calcula la
covarianza. Dibuja el diagrama de dispersión correspondiente.
Solución:
Podemos construir una tabla bidimensional única, en lugar de las tablas de las distribuciones marginales:
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 6
ix iy if ii fx · ii fx ·
2 ii fy ·
ii fy ·2
iii fyx ··
2 0 2 4 8 0 0 0
2 2 5 10 20 10 20 20
0 5 2 0 0 10 50 0
2 1 8 16 32 8 8 16
1 2 2 2 2 4 8 4
3 1 2 6 18 2 2 6
4 0 2 8 32 0 0 0
0 4 1 0 0 4 16 0
2 4 1 2 4 4 16 8
3 0 1 3 4 0 0 0
3 2 1 3 9 2 4 6
1 3 2 2 2 6 18 6
1 4 1 1 1 4 16 4
SUMA 30 57 127 54 158 70
9,130
57·
N
fxx ii ; 78,062,09,1
30
127· 222
xN
xfS ii
x
8,130
54·
N
fyy
jj; 42,128,1
30
158·22
2
yN
yfS
jj
y
08,18,1·9,130
70·
··
yx
N
fyxS iii
xy
9º.- Halla la covarianza de la distribución bidimensional del ejercicio 1 (página 1).
Solución:
Completando la tabla de la página 1.
ix iy 2
ix 2
iy ii yx ·
164 68 26896 4624 11152
166 72 27556 5184 11952
168 75 28224 5625 12600
170 68 28900 4624 11560
172 75 29584 5625 12900
174 76 30276 5776 13224
175 73 30625 5329 12775
176 72 30976 5184 12672
176 80 30976 6400 14080
178 75 31684 5625 13350
180 80 32400 6400 14400
182 79 33124 6241 14378
2081 893 361221 66637 155043
29,1912
893·
12
2081
12
155043·
··
yx
N
fyxS iii
xy
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 7
10º.- Para establecer la relación entre la superficie en metros cuadrados de los pisos (x) y los
alquileres en euros (y), en una determinada población, se obtuvieron los siguientes datos:
Superficie (x) 50 70 56 80 110 80 90 90 80 67 60 110
Alquiler (y) 530 790 420 730 1220 740 960 860 790 540 470 1200
Calcula la covarianza.
Solución: La superficie media de las viviendas es 258,78 mx y el precio medio del alquiler es
eurosy 8,770 .
Por tanto, la covarianza es:
euromSxy ·53,44678,770·58,7812
1200·110...790·70530·50 2
11º.- Calcula la covarianza de la siguiente distribución llamada ECOSISTEMA y que nos da la
temperatura (en ºC) y la densidad de población (en %):
Temperatura Densidad
19,5 3
15 1,5
16,5 2,5
19 3
19 3
18 2
16 1,5
17 2
19 2,5
18 2
Solución:
ix iy if ii fx · ii fx ·
2 ii fy ·
ii fy ·2
iii fyx ··
15 1,5 1 15 225 1,5 2,25 22,5
16 1,5 1 16 256 1,5 2,25 24
16,5 2,5 1 16,5 272,25 2,5 6,25 41,25
17 2 1 17 289 2 4 34
18 2 2 36 324·2 4 4·2 72
19 2,5 1 19 361 2,5 6,25 47,5
19 3 2 38 361·2 6 9·2 114
19,5 3 1 19,5 380,25 3 9 58,5
10 177 3153,5 56 413,75
Cx º7,1710
177 ; 06,27,17
10
5,3153 2222 xxS x ; 43,1xS ;
3,2y ; 31,03,210
56 2222 yyS y ; 55,0yS .
665,071,40375,413,2·7,1710
75,413xyS .
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 8
CORRELACIÓN
Se llama correlación a la teoría que intenta estudiar la relación o dependencia que existe entre las dos
variables que intervienen en una distribución bidimensional.
1.- La correlación es lineal o curvilínea cuando el diagrama de puntos se condensa en torno a una
línea recta o a una curva.
2.- La correlación es positiva o directa cuando a medida que crece una variable, la otra también
crece.
La correlación es negativa o inversa cuando a medida que crece una variable, la otra decrece.
La correlación es nula cuando no existe ninguna relación entre ambas variables.
3.- La correlación es de tipo funcional si existe una función que satisface todos los valores de la
distribución.
La correlación será tanto más fuerte o más débil, dependiendo de la mayor o menor tendencia de los
valores de la distribución a satisfacer una determinada función.
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON
El coeficiente de correlación lineal de Pearson se define mediante la siguiente expresión:
yx
xy
ss
Sr
·
El signo del coeficiente r viene dado por el signo de la covarianza, ya que las desviaciones típicas son
siempre positivas. Es, por tanto, el signo de la covarianza el que decide el comportamiento de la
correlación:
- Si la covarianza es positiva, la correlación es directa.
- Si la covarianza es negativa, la correlación es inversa.
- Si la covarianza es nula, no existe correlación.
EJERCICIOS
13º.- Calcula el coeficiente de correlación lineal de la distribución del ejercicio 7 (pág. 7)
(ECOSISTEMA).
Solución: 665,03,2·7,1710
75,413·
··
yx
N
fyxS iii
xy ; 84,055,0·43,1
665,0r
ix iy 2
ix 2
iy ii yx ·
5 4,5 25 20,25 22,5
6,5 7 42,25 49 45,5
8 7,5 64 56,25 60
4 5 16 25 20
3 3,5 9 12,25 10,5
26,5 27,5 156,25 162,75 158,5
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 9
Se demuestra que el coeficiente de correlación lineal es un
número comprendido entre –1 y 1. Según el valor de r la
dependencia entre las variables x e y será del siguiente tipo:
1.- Si r = -1 todos los valores de la variable
bidimensional se encuentran situados sobre una recta;
satisfacen la ecuación de la recta. Se dice que entre
las variables x e y existe una dependencia funcional.
2.- Si –1 < r < 0, la correlación es negativa y será
tanto más fuerte a medida que r se acerque a –1, y
tanto más débil a medida que se aproxima a 0. En este
caso se dice que las variables x e y están en
dependencia aleatoria.
3.- Si r = 0, no existe ningún tipo de relación entre las
dos variables. Se dice que son aleatoriamente
independientes.
4.- Si 0 < r < 1, la correlación es positiva y será tanto
más fuerte a medida que r se acerque a 1, y tanto más
débil a medida que se aproxima a 0. En este caso se
dice que las variables x e y están en dependencia
aleatoria.
5.- Si r = 1, todos los valores de la variable
bidimensional se encuentran situados sobre una recta;
satisfacen la ecuación de la recta. Se dice que entre
las variables x e y existe una dependencia funcional.
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 10
EJERCICIOS
14º.- Las desviaciones típicas de las variables marginales de una distribución bidimensional son:
2,1xs y 1,3ys . La covarianza de (x,y) vale – 2,976. Halla el coeficiente de correlación lineal, y di si
se trata de una fuerte/débil correlación directa/inversa.
Solución: 2,1xS ; 1,3yS ; 976,2xyS ;
8,01,3·2,1
976,2r correlación negativa fuerte.
15º.- (ejercicio resuelto pág. 311): Las calificaciones obtenidas por los 40 alumnos de primer curso de
bachillerato en las asignaturas de matemáticas y física figuran en la siguiente tabla estadística
bidimensional. En ella, la variable X hace referencia a la calificación lograda en matemáticas e Y, a la de
física. Calcula el coeficiente de correlación lineal de Pearson y analiza el grado de dependencia entre las
calificaciones de ambas asignaturas.
Y\X 3 4 5 6 7 8 10 Tot
2 4 0 0 0 0 0 0 4
5 0 7 11 0 0 0 0 18
6 0 0 0 5 3 0 0 8
7 0 0 0 5 2 0 0 7
9 0 0 0 0 0 1 0 1
10 0 0 0 0 0 0 2 2
Tot 4 7 11 10 5 1 2 40
Solución:
ix if ii xf · 2· ii xf
3 4 12 36
4 7 28 112
5 11 55 275
6 10 60 360
7 5 35 245
8 1 8 64
10 2 20 200
Total 40 218 1292
iy if ii yf · 2· ii yf
2 4 8 16
5 18 90 450
6 8 48 288
7 7 49 343
9 1 9 81
10 2 20 200
Total 40 224 1378
ii yx , ijf jiij yxf ··
(3,2) 4 24
(4,5) 7 140
(5,5) 11 275
(6,6) 5 180
(6,7) 5 210
(7,6) 3 126
(7,7) 2 98
(8,9) 1 72
(10,10) 2 200
Total 40 1325
45,540
218·
N
fxx ii ; 612,145,5
40
1292· 222
xN
xfS ii
x
6,540
224·
N
fyy
jj; 758,16,5
40
1378·22
2
yN
yfS
jj
y
605,26,5·45,540
1325·
··
yx
N
fyxS iii
xy 919,0758,1·612,1
605,2
·
yx
xy
ss
Sr correlación
positiva y muy fuerte.
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 11
16º.- (ejercicio 4 pág. 320): Se ha solicitado a un grupo de 50 individuos información sobre el número
de horas que dedica diariamente a dormir y ver la televisión. La clasificación de las respuestas ha
permitido elaborar la siguiente tabla:
Nº horas dormidas X 6 7 8 9 10
Nº horas televisión Y 4 3 3 2 1
Frec. Absolutas 3 16 20 10 1
Calcula: a) Realiza el diagrama de dispersión correspondiente.
b) Media y mediana del número de horas dedicadas a dormir.
c) Porcentaje de individuos que ven la televisión por encima de la media.
d) Coeficiente de correlación lineal. Interpretación.
Solución: a) Me = 8 horas.; 8,750
390x horas.
b) 82,250
141y ; porcentaje de individuos por encima de la media: 78,0
50
31620
78%.
c) 89,08,750
3082 2 xS ; 55,082,250
413 2 yS ; 436,082,2·8,750
1078xyS
891,055,0·89,0
436,0
·
yx
xy
ss
Sr correlación negativa y no muy fuerte.
18º.- (ejercicio 6 pág. 323): Diez alumnos han realizado durante el último mes dos ejercicios de
matemáticas. Las notas son las de la tabla.
Primer ejercicio 4 7 6 9 4 7 9 4 8 10
Segundo ejercicio 5 8 5 10 3 6 8 4 8 10
Dibuja la nube de puntos. Ajusta a ojo una recta a la nube de puntos y estima el valor que tendrá la
posible correlación.
Solución:
La recta ajustada a ojo puede ser
bisectriz del cuadrante: y = x. La
correlación será positiva y fuerte,
próxima a 1.
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 12
19º.- Se han hecho dos pruebas de historia a un grupo de diez alumnos de 3º de E.S.O. para valorar
sus conocimientos. Los resultados obtenidos son:
Alumno 1 2 3 4 5 6 7 8 9 10
A 14 12 15 12 13 12 17 7 9 14
B 14 13 17 15 16 12 22 10 14 20
Calcula la covarianza y el coeficiente de correlación. ¿Existe dependencia entre ambas pruebas?
Solución:
5,12x ; 72,245,72
xx SS ; 3,15y ; 43,381,112
yy SS ;
65,73,15·5,1210
1989xyS 82,0
43,3·72,2
65,7r correlación positiva y débil.
20º.- En un experimento para estudiar la amplitud de la onda de choque producida por una explosión se
sitúan tres sensores a 5 m; otros tres, a 10 m; y otros tres, a 15 m de la carga. Las amplitudes
obtenidas por cada uno se describen en la siguiente tabla:
Distancia 5 5 5 10 10 10 15 15 15
Amplitud 8,6 8,2 8,1 5,8 6,2 6,1 5,2 4,8 4,7
Haz el diagrama que relacione las dos variables. Calcula el coeficiente de correlación e interpreta su
valor.
Solución:
109
90x ; 1,410
9
1050 2 xS ;
41,69
7,57y ; 43,141,6
9
27,388 2 yS ;
65,541,6·109
526xyS
96,043,1·1,4
65,5
r correlación negativa y muy
fuerte.
21º.- En un taller trabajan 12 operarios. La siguiente tabla da el tiempo empleado por cada uno de
ellos, durante la jornada de la mañana (X), y de la tarde (Y), en realizar determinado montaje (los
tiempos se miden en minutos):
X 12 11 9 13 10 11 12 14 10 9 11 12
Y 14 11 14 11 12 15 12 13 16 10 10 14
Halla el coeficiente de correlación entre ambas variables.
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 13
Solución:
ix iy if ii fx · ii fx ·
2 ii fy ·
ii fy ·2
iii fyx ··
12 14 2 24 288 28 392 336
11 11 1 11 121 11 121 121
9 14 1 9 126 14 196 126
13 11 1 13 143 11 121 143
10 12 1 10 120 12 144 120
11 15 1 11 165 15 225 165
12 12 1 12 144 12 144 144
14 13 1 14 182 13 169 182
10 16 1 10 160 16 256 160
9 10 1 9 90 10 100 90
11 10 1 11 110 10 100 110
12 134 1522 152 1969 1697
17,1112
134x ; 51,117,11
12
1522 2 xS ; 67,1212
152y ; 93,167,12
12
1969 2 yS ;
1072,067,12·17,1112
1697xyS 036,0
93,1·51,1
1072,0
r variables independientes.
ESTUDIO ANALÍTICO DE LA REGRESIÓN LINEAL
Sobre el diagrama de dispersión de la variable bidimensional (x,y) se dibuja una recta llamada recta de
regresión de y sobre x, que es, en primera aproximación, la línea que más se ajusta a esa nube de
puntos.
El problema del mejor ajuste se resuelve obligando a que la suma de los cuadrados de las desviaciones
sea lo menor posible. Así se obtienen las llamadas rectas de regresión:
Recta de regresión de y sobre x: xxs
Syy
x
xy
2
Recta de regresión de x sobre y: yys
Sxx
y
xy
2
EJERCICIOS
22º.- (ejercicio resuelto pág. 313): Una empresa dedicada a la elaboración y venta de ropa para
jóvenes ha realizado los gastos en publicidad y ha obtenido las ventas que figuran en la siguiente tabla.
Los datos vienen expresados en miles de € y se refieren a los últimos diez años.
Publicidad 7,5 8 8,5 10 10,5 12 13 14 15 18
Ventas 200 205 230 240 250 270 280 300 310 325
Si llamamos X a la variable gastos en publicidad e Y a beneficios de ventas, halla:
a) El coeficiente de correlación lineal. Analiza la dependencia de ambas variables.
b) La recta de regresión de Y sobre X.
c) La empresa decide invertir el próximo año 25 miles de € en publicidad. Si se mantiene la
misma tendencia de los años anteriores, ¿cuál es el volumen de ventas esperado?
d) Si la empresa desea lograr 500 miles de € en ventas, ¿cuánto debe invertir en publicidad?
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 14
Solución:
ix 2
ix iy 2
iy ii yx ·
7,5 56,25 200 40000 1500
8 64 205 42025 1640
8,5 72,25 230 52900 1955
10 100 240 57600 2400
10,5 110,25 250 62500 2625
12 144 270 72900 3240
13 169 280 78400 3640
14 196 300 90000 4200
15 225 310 96100 4650
18 324 325 105625 5850
116,5 1460,75 2610 698050 31700
65,1110
5,116x ; 22,365,11
10
75,1460 2 xS ;
26110
2610y ; 04,41261
10
698050 2 yS ; 35,129261·65,1110
31700xyS
a) 98,004,41·22,3
35,129r grado de dependencia entre las dos variables bueno.
b) Recta de regresión de y sobre x: 65,1122,3
35,129261
2 xy 44,11549,12 xy
c) Si x = 25 miles de €, obtenemos una estimación de las ventas de y = 427,69 miles de €.
d) Si y = 500 miles de €, la empresa deberá invertir en publicidad, aproximadamente, 30,79 miles de €.
23º.- (ejercicio 6 pág. 321): La estadística de ingresos de determinadas empresas, en millones de €, y
de empleados, en miles, es la siguiente:
Ingresos 5,7 3,8 1,9 1 1
Empleados 16 29 17 6 9
a) Estudia la correlación existente entre ambas variables.
b) Determina la recta de regresión de: ingresos, en miles de millones; empleados, en miles.
Solución: 68,2x ; 82,1xS ; 4,15y ;
96,7yS ; 47,8xyS
a) 58,096,7·82,1
47,8r
b) Recta de regresión de y sobre x:
68,292,3
47,84,15 xy
Recta de regresión de x sobre y:
4,1513,068,2 yx x = 0,13 y + 0,68
ix iy 2
ix 2
iy ii yx ·
5,7 16 32,49 256 91,2
3,8 29 14,44 841 110,2
1,9 17 3,61 289 32,3
1 6 1 36 6
1 9 1 81 9
13,4 77 52,54 1503 248,7
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 15
24º.- (ejercicio 7 pág. 321): Una compañía discográfica ha recopilado la siguiente información sobre el
número de conciertos dados, durante el verano, por 15 grupos musicales y las ventas de discos de estos
grupos (expresadas en miles de CDs), obteniéndose los datos siguientes:
conciertos\CDs 10 - 30 30 - 40 40 – 80
1 – 5 3 0 0
5 – 10 1 4 1
10 – 20 0 1 5
a) Calcula el número medio de CDs vendidos por estos grupos.
b) ¿Cómo es el grado de dependencia lineal del número de conciertos dado por el grupo con
respecto al número de discos que ha vendido?
c) Obtén la recta de regresión que explica la dependencia anterior.
d) Si un grupo musical ha vendido 18000 CDs, ¿qué número de conciertos es previsible que dé?
Solución:
ix
conciertos
iy
CDs
(en miles)
if ii fx · ii fx ·
2 ii fy ·
ii fy ·2
iii fyx ··
3 20 3 9 27 60 1200 180
7,5 20 1 7,5 56,25 20 400 150
7,5 35 4 30 225 140 4900 1050
7,5 60 1 7,5 56,25 60 3600 450
15 35 1 15 225 35 1225 525
15 60 5 75 1125 300 1800 4500
144 1714,5 615 6855
6,9x ; 71,4xS ; 41y ; 55,16yS ; 6855·· iii fyx .
a) El número medio de elepés vendidos es 9600.
b) Para conocer el grado de dependencia que existe entre las dos variables, calculamos el coeficiente
de correlación lineal:
4,6341·6,915
6855xyS ; 81,0
55,16·7,4
4,63r correlación positiva y moderada.
c) Recta de regresión de y sobre x: 6,97,4
4,6341
2 xy 44,1387,2 xy .
d) Si un grupo musical ha vendido 18000 CDs, para saber el número de conciertos que estimamos que
dará sustituimos en la ecuación de la recta x = 18 y obtenemos: 6544,1318·87,2 y
conciertos.
25º.- (ejercicio 8 pág. 321): Se ha observado una variable estadística bidimensional y se ha obtenido la
siguiente tabla:
Y/X 100 50 25
14 1 1 _
18 2 3 _
22 _ 1 2
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 16
a) Calcula la covarianza.
b) Obtén e interpreta el coeficiente de correlación lineal.
c) Determina la ecuación de la recta de regresión de Y sobre X.
Solución: En una tabla simple tendremos los siguientes valores:
X 100 100 50 50 50 25
Y 14 18 14 18 22 22
if 1 2 1 3 1 2
ix iy if ii fx · ii fx ·
2 ii fy ·
ii fy ·2
iii fyx ··
100 14 1 100 10000 14 196 1400
100 18 2 200 20000 36 648 3600
50 14 1 50 2500 14 196 700
50 18 3 150 7500 54 972 2700
50 22 1 50 2500 22 484 1100
25 22 2 50 1250 44 968 1100
10 600 43750 184 3464 10600
60x ; 83,27xS ; 4,18y ; 8,2yS
a) 444,18·6010
10600xyS
b) 56,08,2·83,27
44
r correlación negativa y débil.
c) Recta de regresión de y sobre x: 6051,774
444,18
xy
26º.- (ejercicio 11 pág. 322): La siguiente tabla muestra las notas que 5 amigos de primer curso de
Bachillerato obtuvieron en la 1ª y 2ª evaluación en la asignatura de Inglés:
1ª evaluación (X) 5 6,5 8 4 3
2ª evaluación (Y) 4,5 7 7,5 5 3,5
a) Calcula el coeficiente de correlación lineal, interpretando el resultado.
b) Determina las rectas de regresión de Y sobre X y de X sobre Y.
c) Halla el punto donde se cortan las dos rectas de regresión.
Solución: 3,5x ; 78,1xS ; 5,5y ; 52,1yS ; 55,2xyS
a) 94,052,1·78,1
55,2r
b) Rectas de regresión: de y sobre x: 3,517,3
55,25,5 xy ; De x sobre y: 5,5
31,2
55,23,5 yx
c) Ambas rectas se cortan en el punto de coordenadas: x = 5,3 e y = 5,5.
28º.- Calcula las ecuaciones y dibuja las rectas de regresión del ejercicio 7 de la página 7
(ECOSISTEMA).
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 17
Solución:
ix iy 2
ix 2
iy ii yx ·
5 4,5 25 20,25 22,5
6,5 7 42,25 49 45,5
8 7,5 64 56,25 60
4 5 16 25 20
3 3,5 9 12,25 10,5
26,5 27,5 156,25 162,75 158,5
7,17x ; 43,1xS ; 3,2y ; 55,0yS ; 665,0xyS .
Recta de y sobre x: 7,1743,1
665,03,2
2 xy 333,0 xy
Recta de x sobre y: 3,255,0
665,07,17
2 yx 6,122,2 yx .
29º.- La covarianza positiva de una distribución resulta ser los 4
3 del producto de las desviaciones
típicas marginales, y la pendiente de la recta de regresión de y sobre x vale 1. Halla el coeficiente de
correlación y la pendiente de la otra recta de regresión.
Solución:
xy
x
xy
y
xy
x
xy
x
x
xy
x
y
xy
yxxy
sss
S
s
S
s
Ss
s
S
ss
SssS
3
4
4
3
1
4
3·
4
3
2
. Entonces:
16
91·
16
9
16
9
3
42222
x
xy
x
xy
y
xy
s
S
s
S
s
Sm ;
4
3
·
yx
xy
ss
Sr
30º.- Un conjunto de personas tiene como media de sus pesos 60 kg, siendo la media de sus alturas de
168 cm, con desviaciones típicas respectivas de 4,8 kg y 8 cm. La covarianza de las dos variables es 38.
Calcula la recta de regresión de peso sobre altura, y el peso de una persona de 175 cm de estatura.
Solución:
kgx 60 ; 8,4xS ; cmy 168 ; cmS y 8 ; 38xyS .
Recta de x sobre y: 1688
3860
2 yx 12,9959,060 yx 12,3959,0 yx .
P(y=175 cm): x = 0,59 · 175 – 39,12 = 103,25 – 39,12 = 64,13 kg.
31º.- Cinco estudiantes han preparado una prueba durante las horas que se indican y han obtenido las
siguientes notas:
X (tiempo) 8 18 9 16 12
Y (nota) 6 9 5 8 6
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 18
a) Calcula el coeficiente de correlación lineal.
b) Halla la ecuación de la recta de regresión de y sobre x.
c) Para obtener una nota de un 10, ¿qué tiempo se estima necesario?
Solución:
ix iy ii fx ·
2 ii fy ·
2 iii fyx ··
8 6 64 36 48
18 9 324 81 162
9 5 81 25 45
16 8 256 64 128
12 6 144 36 72
63 34 455
6,12x horas; 8,6y ; 04,152xS ; 878,3xS ; 16,2
2yS ; 47,1yS ; 32,5xyS .
a) 933,0470,1·878,3
32,5r
b) 6,1204,15
32,58,6 xy 3396,2354,0 xy .
c) 8,616,2
32,56,12 yx 15,446,2 yx el tiempo estimado para sacar un 10 es de
2,46·10-4,15=20,45 horas.
32º.- Una empresa que fabrica componentes eléctricos para automoción construye una determinada
pieza en fábricas que tiene en cuatro países distintos, P, Q, R y S. El departamento de verificación pasa
un control de calidad sobre 50 piezas producidas en cada uno de esos países, con los resultados que se
indican:
Países/piezas P Q R S
Defectuosas 30 20 10 40
Buenas 20 30 40 10
A) Establece la distribución de frecuencias relativas de D (defectuosas) y B (buenas) y sus
distribuciones marginales.
B) Halla la distribución de piezas defectuosas, según los países de donde proceden.
Solución:
a) Se divide cada frecuencia absoluta por el número total de piezas verificadas, es decir, 200.
b) 3,05,0
15,0/
D
DPDP
f
ff el 30 % de piezas defectuosas procede del país P.
2,05,0
10,0/
D
DQ
DQf
ff el 20 % de piezas defectuosas procede del país Q.
1,05,0
05,0/
D
DRDR
f
ff el 10 % de piezas defectuosas procede del país R.
4,05,0
20,0/
D
DS
DSf
ff el 40 % de piezas defectuosas procede del país S.
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 19
33º.- Las rectas de regresión de una
distribución bidimensional (x,y) son las de la
siguiente figura. Con esos datos y sabiendo,
además, que el producto de las desviaciones
típicas marginales vale 1,5, halla la covarianza.
Solución:
- x sobre y: 11º135tanº13522
y
xy
s
SmA
- y sobre x: 57,027,0º150tanº15021
x
xy
s
SmB
5,1· yx ss ; Resolviendo el sistema: 13,1xyS
34º.- La recta de regresión de y sobre x de una distribución bidimensional (x,y) de covarianza positiva
es una de las siguientes. Deduce razonadamente cuál de las siguientes puede ser:
a) y – 1 = 2 – x b) y = -x + 4 c) y + 2x – 1 = 0 d) y + 1 = x - 2
Solución:
a) 00321 xySmxyxy
b) NOSmxy xy 004
c) NOSmxy xy 0012
d) SISmxyxy xy 00321
35º.- El coeficiente de correlación lineal de una distribución estadística bidimensional (x,y) es r = -0,8.
Una de las cuatro ecuaciones de la recta de regresión de y sobre x que se facilita no puede ser de esta
regresión. Descúbrela y razona porqué.
a) y = – x + 1 b) y = 2 - x c) y + 2x – 1 = 0 d) y – 3x = 2
Solución: r = -0,8
a) 1xy si puede.
b) xy 2 si puede.
c) 12012 xyxy si puede.
d) 02323 mxyxy no puede.
36º.- Una asociación dedicada a la protección de la infancia desea estudiar la relación entre la
mortalidad infantil en cada país y el número de camas de hospital por cada mil habitantes. Para ello,
posee los siguientes datos sobre 10 países concretos que pueden considerarse representativos del
resto:
X 50 100 70 60 120 180 200 150 30 90
Y 5 2 2,5 3,75 4 1 1,25 0,75 7 3
de forma que X representa el número de camas por cada mil habitantes e Y el tanto por ciento de
mortalidad infantil en un país correspondiente.
a) Calcula razonadamente la media y la desviación típica de X.
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 20
b) Calcula razonadamente la media y la desviación típica de Y.
c) ¿Qué distribución está más dispersa? Razona la respuesta.
d) Calcula el coeficiente de correlación lineal e interprétalo.
e) Encuentra la recta de regresión de y sobre x y estima la mortalidad infantil en el caso de
existir 150 camas.
Solución:
a) 10510
1050x camas por cada 1000 hab.; 898,53105
10
139300 2 xS
b) 025,310
25,30y % de mortalidad infantil; 87,1025,3
10
44,126 2 yS
c) 37,82025,3·11510
5,2352xyS ; 51,0
x
SCV x
x y 62,0y
SCV
y
y : más dispersa la y.
d) 81,087,1·898,53
37,82
r correlación negativa y alta.
e) Recta de regresión de y sobre x: 105898,53
37,82025,3
2
xy 105028,0025,3 xy
Estimación para x = 150 camas: mortalidad infantil: y = 1,765 %.
37º.- Las rectas de regresión de 4 distribuciones bidimensionales son las siguientes:
a) y=x+2; x=4 b) y=(4/5)x+2; x=(5/6)y+2
c) y=3; x=2 d) y=x; x=(4/5)y+1
¿En qué casos es significativa la regresión lineal?
Solución:
Cuanto menor es el ángulo entre las rectas, mayor es el valor del coeficiente de correlación lineal, es
decir, representando gráficamente las rectas, se tiene que serían significativas las opciones de los
apartados “b” y “d”. El apartado “a” presenta correlación escasa y el apartado “c” correlación nula.
38º.- Se observaron las edades de 5 niños y sus pesos respectivos, obteniéndose los siguientes
resultados:
Edad, en años (x) 2 4,5 6 7,2 8
Peso, en kg (y) 15 19 25 33 34
a) Halla el coeficiente de correlación y las rectas de regresión de Y sobre X y de X sobre Y.
b) ¿Qué peso corresponderá a un niño de 5 años? ¿Qué edad corresponderá a un peso de 36
kg?
Solución:
ix iy if ii fx ·
2 ii fy ·
2 iii fyx ··
2 15 1 4 225 30
4,5 19 1 20,25 361 85,5
6 25 1 36 625 150
7,2 33 1 51,84 1089 237,6
8 34 1 64 156 272
27,7 126 5 176,09 3456 775,1
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 21
54,5x ; 13,2xS ; 2,25y ; 49,7yS ; 4,15xyS
a) 96,045,7·13,2
4,15r . Recta de regresión de y sobre x:
99,640,354,553,4
4,152,25 xyxy
De x sobre y: 04,427,02,2549,7
69,1554,5
2 yxyx
b) Si x = 5 años, obtenemos un peso de y = 23,99 kg.
Si y = 36 kg, la edad correspondiente será: x = 14,09 años.
39º.- En la siguiente tabla se indica la edad (en años) y la conducta agresiva (media en una escala de 1 a
10), de 10 niños.
Edad 6 6,4 6,7 7 7,4 7,9 8 8,2 8,5 8,9
Conducta agresiva 9 6 7 8 7 4 2 3 2 1
a) Obtén la recta de regresión de la conducta agresiva, en función de la edad.
b) A partir de dicha recta, obtén el valor de conducta agresiva que corresponderá a un niño de
7,2 años.
Solución:
75xf ; 72,5702 fx ; 49yf ; 3132 fy ; 2,345xyf .
5,7x ; 91,0xS ; 9,4y ; 7,2yS ; 23,2xyS
a) Recta: 5,772,29,4 xy y = -2,72 x + 25,3
b) Si x = 7,2 años, entonces: y = 5,72.
40º.- Las puntuaciones obtenidas por los alumnos de un curso en una batería de test que mide la
habilidad verbal (X) y el razonamiento abstracto (Y), son los siguientes:
X/Y 20 30 40 50
[25,35) 6 4 _ _
[35,45) 3 6 1 _
[45,55) _ 2 5 3
[55,65) _ 1 2 7
a) ¿Existe correlación entre ambas variables?
b) Según los datos de la tabla, si uno de estos alumnos obtiene una puntuación de 70 puntos en
razonamiento abstracto, ¿en cuánto se estimará su habilidad verbal?
Solución: En una tabla simple tendremos los siguientes valores:
X 30 30 40 40 40 50 50 50 60 60 60
Y 20 30 20 30 40 30 40 50 30 40 50
if 6 4 3 6 1 2 5 3 1 2 7
45x ; 18,11xS ; 75,34y ; 95,10yS ; 75,98xyS
Matemáticas Aplicadas a las Ciencias Sociales I. Estadística bidimensional. Pág. 22
a) 8,095,10·18,11
75,98r correlación positiva y moderada.
b) Recta de regresión de y sobre x: 4599,124
75,9875,34 xy
Recta de regresión de x sobre y: 8,079,045125
75,9875,34 yxxx
Si y = 70, la habilidad verbal es: x = 54,5.
41º.- La producción anual de aluminio en una fábrica, durante el período 1970-1981, ha sido, en
millones de kilos:
Años 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981
Producción 4 5 4 6 5 3 4 5 6 4 5 6
a) Determina la ecuación de la línea de tendencia de producción durante el citado período.
b) Suponiendo que se mantenga la anterior tendencia durante el período 1981-1989, estima la
producción para el año 1988.
Solución: En una tabla simple tendremos los siguientes valores:
X 1970 1971 1972 1973 1974 1075 1976 1977 1978 1979 1980 1981
Y 4 5 4 6 5 3 4 5 6 4 5 6
5,6x ; 45,3xS ; 75,4y ; 96,0yS
a) 5,653,12
96,075,4 xy
b) El año 1998 corresponde a x = 19. Entonces, la producción aproximada será: y = 5,71.
42º.- Una empresa dispone de los datos de la tabla:
Número de vendedores 3 4 5 8 10
Número de pedidos 90 110 140 190 235
Estima el número de pedidos que obtendrían 9 vendedores. Indica el método utilizado en el cálculo de la
estimación y la fiabilidad de esta estimación.
Solución: 6x ; 6,2xS ; 153y ; 1,53yS ; 138xyS ; 996,01,53·61,2
138r correlación
lineal muy fuerte. Recta de regresión: 681,6
138153 xy
Si x = 9, entonces el número de pedidos será: y = 213,78.