estad inea tema_4

22
Estadística Aplicada Tema IV TEMA IV. Descripción estadística de variables. Diagramas de caja. Transformaciones de los datos. Distribuciones de frecuencias multivariantes. Medidas de dependencia lineal. Rectas de regresión. OBJETIVOS GENERALES. En este tema continua y termina la explicación de los contenidos de estadística descriptiva. OBJETIVOS ESPECÍFÍCOS. 1) Entender el significado de un diagrama de caja. 2) Aprender a construir un diagrama de caja. 3) Entender las razones que justifican la transformación de los datos. 4) Entender el efecto que las transformaciones lineales tienen en los resultados de las medidas estadísticas. 5) Obtener con las medidas estadísticas resultantes de la transformación lineal de los datos, las correspondientes a los datos originales. 6) Comprender el efecto de las diversas transformaciones no lineales. 7) Conocer las características fundamentales del análisis descriptivo multivariante. 8) Comprender el significado de las medidas de dependencia y como se obtienen. 9) Entender el significado correcto de una recta de regresión. Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 1 Estadística Aplicada

Upload: juljav

Post on 05-Jan-2016

226 views

Category:

Documents


1 download

DESCRIPTION

estadística

TRANSCRIPT

Page 1: Estad Inea TEMA_4

Estadística Aplicada Tema IV

TEMA IV. Descripción estadística de variables.

Diagramas de caja. Transformaciones de los datos. Distribuciones de frecuencias multivariantes. Medidas de dependencia lineal. Rectas de regresión.

OBJETIVOS GENERALES.

En este tema continua y termina la explicación de los contenidos de estadística descriptiva.

OBJETIVOS ESPECÍFÍCOS.

1) Entender el significado de un diagrama de caja.

2) Aprender a construir un diagrama de caja.

3) Entender las razones que justifican la transformación de los datos.

4) Entender el efecto que las transformaciones lineales tienen en los resultados de las medidas estadísticas.

5) Obtener con las medidas estadísticas resultantes de la transformación lineal de los datos, las correspondientes a los datos originales.

6) Comprender el efecto de las diversas transformaciones no lineales.

7) Conocer las características fundamentales del análisis descriptivo multivariante.

8) Comprender el significado de las medidas de dependencia y como se obtienen.

9) Entender el significado correcto de una recta de regresión.

METODOLOGÍA Y ACTIVIDADES.

Como siempre en fichero de PowerPoint tienes una explicación resumida del tema. En las páginas de este texto se ofrece un detalle mayor, que tal vez te facilite su estudio.

Es recomendable un repaso de alguno de los textos de la bibliografía que se cita, donde puedes obtener explicaciones más detalladas y un mayor desarrollo del material.

No olvides realizar los ejercicios propuestos y el cuestionario de autoevaluación.

BIBLIOGRAFÍA.

PEÑA, D., 1994. Estadística. Modelos y métodos 1. Fundamentos. Alianza Editorial, pp.64-69, 79-82.NEWBOLD, P., 1997. Estadística para los negocios y la economía. Prentice Hall, pp.48-50.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 1

Estadística Aplicada

Page 2: Estad Inea TEMA_4

Estadística Aplicada Tema IV

1. Diagramas de caja. (OE)

Un diagrama de caja es una herramienta muy útil para el estudio de la homogeneidad de los datos de una distribución.

En el ejemplo que se muestra vemos los resultados de análisis foliar del calcio en unos viñedos, para plantaciones de diferente edad en tres campañas distintas.

El cuerpo de cada caja nos muestra los tres cuartiles de la distribución de los datos y las patillas llegan hasta el menor y el mayor de los datos no atípicos (según sea por debajo o por arriba). Los datos atípicos se representan como círculos o estrellas.

Para entender el significado del diagrama de caja es útil imaginar que representa algo así como el histograma de los datos a vista de pájaro. Las colas del histograma corresponderían a las patillas y los atípicos, mientras que su cuerpo central lo daría la caja. De esta manera es fácil también juzgar la posible asimetría de la distribución.

Los diagramas de caja se emplean muchas veces para mostrar el comportamiento de una determinada variable en distintas subpoblaciones (edad y año, en el ejemplo).

En definitiva podemos resumir sus principales características en los siguientes aspectos:

Es una representación semigráfica de los datos.

Útil para detectar valores atípicos.

Útil para comparar una variable en distintas poblaciones

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 2

Análisis foliar D.O. Cigales

Hoja completa en envero

año de la muestra

1.9991.9981.997

calc

io %

4,5

4,0

3,5

3,0

2,5

2,0

edad plantación

Vieja

Joven

Análisis foliar D.O. Cigales

Hoja completa en envero

año de la muestra

1.9991.9981.997

calc

io %

4,5

4,0

3,5

3,0

2,5

2,0

edad plantación

Vieja

Joven

Page 3: Estad Inea TEMA_4

Estadística Aplicada Tema IV

La construcción del diagrama de caja incluye estos pasos:

1) Obtener los tres cuartiles de la distribución de los datos.

2) Dibujar la caja, desde Q1 a Q3, señalando la mediana Q2.

3) Obtener los límites que servirán para identificar los atípicos.

L i = Q1 – 1,5 (Q3 – Q1)

L s = Q3 + 1,5 (Q3 – Q1)

4) Se consideran no atípicos todos los valores dentro del rango de L i a L s y atípicos los valores fuera de ese rango.

5) Se dibujan las patillas desde el centro de cada extremo de la cajahasta el valor más alejado no atípico.

6) Se dibujan los atípicos que existan.

A continuación veremos un ejemplo. Se pide que construyamos el diagrama de caja correspondiente a los datos 10, 0, 12, 55, 15, 14

1) Obtenemos los cuartiles.

Previamente, procedemos a ordenar los datos: 0, 10, 12, 14, 15, 55

Posicion en la lista Valor teórico (por interpolación)

Primer cuartil : Q1 = 7,5

Segundo cuartil : Q2 = 13

Tercer cuartil: Q3 = 25

Con esos valores ya se podría dibujar la caja.

2) Obtenemos los límites de los valores no atípicos.

L i = 7,5 - 1,5 (25 - 7,5) = -18,75

L s = 25 + 1,5 (25 - 7,5) = 51,25

3) Dibujamos el gráfico. Horizontalmente en este caso por razones de espacio.

(ejercicio)

2. Transformaciones de los datos. (OE)

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 3

l l l l ll

0 10 20 30 40 50

Q1 Q2 Q3

55

Page 4: Estad Inea TEMA_4

Estadística Aplicada Tema IV

Es frecuente en estadística recurrir a la transformación de los datos una vez ya han sido recogidos. Las razones son diversas: en unos casos para poder manejar cifras numéricas menos engorrosas; en otros para poder aplicar determinadas técnicas estadísticas.

Las transformaciones posibles de los datos se clasifican en dos categorías:

Transformaciones lineales. Suponen sumar y/o multiplicar por unas constantes los valores de los datos originales. El propósito es obtener unas cifras numéricas más cómodas de operar. Ejemplo: los datos de estatura de un conjunto de personas, que estaban en metros, pasarlos a centímetros multiplicando por 100 (se evitan así los decimales).

Transformaciones no lineales. En esta clase de transformaciones, que luego veremos, lo que se pretende es mejorar la simetría del conjunto de la distribución de los datos. Y ello porque la aplicación de determinadas técnicas de inferencia así lo requiere, como en su momento explicaremos.

Como se ha dicho, las transformaciones lineales sólo implican sumar y/o multiplicar por unas

constante. Si designamos mediante x el valor del dato original y mediante y el valor de ese dato una vez transformado, observemos que la operación se puede describir así:

Dato original Dato transformado

x y = a + b· x

Donde a y b representan las constantes que sumamos y multiplicamos a los datos originales. Por ejemplo, pasar los datos de metros a centímetros supondría utilizar las

constantes a = 0 y b = 100.

Estas transformaciones lineales afectan a los resultados de las medidas estadísticas obtenidas. En la siguiente tabla vemos la relación entre unas y otras.

Datos originales Datos transformados

Media aritmética

Mediana Me (x) Me (y) = a + b·Me (x)

Cuartiles Q (x) Q (y) = a + b · Q (x)

Desviación típica s (x) s (y) = b · s (x)

Varianza s2 (x) s2 (y) = b2 · s2 (x)

Coeficiente asimetría CA (x) CA (y) = CA (x)

Coef. apuntamiento CA p (x) CA p (y) = CA p (x)De acuerdo con la tabla anterior, la media aritmética, la mediana y los cuartiles (y en general los cuantiles) de los datos transformados, son esas mismas medidas de los datos originales

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 4

Page 5: Estad Inea TEMA_4

Estadística Aplicada Tema IV

sumándoles y/o multiplicándoles las mismas constantes con las que habíamos transformado los datos.

En el caso de la desviación típica, es la misma desviación típica de los datos originales multiplicada por la constante b que habíamos utilizado (la constante a que sumamos no afecta al resultado).

En el caso de la varianza, es la varianza de los datos originales multiplicada por la constante b al cuadrado. La constante a no afecta al resultado.

Finalmente, en el caso de los coeficientes de asimetría y de apuntamiento, este tipo de transformaciones no afecta a los resultados.

Conocida la relación entre unas y otras es sencillo proceder a la inversa: una vez calculadas las medidas estadísticas correspondientes a los datos transformados (más fáciles de obtener), no habría dificultades para sacar las de los datos originales.

Ejemplo. Al trabajar con nuestro banco de datos de rendimientos en el cultivo del maiz, los datos de cosechas obtenidas en la campaña (en toneladas) los hemos pasado a quintales métricos, multiplicando por 10. Además hemos restado a esos resultados la cifra 100 para que los números fueran más pequeños y cómodos de operar.

- Lo primero de todo es identificar las constantes empleadas.

En este caso, a = -100 y b = 10

- Supongamos que los resultados obtenidos, trabajando con los datos transformados, hubieran sido los siguientes:

Media aritmética = 13,2 Desviación típica = 3,9Mediana = 10,8 Varianza = 15,2Primer cuartil = 7,5 C. Asimetría = 0,7Tercer cuartil = 20 C. Apuntamiento = 3,6

- Según lo anterior, los resultados de esas medidas para los datos originales (toneladas) serían:

Media aritmética = 11,32 Desviación típica = 0,39Mediana = 11,08 Varianza = 0,152Primer cuartil = 10,75 C. Asimetría = 0,7Tercer cuartil = 12,0 C. Apuntamiento = 3,6

13,2 = -100 + 10 15,2 = 102 · s2(x)

luego luego

Comprueba tu mismo esos resultados para las restantes medidas.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 5

Page 6: Estad Inea TEMA_4

Miles de ptas.

Precios de la vivienda

Zona Centro 1.992

Fre

cue

nci

a

400

300

200

100

0

Miles de ptas.

Precios de la vivienda

Zona Centro 1.992

Fre

cue

nci

a

400

300

200

100

0

Estadística Aplicada Tema IV

La otra clase de transformaciones son las no lineales. Con ellas lo que se busca es mejorar la simetría en la distribución de los datos.

No explicaremos las relaciones existentes entre las medidas estadísticas de los datos originales y las de los datos transformados (asunto más complejo). Así que presta sólo atención al sentido de estas transformaciones (mejorar la simetría y poder utilizar después determinadas técnicas inferenciales) y a conocer algunas de ellas.

Las más importantes se resumen en el cuadro:

Distribución original Transformación recomendable

Asimetría a la izquierda (cuadrado)

Asimetría a la derecha (media) (raíz cuadrada)

Asimetría a la derecha (fuerte) (logarítmica)

Asimetría a la derecha (muy fuerte) (inversa)

La manera más intuitiva de comprenderlo es a través de un ejemplo. La figura siguiente recoge el histograma de un estudio sobre los precios de la vivienda en Madrid.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 6

Page 7: Estad Inea TEMA_4

Estadística Aplicada Tema IV

Es evidente la asimetría hacia la derecha en el histograma de los datos originales. Por tanto vamos a aplicar las transformaciones recomendadas. Comenzaremos con la transformación raíz cuadrada. El nuevo histograma nos muestra el resultado:

La mejora obtenida en cuanto a simetría es evidente. Sin embargo puede caber la duda sobre si una transformación más enérgica no hubiera resultado mejor. Por ello, probamos a continuación con la transformación logarítmica.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 7

Raiz cuadrada del precio

Precios de la vivienda

Zona Centro 1.992

Fre

cue

nci

a

300

200

100

0

Raiz cuadrada del precio

Precios de la vivienda

Zona Centro 1.992

Fre

cue

nci

a

300

200

100

0

Logaritmo del precio

Precios de la vivienda

Zona Centro 1.992

Fre

cue

nci

a

300

200

100

0

Logaritmo del precio

Precios de la vivienda

Zona Centro 1.992

Fre

cue

nci

a

300

200

100

0

Page 8: Estad Inea TEMA_4

Estadística Aplicada Tema IV

Para confirmarlo sería recomendable obtener el coeficiente de asimetría. Pero, si hay que juzgar por la impresión visual, parece que la transformación raíz cuadrada sería la mejor. La logarítmica parece corregir en exceso.

(autoevaluación) (ejercicio)

3. Distribuciones de frecuencias multivariantes. (OE)

El estudio de las frecuencias multivariantes se caracteriza por considerar, simultáneamente, dos o más variables a la vez. Por ejemplo, pesos, estaturas y edades, de un conjunto de escolares.

En la estadística descriptiva que hasta ahora habíamos visto las variables se estudiaban una a una y por separado (análisis univariante).

Cuando son dos las variables que estudiamos conjuntamente (análisis bivariante) es posible su representación gráfica. Este es el primer paso que conviene para su análisis. La figura resultante se llama diagrama de dispersión.

Observemos la figura. El conjunto de puntos u observaciones representados constituye la llamada nube de puntos. La recta de color rojo es la llamada recta de regresión.

En el gráfico se ha representado también el valor de la media, en una y otra variable, para el conjunto de las observaciones. Observa como pasa por el centro de todos los valores, horizontal y verticalmente.

También vemos las coordenadas de una observación simbólica, la observación i.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 8

ESTATURA EN CM

190180170160150

PE

SO

E

N K

IL

OS

100

90

80

70

60

50

40

xx

yy

ix

iy

ix

iy

Page 9: Estad Inea TEMA_4

Estadística Aplicada Tema IV

4. Medidas de dependencia lineal. (OE)

En este apartado vamos a ver de que medidas analíticas disponemos para el estudio bivariante de los datos.

Nos interesa una medida o indicador que exprese, mediante una cifra, el grado de asociación o dependencia entre las dos variables representadas y el sentido de esa dependencia.

Para ello se puede emplear la covarianza. La fórmula de cálculo de esta medida viene dada por:

La mejor forma de entender su significado es relacionándolo con la figura de la pregunta anterior. Las medias representadas de los datos determinan, gráficamente, cuatro zonas o cuadrantes que identificaremos como cuadrantes I, II, III y IV.

En todos los puntos situados en los cuadrantes I y III los productos cruzados de la fórmula de la covarianza que se incluyen en el sumatorio, tienen signo positivo (pues resultan de multiplicar un número positivo por otro positivo, o bien un número negativo por otro también negativo).

Por el contrario, en todos los puntos de los cuadrantes II y IV esos mismos productos son negativos (resultan de multiplicar un número negativo por otro positivo, o bien un número positivo por otro negativo).

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 9

ESTATURA EN CM

190180170160150

PE

SO

E

N K

IL

OS 100

90

80

70

60

50

40

xx

yy

ix

iy

ix

iy

III

III IV

Page 10: Estad Inea TEMA_4

Estadística Aplicada Tema IV

En consecuencia, si la mayoría de las observaciones representadas en la nube de puntos están incluidas en los cuadrantes I y III, el sumatorio del numerador de la fórmula de la covarianza presentará valor positivo y la covarianza también. Habrá, en tales casos, una dependencia lineal positiva entre las variables y al aumentar una de ellas también lo hará la otra.

Por el contrario cuando la mayoría de las observaciones se encuentren en los cuadrantes II y IV, el sumatorio de la fórmula tendrá valor negativo, igual que la covarianza. Existirá en tales casos una dependencia lineal negativa y al aumentar una de las variables la otra tenderá a disminuir.

Por tanto el signo del coeficiente de covarianza expresa el sentido de la dependencia entre las variables. Es también intuitivo percibir que cuanto más repartidas se presenten las observaciones entre los cuadrantes más próximo a cero será el valor absoluto de este coeficiente (al compensarse los productos positivos con los negativos). Y en tal caso no estará claro que exista una dependencia en algún sentido entre las variables.

El problema de la covarianza es que sus resultados, en valor absoluto, dependen de las unidades que se utilicen para medir las variables.

En el ejemplo del gráfico se mide la estatura en cm y el peso en kg. ¿Qué efecto tendría en los resultados medir la estatura en metros y el peso en gramos? Sencillamente, el resultado de la fórmula quedaría multiplicado por diez. ¿Sabrías explicar por qué?

Por ello el valor absoluto obtenido con el coeficiente de covarianza no es un indicador muy adecuado para medir la intensidad del grado de asociación o dependencia entre las variables. Antes de seguir, recordemos las características principales de esta medida:

Mide el sentido de la relación lineal entre las variables:

Cov (x, y) < 0 Relación lineal negativa.

Cov (x, y) 0 Ausencia de relación lineal.

Cov (x, y) > 0 Relación lineal positiva.

Su valor absoluto depende de las unidades empleadas.

Estas características explican por que para medir la dependencia o relación lineal entre dos variables se emplee más otra medida, relacionada con la covarianza, pero que mejora sus defectos: el coeficiente de correlación.

La fórmula de cálculo es la siguiente:

Como se divide entre la desviación típica de una y otra variable el resultado es adimensional, esto es carece de unidades. Por tanto da lo mismo que la variable x se mida en centímetros y la y en kilos, o que, por el contrario, se haga en metros y gramos, respectivamente. El resultado numérico sería el mismo.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 10

Page 11: Estad Inea TEMA_4

Estadística Aplicada Tema IV

Además, los resultados numéricos se encuentran siempre comprendidos entre +1 y -1. Tanto más próximos a la unidad cuanto más intenso sea el grado de dependencia o relación entre las variables. Así pues, recordando lo que se dijo acerca de la covarianza (que aparece en el numerador de la fórmula), tenemos que el coeficiente de correlación:

Mide el sentido y la intensidad de la relación lineal entre las variables:

-1 r 0 Relación lineal negativa.

r 0 Ausencia de relación lineal.

0 < r 1 Relación lineal positiva.

Es una medida adimensional (no depende de las unidades).

Vemos algunos ejemplos.

(autoevaluación) (ejercicio)

5. Recta de regresión. (OE)

Recta de regresión es la recta que ajustamos al conjunto de observaciones que constituyen la nube de puntos del diagrama de dispersión.

Existe un método estadístico que suele emplearse casi siempre para obtener la ecuación de la recta con "mejor ajuste" a las observaciones. Sin embargo, ese procedimiento lo estudiaremos en un tema posterior. Aquí nos limitaremos a contemplar diversos ejemplos del resultado obtenido mediante tal método de ajuste.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 11

Comunidades Autónomas 1.992

Relación PIB/ocupación agraria

Población activa agraria (%)

50403020100

PIB

"p

er

cáp

ita"

2200

2000

1800

1600

1400

1200

1000

800

Relación velocidad/potencia (todoterrenos)

Potencia (CV)

25020015010050

Ve

loci

da

d m

áxi

ma

200

180

160

140

120

100

r = 0,46

r = 0,68

Page 12: Estad Inea TEMA_4

Estadística Aplicada Tema IV

En el ejemplo del gráfico, la recta de regresión (de color azul) pasa por el centro de gravedad de la nube de puntos, delimitado por la media de una y otra variable. En este caso entre ambas variables existe una relación o dependencia lineal positiva.

En este otro ejemplo la relación lineal entre las variables es, por el contrario, negativa.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 12

Precios de la vivienda y valor del terreno.

Valor del solar (miles de ptas.)

18.00015.00012.0009.0006.0003.0000

Pre

cio

de

la v

ivie

nd

a (

mile

s d

e p

tas.

)

60.000

50.000

40.000

30.000

20.000

10.000

0

Precios de la vivienda y valor del terreno.

Valor del solar (miles de ptas.)

18.00015.00012.0009.0006.0003.0000

Pre

cio

de

la v

ivie

nd

a (

mile

s d

e p

tas.

)

60.000

50.000

40.000

30.000

20.000

10.000

0

Relación peso-aceleración

Peso total (kg)

18001600140012001000800600400

Ace

lera

ció

n 0

a 1

00

km

/h (

seg

un

do

s)

30

25

20

15

10

5

0

Relación peso-aceleración

Peso total (kg)

18001600140012001000800600400

Ace

lera

ció

n 0

a 1

00

km

/h (

seg

un

do

s)

30

25

20

15

10

5

0

Page 13: Estad Inea TEMA_4

Estadística Aplicada Tema IV

En este tercer caso la relación o dependencia lineal es muy débil. Obsérvese el reparto de los puntos en los cuatro cuadrantes y su separación respecto a la recta de regresión ajustada.

Finalmente conviene observar que no siempre una recta es la función que mejor se ajusta a las observaciones de la nube de puntos. En el ejemplo de la figura, tanto la covarianza como el coeficiente de correlación lineal indicarían ausencia o muy débil dependencia lineal. Sin embargo esto no implica independencia: simplemente sucede que la relación no es lineal.

AAAA(autoevaluación)

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 13

Relación entre tasas de natalidad y mortalidad

Tasa de natalidad (por 1.000 habitantes)

6050403020100

Tasa

de

mo

rta

lida

d (

po

r 1

.00

0 h

ab

itan

tes)

30

20

10

0

Relación entre tasas de natalidad y mortalidad

Tasa de natalidad (por 1.000 habitantes)

6050403020100

Tasa

de

mo

rta

lida

d (

po

r 1

.00

0 h

ab

itan

tes)

30

20

10

0

Relación W/L en trigos blandos de otoño

Valor L (extensibilidad)

160140120100806040

Va

lor

W

(fu

erz

a)

300

250

200

150

100

50

0

Relación W/L en trigos blandos de otoño

Valor L (extensibilidad)

160140120100806040

Va

lor

W

(fu

erz

a)

300

250

200

150

100

50

0

Page 14: Estad Inea TEMA_4

Estadística Aplicada Tema IV

Ejercicios de autoevaluación.

1) Indica si es verdadera [V] o falsa [F] cada una de las afirmaciones siguientes:

[ ] Las transformaciones lineales sirven para mejorar la simetría de algunas distribuciones.[ ] Las transformaciones lineales pueden modificar el valor de la varianza.[ ] La transformación logarítmica es una transformación no lineal.[ ] La suma de una constante al valor de los datos originales no modifica su varianza..[ ] Si el valor original de los datos se divide entre 10 la varianza resulta 100 veces menor.

2) ¿Cuál de las siguientes afirmaciones es verdadera?

[ ] El signo de la covarianza entre dos variables depende del signo de las desviaciones típicas de una y otra.[ ] La covarianza no está afectada por las unidades que se emplean para medir las variables.[ ] Una covarianza nula no indica ausencia de todo tipo de relación entre las variables.[ ] El signo de la covarianza indica la intensidad de la relación entre las variables.

3) Una de las siguientes afirmaciones acerca del coeficiente de correlación lineal es falsa. ¿Cuál?

[ ] Si r = 0,9 la dependencia lineal es positiva y fuerte.[ ] Si r = 0,8 la dependencia lineal es débil.[ ] Si r = 0 no hay correlación lineal.[ ] El signo de la covarianza y el de r siempre coinciden.

4) Indica el tipo de relación entre variables que corresponde, o cabe esperar, en los siguientes casos:

[ 1 ] : relación lineal positiva [ 2 ] : relación lineal negativa[ 3 ] : ausencia de relación [ 4 ] : ausencia de relación lineal

[ ] Índice de agilidad física y edad de los individuos.[ ] Consumo de refrescos y temperaturas del mes de agosto [ ] Cosecha de patata en una comarca y precios pagados al agricultor.[ ] Número de médicos en un país y tasa de mortalidad infantil.[ ] Puntuaciones obtenidas respectivamente al lanzar un par de dados.[ ] Superficie y longitud del perímetro de parcelas cuadradas de terreno.[ ] Volumen de precipitaciones en primavera y cosecha de cereales en secano.[ ] Tiempo empleado en arar una parcela y potencia del tractor utilizado.

Ejercicios.

1) Construye el diagrama de caja de la distribución constituida por los siguientes datos:

5, 3, 1, 7, 11.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 14

Page 15: Estad Inea TEMA_4

Estadística Aplicada Tema IV

2) En una empresa se estudia subir el sueldo de sus empleados. Se barajan tres posibilidades:

A) Subida lineal e idéntica para todos los empleados de 1.000 euros anuales.B) Subida porcentual idéntica para todos los empleados de un 5%C) Subida lineal de 500 euros anuales combinada con otra porcentual del 3%

Analiza el efecto de cada una de esas medidas por separado, en términos del sueldo medio(media y mediana de los salarios pagados) y en términos de la dispersión o variabilidad de los salarios (desviación típica y coeficiente de variación).

3) En un estudio en el que se manejaban datos de peso (kg) y estatura (metros) correspondientes a 23 individuos, se procedió a una transformación de esas variables originales (PESO y ALTURA) de acuerdo con las siguientes reglas:

PESOT = PESO 40

ALTURAT = (ALTURA 100) 150

Con los datos que aparecen en la tabla siguiente completa los espacios de las columnas en blanco.

PESO PESOT ALTURA ALTURAT

Media aritmética 29,087 25,043Cuasidesviación típica 11,098 8,5306Coeficiente de variación 0,3816 0,3406Valor mínimo 4 9Primer cuartil 23 20Mediana 30 26Tercer cuartil 35 33Valor máximo 55 40Varianza muestral 117,82 69,607Coeficiente de asimetría - 0,0060 - 0,1759Coeficiente de apuntamiento 0,4254 - 0,7922

4) El número de bacterias por unidad de volumen, presentes en un cultivo de laboratorio al cabo de cierto número de horas, viene indicado en la tabla:

Nº de horas transcurridas 0 1 2 3 4 5Nº de bacterias según conteo 12 19 23 34 54 62

A) Calcula la media y las desviaciones típicas de las variables.B) Calcula la covarianza entre las variables.C) Calcula e interpreta el coeficiente de correlación.

Escuela Universitaria de Ingeniería Técnica Agrícola I.N.E.A. (U. Valladolid) 15