problemas-estadistica+descriptiva+bivariante-2p

6
1 DEPARTAMENTO DE ESTADÍSTICA E I.O. GRADO EN CIENCIAS AMBIENTALES 2014-2015 ESTADÍSTICA Ejercicios. Estadística descriptiva bivariante. Ejercicio 1 De la población de alumnos matriculados en primero de Ciencias Ambientales durante el curso 2010-2011 y que se presentaron a los exámenes de Matemáticas y Física, se extrajo una muestra al azar de tamaño 20. Las calificaciones obtenidas en ambas asignaturas se encuentran en la siguiente tabla (fichero Calificaciones.mtw): Alumno Mat. Fis. 01 4.0 3.5 02 5.4 4.1 03 9.3 8.0 04 4.4 4.9 05 6.0 5.5 06 7.3 7.5 07 5.1 4.3 08 8.7 5.2 09 5.0 5.0 10 7.4 6.2 Alumno Mat. Fis. 11 5.3 3.2 12 3.5 8.2 13 8.0 9.0 14 6.5 6.9 15 4.7 4.4 16 5.6 5.0 17 7.0 1.0 18 9.0 10 19 2.5 4.0 20 3.4 4.9 Tabla 1. Calificaciones en Matemáticas y Física. 1. Dibujar la nube de puntos representativa de los 20 alumnos en el plano determinado por las dos puntuaciones. 2. Indicar cuál de las siguientes opciones parece más plausible: Los alumnos con mayores puntuaciones en Matemáticas obtienen mayores puntuaciones en Física. Los alumnos con mayores puntuaciones en Física obtienen mayores puntuaciones en Matemáticas. No existe relación entre las puntuaciones obtenidas en cada una de las asignaturas. 3. Obtener los histogramas marginales, utilizando k = 5 clases, de las variables X e Y. Soluciones. En el plano, cada alumno se podrá representar en el mismo por un punto (x, y) en el que: x es la calificación obtenida en Matemáticas, e y es la calificación obtenida en Física. Realizando el proceso para los 20 alumnos, resulta la siguiente nube de puntos: Gráfico 1. Nube de puntos de (Matemáticas, Física). 10 9 8 7 6 5 4 3 2 10 8 6 4 2 0 X = Matemáticas Y = Física Nube de puntos de Física vs Matemáticas 2 2. En sentido amplio, se observa la siguiente tendencia en la nube de puntos del Gráfico 1, al desplazarnos de izquierda a derecha sobre el eje x (aumentando las calificaciones en Matemáticas), sus valores correspondientes en las ordenadas y (calificaciones en Física) también tiende a crecer. Similar tendencia se aprecia al aumentar la calificación en Física, lo que nos lleva a aceptar las dos primeras opciones, y a descartar que no tengan relación entre las calificaciones en ambas asignaturas. 3. Puesto que las frecuencias marginales de (X,Y) son las frecuencias de cada componente, siendo X e Y univariantes, sus histogramas se obtienen como vimos en el tema anterior. Así, al ser el número de clases k = 5, y el intervalo de modalidades de ambas variables es [0, 10], la longitud de cada clase será l=10/5=2, es decir, los intervalos de clase para los histogramas son la colección de intervalos: [0, 2), [2, 4), [4, 6), [6, 8) y [8, 10]. Ahora, se construyen las tablas de frecuencias agrupadas siguientes para cada una de las variables (Tablas 2 y 3), y a partir de ellas los correspondientes histogramas (Gráficos 2 y 3): Intervalos (X) [0, 2) [2, 4) [4, 6) [6, 8) [8, 10] Frecuencias 0 3 8 5 4 Tabla 2. Frecuencias absolutas de Matemáticas. Intervalos (Y) [0, 2) [2, 4) [4, 6) [6, 8) [8, 10] Frecuencias 1 2 10 3 4 Tabla 3. Frecuencias absolutas de Física. Gráfico 2. Histograma de Matemáticas. Gráfico 3. Histograma de Física. Ejercicio 2 A partir de las calificaciones del Ejercicio 1, agrupar las calificaciones de cada asignatura en las siguientes categorías: SB=“suspenso bajo” para puntuaciones entre [0; 2.5], S=“suspenso” para puntuaciones en (2.5; 5), A=“aprobado” para puntuaciones entre [5; 7.5) y AA=“aprobado alto” para puntuaciones en [7.5; 10.0]. 1. Formar una tabla de datos agrupados de las dos calificaciones utilizando las cuatro clases SB, SA, AB y AA como modalidades. 2. Indicar la pauta que se puede observar en la tabla anterior sobre el comportamiento de las calificaciones. Soluciones. Para crear la tabla de doble entrada, representamos las modalidades de las variables X e Y, y computamos la frecuencia bivariante de cada cruce de modalidades: (X, Y) X = Matemáticas Y =Física Frec. SB S A AA SB 0 0 1 0 S 1 5 3 1 A 0 0 5 1 AA 0 1 1 3 Tabla 4. Distribución conjunta muestral de (X; Y). 10 8 6 4 2 0 9 8 7 6 5 4 3 2 1 0 X = Matemáticas Frecuencia 4 5 8 3 0 Histograma de Matemáticas 10 8 6 4 2 0 10 8 6 4 2 0 Y = Física Frecuencia 4 3 10 2 1 Histograma de Física

Upload: daniel-sendra-garcia

Post on 06-Sep-2015

23 views

Category:

Documents


4 download

DESCRIPTION

problemas estadistica bivariante

TRANSCRIPT

  • 1

    DEPARTAMENTO DE ESTADSTICA E I.O. GRADO EN CIENCIAS AMBIENTALES

    2014-2015

    ESTADSTICA

    Ejercicios. Estadstica descriptiva bivariante. Ejercicio 1 De la poblacin de alumnos matriculados en primero de Ciencias Ambientales durante el curso 2010-2011 y que se presentaron a los exmenes de Matemticas y Fsica, se extrajo una muestra al azar de tamao 20. Las calificaciones obtenidas en ambas asignaturas se encuentran en la siguiente tabla (fichero Calificaciones.mtw):

    Alumno Mat. Fis. 01 4.0 3.5 02 5.4 4.1 03 9.3 8.0 04 4.4 4.9 05 6.0 5.5 06 7.3 7.5 07 5.1 4.3 08 8.7 5.2 09 5.0 5.0 10 7.4 6.2

    Alumno Mat. Fis.

    11 5.3 3.2 12 3.5 8.2 13 8.0 9.0 14 6.5 6.9 15 4.7 4.4 16 5.6 5.0 17 7.0 1.0 18 9.0 10 19 2.5 4.0 20 3.4 4.9

    Tabla 1. Calificaciones en Matemticas y Fsica. 1. Dibujar la nube de puntos representativa de los 20 alumnos en el plano determinado por

    las dos puntuaciones. 2. Indicar cul de las siguientes opciones parece ms plausible:

    Los alumnos con mayores puntuaciones en Matemticas obtienen mayores puntuaciones en Fsica.

    Los alumnos con mayores puntuaciones en Fsica obtienen mayores puntuaciones en Matemticas.

    No existe relacin entre las puntuaciones obtenidas en cada una de las asignaturas. 3. Obtener los histogramas marginales, utilizando k = 5 clases, de las variables X e Y.

    Soluciones. En el plano, cada alumno se podr representar en el mismo por un punto (x, y) en el que: x es la calificacin obtenida en Matemticas, e y es la calificacin obtenida en Fsica. Realizando el proceso para los 20 alumnos, resulta la siguiente nube de puntos:

    Grfico 1. Nube de puntos de (Matemticas, Fsica).

    1098765432

    10

    8

    6

    4

    2

    0

    X = Matemticas

    Y =

    Fsi

    ca

    Nube de puntos de Fsica vs Matemticas

    2

    2. En sentido amplio, se observa la siguiente tendencia en la nube de puntos del Grfico 1, al desplazarnos de izquierda a derecha sobre el eje x (aumentando las calificaciones en Matemticas), sus valores correspondientes en las ordenadas y (calificaciones en Fsica) tambin tiende a crecer. Similar tendencia se aprecia al aumentar la calificacin en Fsica, lo que nos lleva a aceptar las dos primeras opciones, y a descartar que no tengan relacin entre las calificaciones en ambas asignaturas. 3. Puesto que las frecuencias marginales de (X,Y) son las frecuencias de cada componente, siendo X e Y univariantes, sus histogramas se obtienen como vimos en el tema anterior. As, al ser el nmero de clases k = 5, y el intervalo de modalidades de ambas variables es [0, 10], la longitud de cada clase ser l=10/5=2, es decir, los intervalos de clase para los histogramas son la coleccin de intervalos: [0, 2), [2, 4), [4, 6), [6, 8) y [8, 10].

    Ahora, se construyen las tablas de frecuencias agrupadas siguientes para cada una de las

    variables (Tablas 2 y 3), y a partir de ellas los correspondientes histogramas (Grficos 2 y 3):

    Intervalos (X) [0, 2) [2, 4) [4, 6) [6, 8) [8, 10] Frecuencias 0 3 8 5 4

    Tabla 2. Frecuencias absolutas de Matemticas.

    Intervalos (Y) [0, 2) [2, 4) [4, 6) [6, 8) [8, 10] Frecuencias 1 2 10 3 4

    Tabla 3. Frecuencias absolutas de Fsica.

    Grfico 2. Histograma de Matemticas. Grfico 3. Histograma de Fsica.

    Ejercicio 2 A partir de las calificaciones del Ejercicio 1, agrupar las calificaciones de cada asignatura en las siguientes categoras: SB=suspenso bajo para puntuaciones entre [0; 2.5], S=suspenso para puntuaciones en (2.5; 5), A=aprobado para puntuaciones entre [5; 7.5) y AA=aprobado alto para puntuaciones en [7.5; 10.0].

    1. Formar una tabla de datos agrupados de las dos calificaciones utilizando las cuatro clases SB, SA, AB y AA como modalidades.

    2. Indicar la pauta que se puede observar en la tabla anterior sobre el comportamiento de las calificaciones.

    Soluciones. Para crear la tabla de doble entrada, representamos las modalidades de las variables X e Y, y computamos la frecuencia bivariante de cada cruce de modalidades:

    (X, Y) X = Matemticas

    Y =Fsica

    Frec. SB S A AA SB 0 0 1 0 S 1 5 3 1 A 0 0 5 1

    AA 0 1 1 3 Tabla 4. Distribucin conjunta muestral de (X; Y).

    1086420

    9

    8

    7

    6

    5

    4

    3

    2

    1

    0

    X = Matemticas

    Frec

    uenc

    ia

    4

    5

    8

    3

    0

    Histograma de Matemticas

    1086420

    10

    8

    6

    4

    2

    0

    Y = Fsica

    Frec

    uenc

    ia

    4

    3

    10

    2

    1

    Histograma de Fsica

  • 3

    Para realizar el conteo de la tabla anterior, podemos utilizar el siguiente grfico de lanube

    de puntos con el retculo determinado por las modalidades indicadas:

    Grfico 4. Nube de puntos de (X, Y) para las nuevas modalidades.

    2. Para ratificar la pauta o tendencia de la relacin entre ambas calificaciones, consideramos la reagrupacin de las calificaciones en suspensos y aprobados en cada asignatura, contabilizando en la Tabla 4, los alumnos con las dos asignaturas suspensas, slo una de ellas y las dos aprobadas, es decir,

    o N de alumnos que han suspendido las dos: estn simultneamente en las categoras SB o S en ambas asignaturas: 6,

    o N de alumnos que han aprobado solo una: estn en las categoras SB o S en una asignatura y en las categoras A o AA en la otra: 6,

    o N de alumnos que han aprobado ambas asignaturas: estn simultneamente en las categoras A o AA: 10.

    observando que existe una tendencia no decreciente: [Dos suspensos] 6 < [Un aprobado y un Suspenso] 6 < [Dos aprobados] 10.

    Ejercicio 3 El conjunto de datos de una muestra de tamao 70 sobre la edad (X) y raza (Y) de la poblacin de perros estn en el fichero EdadPerros.mtw. La edad viene expresada en aos, y las modalidades de la variable raza son 1=caniche y 2=malts.

    1. Obtener la tabla de doble entrada resultante de cruzar las variables Edad y Raza. 2. Dibujar el histograma asociado a la tabla de doble entrada. 3. Obtener las distribuciones marginales de X e Y.

    Soluciones. 1. Construccin de la tabla de doble entrada de frecuencias absolutas.

    (a) Determinar las modalidades de las variables X, Y y (X, Y): Las de Y vienen dadas, siendo a1 = 1 = caniche y a2 = 2 = malts. Las de X se pueden determinar por simple observacin: b1 = 1, b2 = 2, b3 = 3, b4 = 4, b5

    = 5, b6 = 6, b7 = 7, b8 = 8, b9 = 9. Combinando las anteriores resultan las modalidades de (X, Y):

    (a1, b1) = (1, 1), (a1, b2) = (1, 2),..., (a1, b9) = (1, 9), (a2, b1) = (2, 1), (a2, b2) = (2, 2),..., (a2, b9) = (2, 9).

    (b) Preparar una tabla de recuentos y realizar el conteo: Prepararemos una tabla de doble entrada en la que en la primera columna

    introduciremos las modalidades de una de las variables, y en la primera fila las modalidades de la otra variable (en nuestro caso, nos interesa situar la edad horizontalmente y la raza verticalmente).

    Una vez escrita la tabla, situaremos cada dato de la muestra en la celdilla que le corresponda mediante algn signo que elijamos (un punto, una raya, una cruz, etc.), y

    10,07,55,02,50,0

    10,0

    7,5

    5,0

    2,5

    0,0

    Matemticas

    Fsi

    ca

    Scatterplot of Fsica vs Matemticas

    4

    sepus procedeos al conteo de los individuos que hay en cada celdilla, es decir, la frecuencia absoluta jif de cada modalidad (ai, bj)

    Edad Raza b1 = 1 b2 = 2 b3 = 3 b4 = 4 b5 = 5 b6 = 6 b7 = 7 b8 = 8 b9 = 9

    a1 = 1 3 4 10 5 5 3 2 1 2 a2 = 2 1 1 3 4 5 11 5 3 2

    Tabla 5. Tabla de datos agrupados de la variable (Raza, Edad). 2. Grfico asociado a la tabla de doble entrada.

    Grfico 5. Histograma representativo de los datos de la Tabla 5.

    3. Para obtener las distribuciones marginales de X e Y (frecuencias absolutas), completamos la

    Tabla 5 sumando por filas y por columnas. (a) Distribucin marginal de Y = raza:

    Agregaremos a la Tabla 5 una nueva columna, a la que llamaremos , y en cada una de sus dos celdillas incluimos la suma de todas las frecuencias absolutas situadas en su misma fila.

    Edad

    Raza b1 = 1 b2 = 2 b3 = 3 b4 = 4 b5 = 5 b6 = 6 b7 = 7 b8 = 8 b9 = 9 a1 = 1 3 4 10 5 5 3 2 1 2 35 a2 = 2 1 1 3 4 5 11 5 3 2 35

    Tabla 6. Tabla para la obtencin de las frecuencias marginales de Raza.

    Los dos nmeros situados en esta ltima columna son las frecuencias absolutas correspondientes a las modalidades a1 y a2 de la variable Raza, esto es, 1f

    = 35 y 2f = 35:

    Modalidades ai de Y a1 = 1 a2 = 2 Frecuencias marginales if

    1f = 35 2f

    = 35 Tabla 7. Distribucin de frecuencias marginales de Raza.

    (b) Distribucin marginal de X = Edad:

    Agregaremos a la Tabla 5 una nueva fila, a la que llamaremos , y en cada una de las nueve celdillas incluiremos la suma de todas las frecuencias absolutas situadas encima de su misma columna.

    Edad

    Raza b1 = 1 b2 = 2 b3 = 3 b4 = 4 b5 = 5 b6 = 6 b7 = 7 b8 = 8 b9 = 9

    a1 = 1 3 4 10 5 5 3 2 1 2 a2 = 2 1 1 3 4 5 11 5 3 2 4 5 13 9 10 14 7 4 4

    Tabla 8. Tabla para la obtencin de las frecuencias marginales de Edad.

    2

    0

    4

    8

    0

    12

    1 2 3 4 5 16 7 8 9

    Frecuencia

    Raza

    Edad

    Diagrama de barras de (Raza,Edad)

  • 5

    Esta nueva fila son las frecuencias marginales de la variable Edad, correspondientes a las modalidades a1, a2,..., a9, es decir, 1f = 4,

    2f

    = 5,..., 9f

    = 4:

    Modalidades bj de X b1=1 b2=2 b3=3 b4=4 b5=5 b6=6 b7=7 b8=8 b9=9 Frecuencias jf

    4 5 13 9 10 14 7 4 4

    Tabla 10. Distribucin marginal de Edad. Ejercicio 4 En relacin a los datos del Ejercicio 1, correspondientes a las calificaciones en dos asignaturas de 20 alumnos de Ciencias Ambientales durante el curso 2010-2011, responder a las siguientes cuestiones:

    1. Determinar el centro de gravedad de la nube de puntos y situarlo en la misma. 2. Calcular las varianzas y desviaciones tpicas marginales de X e Y. 3. Calcular la covarianza y el coeficiente de correlacin entre X e Y. 4. Utilizando los resultados anteriores, decidir cul de las siguientes opciones parece ms

    plausible y elegir los estadsticos apropiados que apoyen la decisin tomada. Los alumnos con mayores puntuaciones en Matemticas obtienen mayores

    puntuaciones en Fsica. Los alumnos con mayores puntuaciones en Fsica obtienen mayores puntuaciones en

    Matemticas. No existe relacin entre las puntuaciones obtenidas en cada una de las asignaturas.

    Soluciones.

    Para calcular los momentos marginales y mixtos de estas variables, procedemos como se muestra en la siguiente tabla, bien de forma manual o con ayuda de cualquier programa u hoja de clculo:

    Alumno xi yi xiyi xi2 yi2

    1 4,0 3,5 14,00 16,00 12,25 2 5,4 4,1 22,14 29,16 16,81 3 9,3 8,0 74,40 86,49 64,00 4 4,4 4,9 21,56 19,36 24,01 5 6,0 5,5 33,00 36,00 30,25 6 7,3 7,5 54,75 53,29 56,25 7 5,1 4,3 21,93 26,01 18,49 8 8,7 5,2 45,24 75,69 27,04 9 5,0 5,0 25,00 25,00 25,00

    10 7,4 6,2 45,88 54,76 38,44 11 5,3 3,2 16,96 28,09 10,24 12 3,5 8,2 28,70 12,25 67,24 13 8,0 9,0 72,00 64,00 81,00 14 6,5 6,9 44,85 42,25 47,61 15 4,7 4,4 20,68 22,09 19,36 16 5,6 5,0 28,00 31,36 25,00 17 7,0 1,0 7,00 49,00 1,00 18 9,0 10,0 90,00 81,00 10,00 19 2,5 4,0 10,00 6,25 16,00 20 3,4 4,9 16,66 11,56 24,01

    A=118,10 B=110,80 C=692,75 D=769,61 E=704,00 Tabla 11. Clculos auxiliares para la obtencin de los momentos.

    A partir de las sumas por columnas de esta tabla, se obtienen los siguientes momentos

    respecto al origen y momento producto:

    6

    = =

    A 118,10xn 20

    = 5,91, B 110,80yn 20

    = = = 5,54,

    2 D 769,61xn 20

    = = = 38,48, 2E 704,00yn 20

    = = = 35,20.

    C 692,75x.yn 20

    = = = 34,64,

    1. Teniendo en cuenta la nube de puntos realizada en el ejercicio 1, y las medias marginales

    anteriores, slo queda representar en dicha grfica el centro de gravedad de los datos muestrales, es decir, el punto cuya abscisa y ordenada son las medias de X e Y: x =5,91 y y=5,54, esto es el punto (5,91, 5,54). Como se muestra en el siguiente grfico:

    Grfico 6. Nube de puntos y centro de gravedad.

    2. Para obtener las varianzas y desviaciones tpicas marginales utilizamos su relacin a travs de

    los momentos, obtenindose los siguientes valores para las varianzas sesgadas de X e Y: 2xs =

    2 2x ( x ) = 3,55, 2ys = 2 2y ( y ) = 4,51,

    de donde se obtienen sus respectivas varianzas insesgadas: 2 2

    1n

    x xnS .s= = 3,74, 2 2

    1n

    y ynS .s= = 4,75, y sus desviaciones tpicas insesgadas:

    xS = 2xS = 1,93, yS =

    2yS = 2,18.

    3. La covarianza y coeficiente de correlacin entre ambas variables tambin se obtienen

    mediante los momentos respecto al origen por medio de la frmula: sx,y = covx,y = x.y x.y = 1,90,

    y el valor del coeficiente de correlacin es:

    rx,y = x ,yx y

    covs .s

    = 1,90

    1,95.2,18 = + 0,48.

    4. Por ltimo, utilizando la medida de correlacin entre ambas variables, podemos descartar la

    tercera opcin, dado que el coeficiente de correlacin es no nulo, rx,y=0,48, lo que indica que si existe relacin entre las puntuaciones de ambas asignaturas. Adems, al ser positivo, indica que dicha relacin en positiva, es decir, cuando aumenta una calificacin tiende a aumentar la otra. No obstante, su valor es muy inferior a 1, por lo que la relacin lineal entre ambas puntuaciones es baja, es decir, no estn muy alineados.

    1098765432

    10

    8

    6

    4

    2

    0

    Matemticas

    Fsi

    ca

    G

    n

    n

    n

    n

    nn

    n

    n

    n

    n

    n

    n n

    n

    n

    n

    n

    n

    n

    n

    Nube de puntos con centro de gravedad

  • 7

    Ejercicio 5 En una muestra de 40 ejemplares de Rubia peregrina se midieron las variables AF = amplitud foliar y LF = longitud foliar, incluyndose los resultados en el fichero Rubia. (Datos en Tabla 17 del Anexo.)

    1. Dibuja la nube de puntos de las 40 hojas inspeccionadas. 2. Calcula la covarianza y el coeficiente de correlacin del largo de la hoja con el ancho de la

    misma.

    Hoja AF(xi) LF(yi) 1 5 21 2 6 21 3 6 33 4 8 21 5 6 27 6 7 35 7 5 25 8 8 37 9 7 25

    10 4 18

    Hoja AF(xi) LF(yi)11 7 21 12 9 37 13 10 45 14 5 27 15 5 18 16 8 35 17 6 21 18 4 23 19 10 31 20 6 24

    Hoja AF(xi) LF(yi)21 9 43 22 7 22 23 11 41 24 8 33 25 9 37 26 8 34 27 7 29 28 9 34 29 10 31 30 8 34

    Hoja AF(xi) LF(yi)31 4 20 32 11 29 33 7 30 34 5 24 35 8 24 36 10 42 37 7 32 38 6 35 39 9 33 40 8 30

    Tabla 12. Amplitud y longitud foliar. Soluciones.

    Para la representacin de la nube de puntos de la amplitud frente a la longitud, AF vs. LF, se procede como en los ejercicios anteriores representando los pares de puntos (xi, yi), 1 < i < 40, de (X = AF, Y = LF) dados en la Tabla 12. Por ejemplo, ayudndose del programa estadstico Minitab, se obtiene el siguiente diagrama de dispersin:

    Grfico 8. Diagrama de dispersin de (X, Y) = (AF, LF)

    Para el clculo de los estadsticos, como en ejercicios anteriores, ser completa la tabla de

    datos con las sumas por columnas (para obtener los momentos marginales respecto del origen), y se aaden las columnas con los cuadrados de los datos y sus productos (para obtener los momentos de orden dos y mixtos). En resumen, este proceso nos proporciona los siguientes valores:

    A=xi=293 B=yi=1182 C=xi.yi=9043 D=xi2=2291 E=yi2=36966

    A partir de estas sumas, las medias marginales de ambas variables son: A 293xn 40

    = = = 7,325, B 1182yn 40

    = = = 29,55,

    y los momentos marginales de orden dos respecto del origen: 2 D 2291x

    n 40= = = 57,27, 2

    E 36966yn 40

    = = = 924,20.

    1110987654

    45

    42

    39

    36

    33

    30

    27

    24

    21

    18

    X = AF

    Y =

    LF

    Nube de puntos de LF vs AF

    8

    Por tanto, las varianzas marginales y sus desviaciones tpicas se obtienen a partir de los momentos anteriores, siendo las varianzas sesgadas:

    2xs =

    2 2x ( x ) = 3,61, 2ys = 2 2y ( y ) = 50,99

    y las varianzas insesgadas: 2 2

    1n

    x xnS .s= = 3,71, xS = 2xS = 1,93,

    2 21

    ny ynS .s= = 52,25, yS =

    2yS = 7,23.

    Por ltimo, obtenemos los valores de la covarianza y el coeficiente de correlacin que nos

    pide el ejercicio, a travs del momento mixto o producto de orden (1,1): C 9043x.yn 40

    = = = 226,10,

    obtenindose la covarianza entre ambas variables:

    x ,yc = x.y x.y = 9,87 y el valor del coeficiente de correlacin:

    rx,y = x ,yx y

    covs .s

    = 9,87

    1,93.7,23 = + 0,71.

    Observar que en este caso, el coeficiente de correlacin rx,y = +0,71 tiene un valor positivo

    (indica que existe relacin de dependencia positiva entre ambas variables) y ms prximo a 1 que en el caso de las calificaciones anteriores, por lo que hay ms relacin lineal, podra clasificarse como linealidad media, reservando el trmino de alta linealidad para valores muy prximos a 1. Ejercicio 6 En un estudio de longevidad de cobayas en un laboratorio, se analiza la distribucin conjunta de los tiempos de supervivencia X e Y de pares de cobayas, siendo X el de la madre e Y el del primer hijo. Los datos observados en el experimento son los siguientes:

    X Y 0 1 2 3

    0 2 2 1 0 5 1 3 4 3 0 10 2 1 4 8 7 20 3 1 2 6 6 15 7 12 18 13 50

    1. Calcular el coeficiente de correlacin entre ambas variables. 2. Utilizando estos resultados, puede interpretarse que viven ms las cobayas cuyas

    madres vivieron ms? 3. En caso afirmativo, cunto ms viven los hijos que sus padres en promedio?

    Ejercicio 7 Los datos siguientes corresponden a 15 ejemplares de cabra murciana. Las variables estudiadas son: X=caloras de ingesta media diaria, Y=kg de peso total en vivo, Z=kg de peso en canal.

    1. Calcula los coeficientes de correlacin entre cada par de variables. 2. En relacin al peso en canal Z, cul de estas cantidades te inspira mayor confianza?

    Por qu? Caso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y=peso total 79.2 64.0 67.0 78.4 66.0 63.0 65.9 63.1 73.2 66.5 61.9 72.5 101.1 66.2 99.9 Z=peso de la canal 54.3 44.3 47.8 53.9 47.5 43.0 47.1 44.0 44.1 48.3 43.5 43.3 66.4 47.5 66.1 X=ingesta media diaria

    2670 820 1210 2678 1205 815 1200 1180 1850 1260 1170 1852 1790 1250 1789

  • 9

    Ejercicio 8 Utilizando los datos del Ejercicio 3 sobre la edad (X) y la raza (Y) de una muestra de 70 perros (EdadPerros.mtwj).

    1. Determinar los perfiles o distribuciones condicionadas de la variable Edad por cada una de las modalidades de la variable raza y representarlos grficamente.

    2. Calcular las medias, las desviaciones tpicas y los coeficientes de variacin de la edad condicionadas a cada raza.

    3. Utilizando los resultados del apartado anterior, argumentar a favor o en contra de la hiptesis: la edad tiene un comportamiento similar en ambas razas.

    Soluciones. 1. Dado que la variable Y=Raza slo tiene las modalidades a1=caniche y a2=malts, al

    condicionar X por Y slo se pueden obtener dos distribuciones condicionadas: X(1)=X/(Y=caniche) e X(2)=X/(Y=malts), siendo sus distribuciones condicionadas los perfiles de la raza caniche y de la raza malts, respectivamente.

    Por ser ambas caractersticas de la edad condicionadas a la raza dos nuevas variables unidimensionales, sus distribuciones quedarn totalmente determinadas a partir de las frecuencias de sus modalidades, siendo estas las mismas que las de la variable original X para cada una de lass razas. No obstante, al trabajar con distribuciones de frecuencias condicionadas, se utilizan las frecuencias relativas para que evitar el efecto del tamao muestral de cada modalidad de la variable condicionante, aunque en este caso al ser el mismo no tendra efecto al comparar las edades entre ambas razas. As, se construyen las tablas de frecuencias relativas condicionadas a cada raza dividiendo cada una de las frecuencias de X por la frecuencia marginal de dicha raza. Por tanto, de la Tabla 6, obtenemos las siguientes frecuencias relativas 1

    i( )h y 2

    i( )h , con 1< i < 9,

    para X(1) y X(2), respectivamente,

    X(1)=X/(Y=1) b1 = 1 b2 = 2 b3 = 3 b4 = 4 b5 = 5 b6 = 6 b7 = 7 b8 = 8 b9 = 9 Frecuencias 3/35 4/35 10/35 5/35 5/35 3/35 2/35 1/35 2/23 1

    Tabla 13. Frecuencias condicionadas de la variable Edad para la modalidad caniche.

    X(2)=X/(Y=2) b1 = 1 b2 = 2 b3 = 3 b4 = 4 b5 = 5 b6 = 6 b7 = 7 b8 = 8 b9 = 9 Frecuencias 1/35 1/35 3/35 4/35 5/35 11/35 5/35 3/35 2/35 1

    Tabla 14.Frecuencias condicionadas de la variable edad para la modalidad malts.

    Estas frecuencias condicionadas de las Tablas 13 y 14, se pueden representar en el siguiente grfico tridimisional para observar el diferente comportamiento de la distribucin de la edad de las dos razas:

    Grfico 9. Perfiles de Edad condicionada por Raza.

    En concreto, se observa que la abundancia de caniches (Raza=1) es mayor en las

    primeras edades (entre 1 y 5 aos), mientras que los malteses son ms abundantes en la mayores edades (entre 5 y 9 aos).

    2

    0,0

    0,1

    0,2

    1

    0,3

    2 3 4 5 16 7 8 9

    Frecuencia

    Raza

    Edad

    Perfiles de Edad para las dos modalidades de Raza

    10

    2. Veamos ahora las medias y las desviaciones tpicas condicionadas, las cuales se calculan utilizando las frmulas usuales en las variables univariantes con frecuencias en las Tablas 13 y 14: Medias condicionadas:

    o =9

    11

    ii ( )b .h = 13 24 310 4 5 55 6 3 7 2 81 9 235. . . . . . . . .+ + + + + + + + = 4,11 aos.

    o =9

    21

    ii ( )b .h = 11 21 33 4 4 55 6 11 7 5 8 3 9 235. . . . . . . . .+ + + + + + + + = 5,60 aos.

    Anlogamente, se obtienen las varianzas, desviaciones tpicas y coeficientes de variacin

    condicionados, que se dejan como ejercicio.

    3. Para la comparacin de las distribuciones de edades por razas, podemos llegar a la conclusin de que los caniches son menos longevos que las malteses utilizando las informacin de los resultados anteriores.

    Por un lado, se pueden destacar dos aspectos: (a) la edad modal de los caniches M0=4

    aos es inferior a la de los malteses M0=6 aos, una diferencia apreciable de 2 aos teniendo en cuenta que el recorrido de la variable edad en tan slo de 9 aos; (b) el perfil de los caniches tiene una importante asimetra positiva, mientras que el de los malteses tiene la asimetra negativa.

    Adems, las vidas medias de caniches 4,11 aos y malteses 5,60 aos, nos proporciona

    una ventaja respecto de casi 1,5 aos a favor de los malteses. Y, completando los clculos dejados como ejercicio, las desviaciones tpicas y los coeficientes de variacin, la variabilidad o dispersin de las edades con respecto a sus valores medios en cada raza, refuerzan las conclusiones, puesto que no establecen un componente de distorsin. Ejercicio 9 En Ejercicio 6 has abordado algunas cuestiones relativas a los tiempos de supervivencia X e Y de pares de cobayas, siendo X el de la madre e Y el del primer hijo. A partir de las frecuencias marginales dadas en la tabla del Ejercicio 6:

    1. Calcula la tabla de frecuencias esperadas bajo la hiptesis de que el tiempo de supervivencia del primer hijo es independiente del de la madre.

    2. Calcula el coeficiente de correlacin en este caso. 3. Utilizando los resultados, discutir la siguiente afirmacin: el tiempo de supervivencia del

    primer hijo no depende del de la madre. Ejercicio 10 Se extraen al azar 50 ejemplares de Drosophila melanogaster de las 500 contenidas en la caja de un laboratorio, clasificndolas por sexo y genotipo en la siguiente tabla:

    Moscas Genotipo AA Aa aa Sexo Machos 6 11 5 22 Hembras 7 13 8 28

    13 24 13 50 1. Obtener la distribucin conjunta muestral de la variable bivariante (X,Y)=(Sexo, Genotipo). 2. Obtener las distribuciones condicionadas de la variable genotipo por cada una de las

    modalidades de la variable sexo. 3. Obtener las distribuciones condicionadas de la variable sexo por cada una de las

    modalidades de la variable genotipo. Ejercicio 11 De una gran explotacin ganadera se obtuvo una muestra de 50 vacas. Los elementos de la muestra se agruparon atendiendo a dos criterios: la raza a la que pertenecan (A, B o C), y su produccin de leche (baja, media o alta).

  • 11

    ProduccinRaza Baja Media Alta

    A 5 3 2 10 B 10 6 2 18 C 10 8 4 22 25 17 8 50

    1. Obtn los perfiles de las tres modalidades de raza para la variable produccin y compara

    dichos perfiles utilizando los grficos. 2. A partir de estos resultados, argumenta a favor o en contra de la afirmacin de que la

    produccin de leche es la misma en las tres razas. Soluciones. 1. En primer lugar, se calculan las distribuciones condicionadas determinadas por las frecuencias relativas de la produccin de leche condicionadas a cada una de las razas:

    A* = Perfil de la raza A = Distribucin Y/(X = A): h1/1 = h(Y = baja /X = A) = f11/f*1 = 5/10 h2/1 = h(Y = media/X = A) = f21/f*1 = 3/10 h3/1 = h(Y = alta /X = A) = f31/f*1 = 2/10 B* = Perfil de la raza B = Distribucin Y/(X = B): h1/2 = h(Y = baja /X = B) = f12/f*2 = 10/18 h2/2 = h(Y = media/X = B) = f22/f*2 = 6/18 h3/2 = h(Y = alta /X = B) = f32/f*2 = 2/18 C* = Perfil de la raza C = Distribucin Y/(X = C): h1/3 = h(Y = baja /X = C) = f13/f*3 = 10/22 h2/3 = h(Y = media/X = C) = f23/f*3 = 8/22 h3/3 = h(Y = alta /X = C) = f33/f*3 = 4/22

    y sus representaciones grficas son:

    Grfico 10. Perfiles de Y/(X = A); de Y/(X = B); y de Y/(X = C).

    2. Teniendo en cuenta las grficas de los tres perfiles de las distribuciones de la produccin de leche en cada raza, se observa un comportamiento ligeramente diferente entre las tres, dado que en la raza A hay menor proporcin de vacas con baja produccin de leche, en la raza B estn ms equilibradas las proporciones de la produccin, y en cambio, en la raza C hay menor proporcin de vacas con alta produccin de leche. Ejercicio 12 En relacin al Ejercicio 11, se han cuantificado las producciones de leche, de forma que el intervalo de clase para una produccin baja equivale a una marca de 20 litros/da, una produccin media equivale a una marca de 30 litros/da, y una produccin alta a 40 litros/da.

    1. Calcular las producciones medias diarias de las vacas condicionada a cada raza. 2. Calcular las desviaciones tpicas de la produccin de leche condicionada a cada tipo de

    raza. 3. Calcula la produccin media diaria de la explotacin a partir de los resultados anterior, as

    como su desviacin tpica.

    AltaMediaBaja

    0,4

    0,3

    0,2

    0,1

    0,0

    Y = Produccin

    Frec

    uenc

    ias

    Perfil de la raza A

    AltaMediaBaja

    0,4

    0,3

    0,2

    0,1

    0,0

    Y = Produccin

    Frec

    uenc

    ias

    Perfil de la raza B

    AltaMediaBaja

    0,5

    0,4

    0,3

    0,2

    0,1

    0,0

    Y = Produccin

    Frec

    uenc

    ias

    Perfil de la raza C

    12

    Ejercicio 13. La Universidad de Murcia realiza anualmente encuestas a alumnos con varias preguntas (tems) sobre el profesorado. Cada tem se valora entre 1 y 5:

    1: significa estoy muy en desacuerdo 2: significa estoy algo en desacuerdo, 3: significa no estoy ni de acuerdo ni en desacuerdo, 4: significa estoy un poco de acuerdo, 5: significa estoy muy de acuerdo.

    Se eligen al azar n=5 encuestas realizadas por alumnos respecto a los k=5 primeros tems

    de una misma asignatura, cuyos valoraciones se muestran en la siguiente tabla:

    Alumnos A1 A2 A3 A4 A5

    tems

    IT1 2 1 3 3 4 IT2 1 2 1 1 3 IT3 3 4 4 5 1 IT4 5 3 2 2 2 IT5 4 5 3 4 2

    donde, Ai representa la encuesta la variable del alumno i, e ITj el nmero del tem de la encuesta.

    1. Calcular el coeficiente de correlacin de Spearman entre cada 2 alumnos. 2. Calcular los coeficientes de correlacin de Spearman entre cada pareja de tems.

    Soluciones. Para facilitar la presentacin, agregamos columnas en la tabla para calcular las diferencias entre cada dos alumnos:

    Alumnos Diferencias A1 A2 A3 A4 A5 A1-A2 A1-A3 A1-A4 A1-A5 A2-A3 A2-A4 A2-A5 A3-A4 A3-A5 A4-A5

    IT1 2 1 3 3 4 1 -1 -1 -2 -2 -2 -3 0 -1 -1 IT2 1 2 1 1 3 -1 0 0 -2 1 1 -1 0 -2 -2 IT3 3 4 4 5 1 -1 -1 -2 2 0 -1 3 -1 3 4 IT4 5 3 2 2 2 2 3 3 3 1 1 1 0 0 0 IT5 4 5 3 4 2 -1 1 0 2 2 1 3 -1 1 2

    Tabla 15. Diferencias valoraciones entre cada dos encuestas.

    Ahora, a partir de la tabla de diferencias anterior y aplicando la frmula del coeficiente rs de Spearman,

    rs

    n2i

    12

    6. d1

    n.(n 1)=

    se obtiene la siguiente tabla de valores del coeficiente de asociacin de Spearman entre cada dos alumnos:

    Coeficientes deSpearman A1 A2 A3 A4 A5

    A1 1,0 0,6 0,4 0,3 -0,25A2 0,6 1,0 0,5 0,6 -0,45A3 0,4 0,5 1,0 0,9 0,25A4 0,3 0,6 0,9 1,0 -0,25A5 -0,25 -0,45 0,25 -0,25 1,0

    Tabla 16. Correlaciones de Spearman entre alumnos. donde se observa que la diagonal de la tabla est formada por todos 1, ya que entre las diferencias en una misma encuesta son nulas: el mismo alumno.

    Por ltimo, dejamos como ejercicio el clculo de la tabla de coeficientes de Spearman entre tems.