descript iva me c

Upload: regina-rodriguez-sanchez

Post on 14-Apr-2018

233 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/27/2019 Descript Iva Me c

    1/108

    1

    "ESTADSTICA DESCRIPTIVA"

    1.1 Parte bsica

  • 7/27/2019 Descript Iva Me c

    2/108

    2

    1.1.1 Introduccin a la Estadstica

    1.1.1.1 Concepto de Estadstica y Estadsticas

    La primera acepcin del trmino "Estadstica", que tiene origen histrico, hace

    referencia a una determinada informacin numrica; esta acepcin se encuentra cada da

    ms arraigada en nuestra sociedad debido al abultado conjunto de nmeros y cifras en el

    que se encuentra inmersa: P. I. B., ndices de precios, tasas de inflacin, evolucin del

    paro, cotizaciones burstiles, accidentes de circulacin, porcentajes de votantes,

    porcentajes de personas que padecen una determinada enfermedad, etc.

    Una segunda acepcin entiende la estadstica como una ciencia que facilita los

    mtodos precisos para la obtencin de informacin numrica, y que tambin

    proporciona mtodos de anlisis de esa informacin recogida y mtodos de

    investigacin aplicables al resto de las Ciencias. La primera se corresponde bsicamente

    con la estadstica descriptiva y la segunda con la estadstica inferencial.

    1.1.1.2 Etapas del anlisis estadsticoLas diversas fases por las que atraviesa el anlisis estadstico son:

    a) Recogida de datos, que no por ser elemental, est exenta de dificultades e

    indicaciones que hay que observar, ya que una recogida mal efectuada puede

    ocasionar un sesgo de la informacin y del posterior anlisis, por lo que el

    objeto de la investigacin debe plantearse de una manera minuciosa, as como

    la organizacin del trabajo de campo necesario para la recogida de datos.

    b) Ordenacin y presentacin de los datos, y que suele presentarse mediante

    unas tablas de simple o de doble entrada.

    c) Resumen de la informacin, para tratar de describir las caractersticas ms

    relevantes que pueden tener los datos, y que se realiza mediante la

    determinacin de parmetros estadsticos que intentan resumir toda la

    informacin que aporte el conjunto de datos.

  • 7/27/2019 Descript Iva Me c

    3/108

    3

    d) Anlisis estadstico, a travs de mtodos facilitados por la Estadstica

    Matemtica, para tratar de verificar hiptesis sobre regularidades que pueden

    detectarse en las etapas previas.

    1.1.1.3 Poblacin y muestra

    Recibe el nombre de Poblacin, Colectivo o Universo, todo conjunto de

    individuos o elementos que tienen unas caractersticas comunes.

    Dado que no siempre es posible estudiar todos los elementos de la poblacin, ya

    sea por razones econmicas, de rapidez de obtencin de la informacin, o porque los

    elementos se destruyen en el proceso de la investigacin, con frecuencia es necesario

    examinar slo una parte de la poblacin, que se denomina muestra; para que una

    muestra sea vlida como objeto de estudio, ha de ser representativa de la poblacin, es

    decir ha de tener las mismas caractersticas, en los caracteres estudiados, que la

    poblacin.

    1.1.1.4 Caracteres de una poblacinLlamaremos variable al carcter objeto de estudio, que puede tomar distintos

    valores.

    Las variables pueden ser cuantitativa o cualitativas, segn que tomen, o no,

    valores cuantificables.

    Las variables de tipo cuantitativo, que estudian caracteres cuantificables, pueden

    clasificarse de diversas formas: variables discretas o continuas, segn que slo puedan

    tomar valores aislados o, por el contrario, todos los valores de un intervalo.

    1.1.1.5 Tipos de escalas

    En determinado tipo de estudios, quiz tenga mayor relevancia diferenciar las

    variables segn el tipo de escala utilizada, distinguiendo:

    Escala nominal: el carcter estudiado se clasifica en categoras nonumricas, sin que puedan establecerse ninguna relacin de orden entre ellas,

  • 7/27/2019 Descript Iva Me c

    4/108

    4

    por ejemplo: las profesiones laborales, el estado civil, la ideologa poltica, el

    sexo, etc.

    Escala ordinal: el carcter estudiado es de tipo no numrico, pero sepueden establecer algn tipo de orden entre las distintas categoras. Este es el

    caso del nivel de estudios (primarios, medios, superiores), los tipos de clases

    sociales (baja, media, alta),etc.

    Escala de intervalo: puede establecerse alguna unidad de medida ycuantificar numricamente la distancia existente entre dos observaciones. Es la

    escala cuantitativa, encontrndose en este caso gran nmero de variables entre

    ellas, como por ejemplo: salarios, presupuestos, gastos, etc.

    Escala de proporcin: son aquellas variables en las que adems de unaunidad de medida, se fija un punto origen, que marca el cero. En este tipo

    pueden considerarse la edad, el peso, el nmero de unidades en stock en un

    inventario, etc.

  • 7/27/2019 Descript Iva Me c

    5/108

    5

    1.1.2 Variables estadsticasunidimensionales

    1.1.2.1 Distribucin de frecuencias. Clases.

    Vamos a tratar ahora de estructurar y ordenar los conjuntos numricos de los

    datos obtenidos en la observacin de una muestra o poblacin para as poder proceder

    con ms facilidad a su estudio.

    Empezaremos estudiando las frecuencias en sus diversas clases:

    Frecuencia absoluta: es el nmero de veces que se repite cada valor de lavariable en el conjunto de todas las observaciones de la misma. En general la frecuencia

    absoluta del dato xi se representa por fi

    Frecuencia relativa: es el cociente entre la frecuencia absoluta y el nmerototal de datos u observaciones. El nmero total de datos lo representamos por n, y la

    frecuencia relativa del dato xi

    se representa por hiSe verifica por lo tanto: hi = fi/n

    Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas delos valores inferiores o iguales al considerado. Evidentemente los valores de la variable

    deben de estar ordenados en forma creciente.

    En general, la frecuencia absoluta acumulada del dato xi se representa por Fi

    Evidentemente, la ltima frecuencia absoluta acumulada coincide con el tamao de la

    muestra.

    Se verifica pues: F i = fjj=1

    i

    !

    Frecuencia relativa acumulada: es el cociente entre la frecuencia absolutaacumulada y el nmero total de datos u observaciones. Anlogamente a la anterior, los

    valores de la variable deben de estar ordenados en forma creciente, es decir, la escala

    debe de ser numrica o, al menos, ordinal.

  • 7/27/2019 Descript Iva Me c

    6/108

    6

    La ltima frecuencia relativa acumulada es 1. Generalmente la frecuencia relativa

    acumulada del dato xi de la variable se representa por Fi, y verifica:

    Hi =F i

    n=

    fjj=1

    i

    !

    n

    1.1.2.2 Propiedades de las frecuencias

    1 La suma de las frecuencias absolutas coincide con tamao de la muestra:

    fi

    i

    ! = n

    2 Todas las frecuencias absolutas son positivas y menores o iguales que n .

    0 fi n

    3 La suma de las frecuencias relativas es 1:

    h i

    i

    ! =1

    4 Todas las frecuencias relativas son positivas y menores o iguales que 1:

    0 hi n

    5 La frecuencia absoluta acumulada correspondiente a un valor de la variable se

    obtiene sumando la frecuencia absoluta acumulada del valor anterior, con la frecuencia

    absoluta del dato.

    DISTRIBUCIN DE FRECUENCIAS

    Llamaremos distribucin de frecuencias al conjunto de los valores que toma una

    variable, junto con sus frecuencias correspondientes. As pues, para determinar una

    distribucin de frecuencias debemos conocer todos los valores xi de la variable y

    cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato).

  • 7/27/2019 Descript Iva Me c

    7/108

    7

    Distinguiremos dos tipos fundamentales de distribucin de frecuencias: las no

    agrupadasen intervalos y las agrupadas en intervalos.

    La distribucin de frecuencias no est agrupada en intervalos cuando cada valorde la variable tiene asociado su frecuencia. Pero ocurre frecuentemente, sobre todo en

    variables de tipo continuo, que el nmero de valores distintos que toma la variable es

    demasiado grande; en este caso, para mayor comodidad en el tratamiento de la

    informacin, parece aconsejable agrupar esos valores en intervalos, teniendo en cuenta

    que lo que ganamos en manejabilidad lo perdemos en informacin de la distribucin.

    En la agrupacin en intervalos hay que tener en cuenta tres aspectos:

    a) Que el mximo de informacin se obtiene en la recogida de datos y

    que sta se pierde al agrupar en intervalos.

    b) Las distribuciones agrupadas en intervalos no se presentan realmenteas, sino que es el investigador el que las agrupa para manejar mejor los

    datos.

    c) Al agrupar hay que tener en cuenta las frecuencias.

    Un intervalo queda determinado por sus extremos y, en general, el intervalo i-

    simo se representa por [Li-1,Li), donde Li es el extremo superior del intervalo y Li-1 el

    extremo inferior del mismo.

    Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior

    e inferior: ai = Li - Li-1

    Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es

    ms cmodo que sea constante.

    Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos

    cuestiones iniciales:

    1.- Cmo se debe tomar la amplitud, constante o variable?

    2.- Cuntos intervalos conviene tomar ?

    La respuesta a estas pregunta depende de la naturaleza del problema, y aunque

    hay muchas reglas escritas en los textos de estadstica, en la prctica suelen resultarestriles.

  • 7/27/2019 Descript Iva Me c

    8/108

    8

    Posteriormente se hace un recuento de los datos que corresponden a cada

    intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un problema

    cuando un dato coincide con alguno de los extremos de los intervalos; como reglageneral, se toman los intervalos cerrados por la izquierda y abiertos por la derecha [Li-

    1,Li), es decir, se incluirn dentro del intervalo los datos que coincidan con el extremo

    inferior del mismo, y se excluirn de ste los que coincidan con su extremo superior,

    incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o

    no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal ms

    que los de los datos, siendo, normalmente este decimal un 5.

    Por ltimo cabe destacar que tomaremos como representante de cada intervalo su

    punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca

    de clase del intervalo [Li-1,Li) ser:

    ci =Li!1 + Li

    2

    EJEMPLO 1.1:

    Investigados los precios por habitacin de 50 hoteles de una ciudad, se han

    obtenido los siguientes resultados:

    7000 3000 5000 4000 5000 7000 4000 7500

    8000 5000 5000 500 3000 7000 10000 15000

    5000 7500 12000 8000 4000 5000 3000 5000

    10000 3000 4000 5000 7000 5000 3000 4000

    7000 4000 7000 5000 4000 7000 10000 7500

    7000 8000 7500 7000 7500 8000 7000 7000

    12000 8000

    Determinar la distribucin de precios:

    a) Sin agrupar en intervalos.

    b) Agrupadas en 5 intervalos de amplitud constante.

    Solucin:

    a)

    Precio (xi) en miles 3 4 5 7 7.5 8 10 12 15N de hoteles (fi) 5 7 10 11 6 5 3 2 1

  • 7/27/2019 Descript Iva Me c

    9/108

    9

    b)

    Precio en intervalos marca de clase (xi) N de hoteles (fi)

    [3000, 5500)[5500, 8000)

    [8000, 10500)

    [10500, 13000)

    [13000, 15500)

    42506750

    9250

    11750

    14250

    2217

    8

    2

    1

  • 7/27/2019 Descript Iva Me c

    10/108

    10

    1.1.3 Representaciones grficas

    La informacin proporcionada por las tablas de distribucin de frecuencias es

    bastante completa, pero tiene la dificultad de que su lectura requiere un cierto tiempo y

    capacidad de comparacin para relativizar la informacin de unas clases respecto de las

    otras. Adems, en la experiencia del lector, al comenzar a leer un determinado artculo

    (cientfico o no), su vista se dirige primero al ttulo, luego a los grficos y, finalmente, a

    las tablas.

    As pues, las representaciones grficas constituyen uno de los principales y ms

    sencillos mtodos de exponer la informacin, por su capacidad de impactar al lector con

    muy poco esfuerzo por su parte, dando una informacin rpida y global de los datos,

    siendo tiles incluso al investigador, pues le permiten tener una idea general de los

    resultados y, a veces, sugerir nuevas hiptesis.

    1.1.3.1 Tipos de representaciones grficas

    Los diversos tipos de grficos utilizados son:

    1 DIAGRAMAS DE BARRAS PARA DISTRIBUCIONES DEFRECUENCIAS NO AGRUPADAS:

    En un sistema de ejes de coordenadas cartesianas, se representan en el eje de

    abscisas los valores de la variable, y en el de ordenadas las frecuencias. Posteriormente,

    sobre cada valor de la variable se levanta una barra vertical de altura proporcional a la

    frecuencia, ya sea absoluta o relativa.

    Sobre el eje de abscisas la escala de medida puede ser cualquiera y no coincidir

    con la escala del eje de ordenadas. Incluso el cero del eje de abscisas no tiene porque

    coincidir con el cero de la medida utilizada.

    EJEMPLO 1.2:

    Supongamos una variable X que presenta los siguientes valores :xi = { a, e, i, o, u }

    con las siguientes frecuencias: f1

    = 1 f2

    = 2 f3

    =1 f4

    = 3 f5

    = 3,

    correspondientes a las veces que aparecen dichas vocales en una frase.

  • 7/27/2019 Descript Iva Me c

    11/108

    11

    Construya el diagrama de barras correspondiente y el diagrama de barras

    acumulado, o diagrama de escalera.

    Solucin:

    Podemos presentar entonces la siguiente tabla:

    xi fi Fi hi Hi

    a 1 1 0,1 0,1

    e 2 3 0,2 0,3

    i 1 4 0,1 0,4

    o 3 7 0,3 0,7

    u 3 10 0,3 1

    El diagrama de barras correspondiente aparece en la figura 1.1:

    .

    0

    1

    2

    3

    4

    VOCALESa e o ui

    F

    UENCIAS

    Figura 1.1: Diagrama de brarras

    Si lo que queremos representar son las frecuencias acumuladas, se procede igual

    que en el caso anterior con los ejes cartesianos y levantando sobre cada valor de la

    variable, una altura proporcional (igual) a la frecuencia acumulada, uniendo mediante

    trazos horizontales el extremo de cada coordenada con el siguiente; este diagrama

    recibe el nombre de diagrama de escalera (ver figura 1.2).

  • 7/27/2019 Descript Iva Me c

    12/108

    12

    Figura 1.2: Diagrama de barras acumulado. (Diagrama de escalera)

    Los grficos de diagrama de barras y de escalera suelen utilizarse en variables de

    tipo cualitativo, o en las de tipo cuantitativo discretas.

    2 POLGONOS DE FRECUENCIAS PARA DISTRIBUCIONES DEFRECUENCIAS NO AGRUPADAS EN INTERVALOS:

    Sobre unos ejes cartesianos, anlogos a los anteriores, se levanta en cada valor de

    la variable una ordenada de altura igual a la frecuencia absoluta (o relativa) de dicho

    valor, uniendo a continuacin con una poligonal dichas ordenadas. La primera ordenada

    se une con el cero del eje de abscisas, teniendo en cuenta que si hay algn valor de la

    variable con frecuencia cero tambin ha de ser considerado y unir dicho dato con los

    anteriores.

    Veamos el polgono de frecuencias del ejemplo anterior (ver figura 1.3):

  • 7/27/2019 Descript Iva Me c

    13/108

    13

    Figura 1.3: Polgono de frecuencias.

    Anlogamente se procedera con las frecuencias acumuladas (ver figura 1.4).

    .

    VOCALES

    FREC

    UENCIASACUMULADAS

    5

    10

    a e i o u

    Figura 1.4.: Polgono de frecuencias acumulado.

    Estos polgonos de frecuencias se utilizan cuando la variable es de tipo cualitativo

    o cuando es de tipo cuantitativo discreta.

    3 HISTOGRAMA PARA DISTRIBUCIONES DE FRECUENCIASAGRUPADAS EN INTERVALOS

    Se construyen levantando, sobre cada intervalo de la variable, un rectngulo de

    rea proporcional a la frecuencia absoluta de dicho intervalo. Si los intervalos son de

    amplitud constante, las alturas de los rectngulos sern iguales a las frecuencias

    absolutas respectivas, pues al ser las bases iguales las reas son proporcionales a las

    alturas; pero si las amplitudes de los intervalos son diferentes, las alturas de losrectngulos deben calcularse dividiendo la frecuencia absoluta por la longitud del

    intervalo; sta se puede representar por ai y vale pues:

    ai =fi

    ci

    y de esta forma, el rea del rectngulo coincide con la frecuencia:

    Si = ai ci =fi

    ci

    ci = fi

  • 7/27/2019 Descript Iva Me c

    14/108

    14

    La altura ai correspondera a la frecuencia correspondiente a cada unidad de

    medida de la variable en cada intervalo, y se le conoce a veces, con el nombre de

    densidad de frecuencia del intervalo.

    EJEMPLO 1.3:

    La distribucin del saldo de imposiciones en las Cajas de Ahorros viene dada en

    la tabla siguiente:

    Saldo N provincias

    4-6,9

    7-8,9

    9-14,9

    15-29,9

    30-59,9

    60-99,9

    100

    6

    7

    17

    13

    4

    2

    1

    Representar el histograma correspondiente

    Solucin:

    Como los intervalos son de amplitud no constante, hay que calcular las alturas de

    los mismos, obtenindose la siguiente tabla:

    intervalos fi alturas Fi hi Hi Grados

    4 -6.9 6 2 6 0.12 0.12 43.2

    7 -8.9 7 3.5 13 0.14 0.26 50.49 -14.9 17 2.8 30 0.34 0.60 122.4

    15 -29.9 13 0.8 43 0.26 0.86 93.6

    30 -59.9 4 0.1 47 0.08 0.94 28.8

    60 -99.9 2 0.05 49 0.04 0.98 14.4

    100 1 0 50 0.02 1.00 7.2

    Total 50 1.00 360.0

    que da lugar al histograma de la figura 1.5:

  • 7/27/2019 Descript Iva Me c

    15/108

    15

    Figura 1.5: Histograma. (Saldo de imposiciones en Cajas de Ahorros).

    4 POLGONO DE FRECUENCIAS PARA DISTRIBUCIONES DEFRECUENCIAS AGRUPADAS

    Para construir este grfico se levanta en el extremo superior de cada intervalo una

    ordenada igual a su frecuencia, uniendo a continuacin dichas ordenadas. La primera

    ordenada se une al extremo inferior del primer intervalo, prolongando el polgono desde

    ese punto a la izquierda sobre el eje x, y prolongando tambin por la derecha a partir del

    extremo superior del ltimo intervalo, con una recta paralela al eje de abscisas. Suele

    utilizarse esta representacin sobre todo en el caso de que las frecuencias sean

    acumuladas. En este caso la altura correspondiente al extremo superior del ltimo

    intervalo, coincide con n, si las frecuencias son absolutas, y con 1 si las frecuencias son

    relativas.

    EJEMPLO 1.4:

    El polgono de frecuencias acumuladas para el ejemplo estudiado de las

    distribuciones del saldo de las Cajas de Ahorros viene dado por el grfico que aparece

    en la figura 1.6:

  • 7/27/2019 Descript Iva Me c

    16/108

    16

    Figura 1.6: Polgono de frecuencias acumuladas. (Saldo de imposiciones en Cajas de Ahorros).

    En el caso de representar las frecuencias no acumuladas se procede de diferente

    forma, uniendo los puntos medios de los lados superiores de los rectngulos del

    histograma y prolongando por los extremos hasta cortar al eje X en los puntos medios

    de las bases del primer y del ltimo rectngulo (ver figura 1.7).

    5

    4

    3

    2

    1

    2010 30 40 50 60 70 80 90 100

    xi

    Alturas

    Figura 1.7: Polgono de frecuencias. (Saldo de imposiciones en Cajas de Ahorros).

    El rea del polgono cerrado resultante es igual al rea de los rectngulos

    formados mediante el histograma.

  • 7/27/2019 Descript Iva Me c

    17/108

    17

    A veces se representan en el mismo grfico el histograma y el polgono de

    frecuencias.

    5 DIAGRAMA DE SECTORES

    Este caso, en una circunferencia se representan sectores circulares cuyo ngulo

    central coincida con la frecuencia absoluta (no se puede utilizar para acumuladas) o

    relativa del elemento, representando, mediante colores o incluyendo dentro de dicho

    sector el nombre de la clase o elemento a representar. Vale tanto para frecuencias

    agrupadas, como no agrupadas.

    Previamente hay que calcular los grados que corresponde a cada elemento

    multiplicando la frecuencia correspondiente a cada dato por el cociente entre 360 y el

    total de datos:

    g i = fi360

    n

    EJEMPLO 1.5:

    Obtener el grfico de sectores correspondiente a los datos anteriores de las cajas

    de ahorros:

    Solucin:

    intervalos fi alturas Fi hi Hi Grados

    4 -6.9 6 2 6 0.12 0.12 43.2

    7 -8.9 7 3.5 13 0.14 0.26 50.4

    9 -14.9 17 2.8 30 0.34 0.60 122.415 -29.9 13 0.8 43 0.26 0.86 93.6

    30 -59.9 4 0.1 47 0.08 0.94 28.8

    60 -99.9 2 0.05 49 0.04 0.98 14.4

    100 1 0 50 0.02 1.00 7.2

    Total 50 1.00 360.0

    y su representacin en sectores en la figura 1.8:

  • 7/27/2019 Descript Iva Me c

    18/108

    18

    Figura 1.8: Diagrama de sectores. (Saldo de imposiciones en Cajas de Ahorros).

    EJEMPLO 1.6:

    Los datos siguientes corresponden a gastos de inversin publicitaria en los pases

    de la C.E.E. durante el ao 1.986

    PASES INVERSIN(MILLONES $)

    R.F.A

    INGLATERRA

    FRANCIA

    ESPAA

    HOLANDA

    ITALIA

    DINAMARCABLGICA

    GRECIA

    IRLANDA

    8.234

    6.915

    4.663

    3.000

    2.970

    2.846

    1.084464

    164

    127

    No se poseen datos de Portugal yLuxemburgo

    Representar el correspondiente diagrama de sectores

    Solucin:

    El grfico de sectores aparece en la figura 1.9:

  • 7/27/2019 Descript Iva Me c

    19/108

    19

    INGLATERRA

    FRANCIA

    ESPA A

    HOLANDA

    ITALIA

    DINAMARCA

    IRLANDA

    BELGICA

    GRECIA

    R.F.A

    Figura 1.9: Diagrama de Sectores. Inversin publicitaria en la C.E. (datos de 1.986)

    En este grfico se observa que cuando ciertos datos presentan una frecuencia baja,

    en relacin con los dems, su sector circular seria no detectable visualmente, por lo que

    se une con otros de frecuencias tambin bajas, dndole el nombre de "otros", o bien, si

    es posible, indicando todos los elementos que lo forman.

    6 PICTOGRAMAS

    Son dibujos alusivos a la distribucin que se pretende estudiar y que mediante su

    forma, tamao, etc., ofrecen una descripcin, lo ms expresiva posible, de la misma.

    Consideremos el siguiente ejemplo:

    EJEMPLO 1.7:

    Representar el pictograma correspondiente a la tabla de datos siuiente:PASES INVERSIN

    (MILLONES $)BRASILMJICO

    ARGENTINAVENEZUELA

    CHILEPERU

    COLOMBIAECUADORURUGUAY

    BOLIVIAPARAGUAY

    101.750100.00050.30035.88020.69014.30013.4307.5404.990

    3.3401.890

  • 7/27/2019 Descript Iva Me c

    20/108

    20

    Solucin:

    BRASIL MEXICO ARGENTINA VENEZUELA CHILE PERU ECUADOR URUGUAUBOLIVIA PARAGUAY

    DEUDA EXTERNA

    DE AMERICA LATINA

    (Diciembre 1986)

    COLOMBIA

    Figura 1.10: Pictograma (Deuda externa de Amrica Latina)

    En el caso anterior, el rea de la figura debe de ser proporcional a la frecuencia,

    aunque existe tambin la posibilidad de que una figura represente un nmero

    determinado de frecuencias, y entonces contenga este dato.

    Este tipo de representacin suele utilizarse en las distribuciones cualitativas, como

    por ejemplo en la siguiente:

    EJEMPLO 1.8:

    El censo ganadero espaol, en el mes de Septiembre de 1.977, segn fuentes del

    Ministerio de Agricultura, era:

    GANADO N DE CABEZAS(EN MILES)

    BOVINO

    OVINO

    CAPRINO

    PORCINO

    EQUINO

    4.538

    14.539

    2.206

    9.804

    762

    TOTAL 31.846

    Represente el correspondiente pictograma

  • 7/27/2019 Descript Iva Me c

    21/108

    21

    Solucin:

    El correspondiente pictograma sera de la forma que aparece en la figura 1.11:

    Figura 1.11: Pictograma (Censo ganadero espaol)

    7 CARTOGRAMAS

    Son los grficos realizados sobre mapas, representando el carcter estudiado en

    ciertas regiones, sealando las zonas con distintos colores o tramas, poniendo de

    manifiesto las diferencias existentes entre las regiones del plano. Se suelen utilizar para

    representar densidades demogrficas de una nacin, la renta per capita, ndices de

    lluvia, etc.

    8 DIAGRAMAS DE PERFIL RADIAL:

    Se toma un punto de partida y se trazan tantos radios como modalidades tenga la

    variable estudiada y despus, sobre estos radios, se toma una distancia al centro

    proporcional a la frecuencia de cada modalidad. Uniendo los puntos extremos de cada

    radio se obtiene un polgono cerrado, que es el perfil radial.

    En el ejemplo del censo ganadero en Septiembre de 1977 seria (ver figura 1.12):

  • 7/27/2019 Descript Iva Me c

    22/108

    22

    Equino

    Caprino

    Bovino

    Porcino

    Ovino

    0 5000 10000

    Figura 1.12: Perfil radial (Censo ganadero espaol)

    9 DIAGRAMAS LINEALES

    Se utilizan para mostrar las fluctuaciones de un determinado carcter estadstico

    con el paso del tiempo. Interesa nicamente la altura de la lnea, referida a la base del

    diagrama, que se levanta con una longitud proporcional al valor del carcter estudiado

    en dicho mes.

    Con frecuencia se aprovecha para representar sobre la misma escala varios

    diagramas lineales muy relacionados entre s.

    Por ejemplo, ingresos y gastos, nacimientos y defunciones, etc.

    ENEROFEBRERO

    MARZO

    ABRILMAYO

    JUNIOJULIO AGOSTO

    SEPTIEMBRE

    EVOLUCION DE LA

    TASA DE INFLACION

    6'0

    6'36'2

    5'8

    4'9 4'94'5

    4'4

    0'7 1'1

    1'7

    2

    1'9 1'9

    2'9 2'9

    3'8

    6'0

    EVOLUCION DEL IPC(Acumulado en 1987)

    Figura 1.13: Diagrama lineal

  • 7/27/2019 Descript Iva Me c

    23/108

    23

    El grfico anterior (figura 1.13) reproduce un diagrama aparecido en DIARIO 16,

    que expresa la evolucin del IPC y la tasa de inflacin durante los nueve primeros

    meses del ao 1.987.

    A veces se unen en un mismo grfico varios grupos para considerarlos

    conjuntamente, compararles y observar donde las distribuciones coinciden o se separan,

    permitiendo as un anlisis grfico comparativo.

    As, el grfico siguiente (figura 1.14) muestra los polgonos de frecuencias

    porcentuales correspondientes a las distribuciones de ingresos en familias de poblacin

    blanca y negra en los Estados Unidos.

    Poblacin

    negra

    Poblacin

    blanca

    Indice de

    integracin=0'71

    0

    2'0

    4'0

    6'0

    8'0

    10'0

    12'0

    14'0

    1000$ 2000$ 5000$ 10000$ 15000$ 25000$ 50000$

    %

    Figura 1.14: Polgonos de frecuencias porcentuales

  • 7/27/2019 Descript Iva Me c

    24/108

    24

    1.1.4 Medidas de tendencia central

    Las tablas de distribuciones de frecuencia ofrecen toda la informacin disponible,

    pero a veces, debido a su extensin nos encontramos con dificultades a la hora de su

    interpretacin, por lo que interesa resumirla con el fin de facilitar, tanto su anlisis

    como la comparacin entre distintas muestras o poblaciones. En este proceso de sntesis

    se buscan valores que determinen el comportamiento global del fenmeno estudiado

    Las medidas de sntesis de la distribucin se consideran operativas cuando:

    a) Intervienen todos y cada uno de los elementos en su formacin.

    b) Es siempre calculable.

    c) Es nica para cada distribucin de frecuencias.

    Estos valores se denominan medidas de posicin, en general son promedios de los

    valores y pueden ser de tendencia central o no. Slo tienen sentido si la variable es

    cuantitativa.

    Entre las ms importantes estn la media aritmtica, la mediana, la moda y los

    cuantiles; adems de stos, tambin estudiaremos la media geomtrica, la mediaarmnica, la media cuadrtica y la media aritmtica ponderada.

    1.1.4.1 Media aritmtica

    Se define como la suma de todos los valores de la distribucin, dividida por el n

    total de datos. Si designamos por x i al valor de la variable X, que se repite fiveces, la

    media aritmtica ser:

    x =x1

    nf1 +

    x2

    nf2+!+

    xk

    nfk =

    xifii=1

    k

    !

    n=

    xifi

    ni=1

    n

    ! = x ih ii=1

    k

    !

  • 7/27/2019 Descript Iva Me c

    25/108

    25

    EJEMPLO 1.9:

    Por ejemplo, sea la variable X que representa los pesos en kilogramos de 10

    estudiantes y que presenta los valores:xi={ 54, 59, 63, 64 }

    con las siguientes frecuencias fi={ 2, 3, 4, 1 }. Calcular la media aritmtica.

    Solucin:

    La media aritmtica vendr dada por:

    x =54.2 + 59.3 + 63.4 + 64.1

    10=108+177+ 252 + 64

    10=601

    10= 60.1Kg

    En el caso de que las variables estuvieran agrupadas en intervalos no se podra

    utilizar dicha expresin, por no saber el valor exacto de la variable, usndose en este

    caso como xila marca de clase del intervalo.

    Vemoslo con el siguiente ejemplo:

    EJEMPLO 1.10:

    Consideraremos la siguiente tabla de distribucin de frecuencias:

    Intervalo fi Marca de clase

    30-40

    40-50

    50-60

    3

    2

    5

    35

    45

    55

    Total 10

    Calcular la media aritmtica de los datos

    Solucin:

    Resultar, segn la definicin dada, que

    x =

    x ifi

    n! =35.3+ 45.2+ 55.5

    10 = 47

  • 7/27/2019 Descript Iva Me c

    26/108

    26

    No obstante, y dado que la media aritmtica est muy influenciada por los valores

    extremos de las observaciones, no siempre sirve para representar lo que ocurre en cada

    una de stas, tal y como puede observarse en el siguiente ejemplo:

    EJEMPLO 1.11:

    La tabla siguiente recoge el nmero total de goles marcados en los ocho primeros

    campeonatos de liga de primera divisin correspondientes a las temporadas en que han

    participado en el mismo 20 equipos:

    Temporada Nmero de goles

    87-88 909

    88-89 868

    89-90 921

    90-91 822

    91-92 913

    92-93 954

    93-94 989

    94-95 966

    Calcular e interpretar la media aritmtica.

    Solucin:

    Calculada la media aritmtica se observa que es 917,75; no obstante, este valor es

    poco representativo de lo ocurrido en cada temporada, puesto que solamente en los aos

    89-90 y 91-92 se obtuvo un nmero de goles prximo a dicho valor, mientras que en el

    resto de temporadas se obtuvieron bastantes ms ( 92-93, 93-94 y 94-95 ) o bastantes

    menos ( 87- 88, 88-89, 90-91).

    Por otro lado qu sentido tiene decir que se marcaron 917,75 goles?, acaso hubo

    alguna ocasin en la que solamente penetr en la portera el 75% del baln?.

  • 7/27/2019 Descript Iva Me c

    27/108

    27

    PROPIEDADES DE LA MEDIA ARITMTICA:

    1. La suma de las desviaciones de los valores de la variable respecto a su media es 0.

    x i ! x( )fii=1

    k

    " = x ifii=1

    k

    " ! x fii=1

    k

    " = n

    x ifii=1

    k

    "

    n! xn = nx ! xn = 0

    2. Si a todos los valores de la variable les sumamos una constante k, la mediaaritmtica queda aumentada en esa constante.

    Si consideramos la distribucin ( x

    i

    + k, f

    i

    ) su media ser:

    x'= x i

    ' fi

    ni=1

    k

    ! = x i + k( )fi

    ni=1

    k

    ! = x ifi

    ni=1

    k

    ! + kfi

    ni=1

    k

    ! = x + k

    3. Si a todos los valores de la variable los multiplicamos por una constante k, su mediaaritmtica queda multiplicada por esa constante.

    Para demostrar esta propiedad basta considerar la distribucin ( xik , fi), su media

    ser:

    x' ' = x i' ' fi

    ni=1

    k

    ! = xik( )fi

    ni=1

    k

    ! = k xifi

    ni=1

    k

    ! = kx

    4. Si a una variable X le efectuamos una transformacin lineal de la forma Y = aX + b,con a y b constantes, la media de la nueva variable queda afectada por dicha

    transformacin lineal:

    y = ax + b

    La demostracin es consecuencia inmediata de las propiedades 2 y 3 de la

    media.

  • 7/27/2019 Descript Iva Me c

    28/108

    28

    VENTAJAS E INCONVENIENTES

    Como ventajas de utilizar la media aritmtica como un promedio para sintetizar

    los valores de la variable podemos citar las siguientes:

    - Considera todos los valores de la distribucin.

    - Es siempre calculable (en variable cuantitativa).

    - Es nica.

    Como inconvenientes de la utilizacin de la media aritmtica cabe citar que, a

    veces, puede dar lugar a conclusiones errneas, cuando la variable presenta valores muy

    extremos, que influyen mucho en la media, hacindola poco representativa.

    1.1.4.2 Media aritmtica ponderada

    Se calcula esta media aritmtica cuando cada valor de la variable tiene asociado

    una ponderacin o un peso, distinto de la frecuencia, y que le haga tener ms o menos

    importancia en la distribucin.

    En este caso si el dato xi tiene un peso wi, su media ponderada sera:

    xp =

    xiwii=1

    k

    !

    wii=1

    k

    !

    Si cada dato presenta una frecuencia fi, la media ponderada sera:

    xp =

    xifiwii=1

    k

    !

    fiw ii=1

    k

    !

  • 7/27/2019 Descript Iva Me c

    29/108

    29

    EJEMPLO 1.12

    Veamos un ejemplo de un estudiante que realiza tres exmenes de media hora,

    una hora y una hora y media respectivamente, obteniendo unas puntuaciones de 50, 80

    y70.

    Por la duracin de los exmenes cabra atribuirles las ponderaciones de 1, 2 y 3

    respectivamente.

    xi 50 80 70

    Ponderacin 1 2 3

    Calcular la puntuacin media del alunno.

    Solucin:

    Obtendramos la siguiente media aritmtica ponderada:

    x =50.1+ 80.2 + 70.3

    1 + 2 + 3=420

    6= 70

    1.1.4.3 Media geomtricaSe define como la raz n-sima del producto de todos los n valores de la

    distribucin:

    G = x1

    f1x2

    f2!x

    k

    fkn

    Tomando logaritmos quedara: logG =1

    n fi logx i

    i=1

    k

    !"

    #$

    %&'

    Es decir, el logaritmo de la media geomtrica es la media aritmtica de los logaritmos

    de los valores. En su clculo se suele utilizar esta propiedad.

    Veamos, por ejemplo, cmo calcular la renta media durante varios periodos de

    tiempo.

  • 7/27/2019 Descript Iva Me c

    30/108

    30

    EJEMPLO 1.13

    Si invertimos 100.000 pts al 3% durante un ao, al 5% durante otro ao y al 8%

    durante un tercero, cul es la renta media a la que est invertido el dinero durante los

    tres aos?.

    Solucin:

    Cabra esperar que la solucin fuera la media aritmtica de las tres rentas, es decir

    el 5%, pero la realidad es otra; en efecto:

    Teniendo en cuenta que:

    C 1 + rm( )3=C 1+ r1( ) 1 + r2( ) 1+ r3( )

    Se verificar que

    1+ rm = 1 + r1( ) 1 + r2( ) 1+ r3( )3

    Es decir, que 1+rm es la media geomtrica de las rentas de cada anuales,

    expresadas en tanto por uno, ms uno.

    En nuestro problema: 1+ rm = 1.03!1.05!1.083

    = 1.0497 es decir, el rdito medio

    es del 4,97% ( media geomtrica de los rditos anuales ), y no el 5% como pareca ser.

    Veamos otro ejemplo en el que interese utilizar logaritmos.

    EJEMPLO 1.14

    Sea una clase de 22 nios, cuya talla se distribuye del modo siguiente:

    Talla en cm. 100 120 125 140Frecuencia 10 5 4 3

    Calcular la talla media

    Solucin:

    La media geomtrica sera:

    G = 10010

    !1205

    !1254

    !140322

  • 7/27/2019 Descript Iva Me c

    31/108

    31

    Para calcular el valor de G tomaremos logaritmos, de manera que:

    logG =1

    2210 log100+ 5 log120 + 4 log125+ 3 log140( ) =

    =1

    2245.22193 = 2.05554

    G = anti log2.05554 = 113.6cm

    La media geomtrica tiene una ventaja sobre la media aritmtica y es que es

    menos sensible a los valores extremos.

    Como inconvenientes principales sealar que tiene un significado estadsticomenos intuitivo que la media aritmtica, su clculo es difcil y a veces no se puede

    calcular (si un valor de la variable es 0).

    1.1.4.4 Media armnica

    Se define como el inverso de la media aritmtica de los inversos de los valores de

    la variable. Es decir:

    A =n

    1

    xi

    fii=1

    k

    !

    Como ventajas podemos mencionar que intervienen todos los valores de la

    variable y que, en ciertos casos, es ms representativa que la media aritmtica.

    Como inconvenientes hay que citar la gran influencia de los valores pequeos y

    que a veces no se puede calcular (si un valor de la variable es 0). Se suele utilizar para

    promediar velocidades, tiempos, etc.

    EJEMPLO 1.15:

    Supongamos un mvil que efecta un recorrido de 100 km, en dos sentidos. En unsentido va a una velocidad constante v1 = 60 Km/h y en el otro tambin circula a una

    velocidad constante v2=70 Km/h y, por tanto, diferente de la anterior.

  • 7/27/2019 Descript Iva Me c

    32/108

    32

    Calcular la velocidad media del recorrido total debemos calcular la media

    armnica.

    Solucin:

    En este caso, si queremos calcular la velocidad media debemos calcular la media

    armnica.

    v =espacio

    timpo=

    2s

    t1 + t2

    Pero

    t1 =

    s

    v1=

    100Km

    60 Km h

    t2 =s

    v 2

    =

    100 Km

    70Km h

    Luego, sustituyendo, obtenemos que:

    v =2s

    t1 + t2

    =200Km

    100 Km

    60Km h+

    100Km

    70 Km h

    =2 Km

    1

    60 h+

    1

    70h

    = 64.62Km h

    RELACION ENTRE LAS MEDIAS

    La relacin existente entre estas tres medias es:

    H ! G ! x cuando las tres medias existen.

    1.1.4.5 Mediana

    Es el valor de la distribucin que, una vez ordenados los valores de la variable de

    menor a mayor, deja igual nmero de frecuencias a su izquierda que a su derecha, es

    decir, el valor que ocupa el lugar central. Puede entenderse tambin como aquel valor

    cuya frecuencia absoluta acumulada es n/2.

  • 7/27/2019 Descript Iva Me c

    33/108

    33

    DATOS SIN AGRUPAR

    N impar de trminosSi la distribucin est sin agrupar, y hay un n impar de trminos, la mediana ser

    el que ocupa la posicin central. Por ejemplo, si los valores de la variable son

    { 1 , 2 , 3 , 4 , 5 }

    la mediana sera Me = 3

    N par de trminosPero si hay un n par de trminos habra dos trminos centrales y se toma como

    mediana la media aritmtica de ellos. Por ejemplo, si los valores de la variable son{1 , 2 , 5 , 7 , 9 , 10 , 13 , 14}

    La mediana seria: M e =7 + 9

    2= 8

    DATOS CON FRECUENCIAS

    Variable discretaSi los datos presentan diferentes frecuencias, el mtodo ms prctico es buscar en

    la columna de frecuencias acumuladas n/2.

    EJEMPLO 1.16:

    Si la distribucin es:

    xi fi Fi1 3 32 4 75 9 167 10 2610 7 3313 2 35

    Total 35

    Calcular la mediana

  • 7/27/2019 Descript Iva Me c

    34/108

    34

    Solucin:

    n

    2=

    35

    2=17.5

    La mediana es Me = 7, puesto que desde el que ocupa el lugar 17 hasta el de lugar

    26 todos los valores son 7.

    Es decir, si Fi-1 < n/2 < Fi, entonces, Me = xi

    Variable continua o datos agrupados en intervalosEn el caso de estar la distribucin agrupada en intervalos (sean o no de la misma

    amplitud) al buscar el valor que ocupa el lugar n/2 nos encontramos con un intervalo, el

    intervalo mediano, y no con un dato. Para determinar un nico representante de dicho

    intervalo como mediana, determinaremos el elemento que en el polgono de frecuencias

    acumuladas toma de frecuencia n/2.

    Figura 1.15: Polgono acumulativo de frecuencias para el clculo de la Mediana

  • 7/27/2019 Descript Iva Me c

    35/108

    35

    En el grfico de la figura 1.15 se observa la forma de determinar la mediana.

    La mediana vale:

    Me = Li-1 + m

    Como los tringulos ABC Y AB'C' son semejantes, resulta que:

    AC

    AC'=

    BC

    B' C'

    es decir:

    m

    ci

    =

    n

    2!F i!1

    Fi ! Fi!1

    por lo tanto:

    m =

    n

    2! Fi!1

    fi

    ci

    De lo anterior se deduce que la Mediana se calcula de la siguiente forma:

    Me = Li!1 +

    n

    2! Fi!1

    fi

    ci

    VENTAJAS E INCONVENIENTES

    Como ventajas de la mediana podemos citar que no est influida por los valores

    extremos como en el caso de la media, y adems tiene sentido en casos de

    distribuciones en escala ordinal (datos que pueden ser ordenados), siendo la medida ms

    representativa de estos por describir la tendencia central de los mismos.

    Como inconvenientes puede ser la determinacin de sta en los casos de variables

    agrupadas en intervalos.

  • 7/27/2019 Descript Iva Me c

    36/108

    36

    EJEMPLO 1.17:

    Sea la siguiente distribucin de salarios y calculemos el salario mediano.

    Clase Salario anual N de obreros N acumuladode obreros

    12345

    20000 a 2500025000 a 3000030000 a 3500035000 a 4000040000 a 45000

    100150200180

    41-------671

    100250450630671

    Solucin:

    Tenemos quen

    2=

    671

    2= 335.5, valor que nos indica que el salario anual mediano

    pertenece a la tercera clase.

    La amplitud del tercer intervalo es ci= 5000, luego:

    Me = 30000+ 335.5! 250

    2005000 = 3000 + 2137.5

    es decir, Me = 321375

    1.1.4.6 Moda

    Es el valor de la variable que ms veces se repite en una distribucin de

    frecuencias, es decir, el que tiene mayor frecuencia absoluta.

    Para calcular la moda, en el caso que la distribucin no est agrupada o est agrupada en

    intervalos, se procede de forma diferente:

    DISTRIBUCIN SIN AGRUPAR EN INTERVALOS DE CLASE

    La moda es el valor ( o valores ) que presenten mayor frecuencia absoluta.

  • 7/27/2019 Descript Iva Me c

    37/108

    37

    EJEMPLO 1.18:

    Consideremos la siguiente distribucin:xi 1 2 5 7 10 13fi 3 4 9 10 7 2

    Observando la fila de frecuencias, se ve que Mo = 7

    Puede ocurrir que una distribucin presente ms de una moda (bimodal, trimodal,

    etc.), e incluso que presente una moda absoluta y alguna moda relativa. Las

    representaciones serian (ver figuras 1.16 y 1.17):

    Figura 1.16: Representacin de una distribucin con una nica moda y otra bimodal

    Figura 1.17: Modas en una d istribucin bimodal

  • 7/27/2019 Descript Iva Me c

    38/108

    38

    DISTRIBUCIN AGRUPADA EN INTERVALOS DE CLASE

    Si la distribucin est agrupada en intervalos, se proceder de forma diferente

    segn que la amplitud sea constante o no.

    Amplitud constanteSi la amplitud es constante, la mxima frecuencia nos determina un intervalo, el

    intervalo modal, pero hay que seleccionar un valor de ese intervalo que haga el papel de

    moda. En este caso hay varios criterios: unos seleccionan el extremo inferior del

    intervalo, otros el extremo superior y otros la marca de clase, pero habr que tener en

    cuenta que la moda estar ms cerca del intervalo contiguo de mayor frecuencia.

    Figura 1.18: Histograma para el clculo de la Moda

    Es claro que Mo = Li-1 + m . Veamos la determinacin de "m".

    Dado que los tringulos OAA' y OBB' son semejantes por tener los ngulos

    iguales, se puede establecer la proporcin:

    OQ

    PO=BB'

    AA'!

    OQ

    PO+1 =

    BB'

    AA'+1!

    OQ + PO

    PO=BB' +AA'

    AA'

    invirtindola resulta:

  • 7/27/2019 Descript Iva Me c

    39/108

    39

    PO

    OQ + PO=

    AA'

    BB' +AA'!

    m

    ci "m( ) + m=

    d1

    d1+ d2

    siendo d1, d2 las diferencias de frecuencias absolutas entre el intervalo modal y los

    intervalos anterior y posterior respectivamente. Por lo tanto la moda valdra:

    Mo = Li!1 +d1

    d1 + d2

    ci

    EJEMPLO 1.19:

    Calculemos la Moda de la siguiente distribucin:

    Intervalo Frecuencia0 - 2525 - 3050 - 7575 - 100

    2040

    10060

    Total 220

    Solucin:

    El intervalo modal es el 50 - 75, y como

    d1 = 100 - 40 = 60 , d2 = 100 - 60 = 40

    resulta que Mo = 50+60

    60 + 4025 = 50+15 = 65

    Amplitud no constanteSi la amplitud de los intervalos es variable, teniendo en cuenta que la altura del

    rectngulo indica la densidad de frecuencia, el intervalo modal ser el que tenga mayor

    densidad de frecuencia, es decir mayor altura.

    EJEMPLO 1.20:

    Calculemos la Moda de la siguiente distribucin:

  • 7/27/2019 Descript Iva Me c

    40/108

    40

    Intervalo fi ci ai4 -77 - 9

    9 - 1515 - 3030 - 6060 - 100

    ms de 100

    67

    1713421

    32

    6153040--

    23,5

    2,80,80,10,05---

    Total 50

    Solucin:

    Primero se procede a buscar la mayor altura:

    ai = fi / ci

    Se contina como en el caso anterior sustituyendo la frecuencia por la altura.

    El intervalo modal es el 7-9, y por lo tanto:

    d1 = 3,5 - 2 = 1,5

    d2 = 3,5 - 2,8 = 0,7

    As la moda ser:

    Mo = 7+1.5

    1.5+ 0.725 = 7 +1.36 = 8.36

    VENTAJAS E INCONVENIENTES

    Como ventajas de la moda cabe citar que cuando la distribucin es de escala

    nominal (no susceptible de ordenacin) es la medida ms representativa, pues no es

    posible hacer operaciones con sus observaciones, y por tanto no se pueden calcular las

    otras medidas. Adems igual que la mediana, no viene influida por los valores extremos

    de la variable.

    Como inconveniente cabe citar el modo de calcularla en los casos de variablesagrupadas en intervalos y el hecho de que utiliza un nico dato de la distribucin.

  • 7/27/2019 Descript Iva Me c

    41/108

    41

    Calculemos en un ejemplo la media aritmtica, la moda y la mediana de una

    distribucin para hacernos una idea de cul de ellas es la medida de centralizacin ms

    representativa en la situacin estudiada.

    EJEMPLO 1.21:

    El sueldo anual de los 25 trabajadores de una empresa viene expresado en la

    tabla siguiente:

    Director 10.000.000 pts.Gerente 6.000.000 pts.

    Dos ingenieros 4.000.000 pts. cada uno.

    Tres peritos 2.500.000 pts. cada uno.

    Cinco encargados 2.000.000 pts. cada uno.

    Contable 1.800.000 pts. cada uno.

    Resto plantilla 1.300.000 pts. cada uno.

    Calcular la media, la moda y la media y efectuar un estudio comparativo de losresultados.

    Solucin:

    Calculando la media aritmtica de los sueldos vemos que es de 2.356.000 pts.

    cantidad que, adems de no ser el sueldo de ningn empleado de la compaa, da una

    idea poco aproximada de la realidad, toda vez que la mayora de los trabajadores ganan

    bastante menos de esa cantidad.

    La moda, por su parte, vale 1.300.000 pts., mientras que la mediana es 1.800.000

    pts. Estas dos medidas indican ms claramente la situacin en la empresa, siendo la

    moda la que mejor resume la situacin.

  • 7/27/2019 Descript Iva Me c

    42/108

    42

    1.1.5 Medidas de posicin nocentrales

    Estos valores no reflejan ninguna tendencia central, sino una posicin de la

    distribucin, dividindola a sta en partes iguales. Cabe citar entre los de uso ms

    frecuente: cuartiles, deciles y percentiles.

    1) Los cuartiles son tres valores que dividen a la distribucin en cuatro partes

    iguales, estando en cada una de ellas el 25% de sus observaciones. Se indican con Qi.

    2) Los deciles son nueve valores que dividen a la distribucin en diez partesiguales, estando en cada una de ellas el 10% de las observaciones. Se indican por Di.

    3) Los percentiles son noventa y nueve valores que dividen a la distribucin en

    cien partes iguales, dejando un 1% de las observaciones entre cada dos de ellos

    consecutivos. Se nombran por Pi.

    Hay que tener en cuenta algunas relaciones entre ellos, como son:

    Me = Q2 = D5 = P50

    Q1 = P25 ; Q3 = P75

    D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D6 = P60

    Para el clculo de todos los cuantiles el proceso es anlogo al clculo de la

    mediana, sustituyendo n/2 por r.n/k, siendo r el orden del cuantil y k las partes en que

    dicho cuantil divide a la distribucin. As en los cuartiles k = 4 y r = 1, 2, 3 ; en los

    deciles k = 10 y r = 1, 2,....., 9, y en los percentiles k = 100 y r = 1, 2, 3,....., 99.

    Se procede pues buscando en las frecuencias acumuladas el valor de rn/k, y si la

    distribucin est agrupada, el cuantil r/k ser:

    C r k = Li!1 +

    rn

    k! F i!1

    fi

    ci

  • 7/27/2019 Descript Iva Me c

    43/108

    43

    VENTAJAS E INCONVENIENTES

    Las ventajas e inconvenientes son las mismas que los de la mediana.

    EJEMPLO 1.22:

    En el ejercicio de la distribucin de salarios, calculemos Q1, Q3, D4, P88

    Solucin:

    Para Q1: como 1.671/4 = 167,75 , el intervalo del primer cuartil es el 25000 - 30000

    Q1 = 25000 +

    6714

    !100

    1505000 = 25000+ 2258.3 = 27258.3

    Para Q3: como 3.671/4 = 503,25 ,el intervalo del tercer cuartil es el 35000 - 40000

    Q3 = 35000 +

    3671

    4! 450

    1805000 = 35000 +1479.16 = 36479.16

    Para D4: como 4.671/10 = 2684 , el intervalo del cuarto decil es el 30000 - 35000

    D4 = 30000 +

    4671

    4! 2500

    2005000 = 30000+ 460 = 30460

    Para P88: como 88.671/4 = 590,48, el intervalo del percentil ochenta y ocho es el 35000

    - 40000

    P88 = 35000+

    88671

    4! 450

    1805000 = 35000+ 3902.2 = 38902.2

  • 7/27/2019 Descript Iva Me c

    44/108

    44

    1.1.6 Medidas de dispersin

    En el apartado anterior hemos definido una serie de medidas de tendencia central,

    cuyo objetivo era tratar de sintetizar toda la informacin disponible, pero cabe

    preguntarse posteriormente si esa medida es o no representativa de la distribucin de

    frecuencias.

    Si consideramos dos variables X e Y con distribuciones:

    xi 0 500 1000 yi 499 501

    fi 1 1 1 fi 1 1

    Las medias son :

    x =0 + 500 +1000

    3= 500 y =

    499 + 501

    2= 500

    Las dos medias son iguales y sin embargo las dos distribuciones son muy

    diferentes pues los valores de X estn mucho ms dispersa que los de Y.

    As pues, para intentar medir la representatividad de una determinada medida

    debemos de cuantificar la separacin de los valores de la distribucin respecto de dicha

    medida. As pues, resulta necesario que, para completar la informacin de un promedio

    (por ejemplo media aritmtica), ste vaya acompaado de uno o varios coeficientes que

    nos midan el grado de dispersin de la distribucin de la variable con respecto a l.

    Distinguiremos dos tipos de medidas de dispersin: absolutas y relativas.

    1.1.6.1 Medidas de dispersin absoluta

    Cabe citar entre stas el recorrido, el recorrido intercuartlico, la desviacin

    media, la varianza y la desviacin tpica. Todas son referidas en general a un

    promedio.

  • 7/27/2019 Descript Iva Me c

    45/108

    45

    RECORRIDO O RANGO:

    Hemos dicho ya que ste es la diferencia entre el mayor y el menor valor de la

    distribucin:

    Re = Max (xi) - Min (xi)

    Si este recorrido es pequeo respecto al nmero de datos puede entenderse que

    existe poca dispersin.

    Tiene el inconveniente de que se ve totalmente influenciado por los valores

    extremos (con los que se calcula).

    RECORRIDO INTERCUARTLICO:

    Es la diferencia existente entre el tercer y el primer cuartil

    RI = Q3 - Q1

    En esta medida se suprimen el 25% superior e inferior de la distribucin, y por lo

    tanto no se ve influenciado por los valores extremos, y nos indica la longitud del

    intervalo en el que estn el 50% central de los valores

    En algunos casos se utiliza el recorrido semiintercuartlico que se define como

    la mitad del recorrido intercuartlico.

    RSI = (Q3 -Q1)/2

    DESVIACIN MEDIA:

    Esta medida de dispersin hace referencia a un promedio, cosa que no hacen las

    anteriores; puede entenderse como la media de las desviaciones de los datos de la

    variable respecto al promedio utilizado; no obstante, para evitar que las desviaciones

    positivas queden compensadas por las negativas y que esta desviacin media resulte

    igual a 0, (que nos hara pensar que no hay dispersin) se utiliza el valor absoluto de la

    desviacin de los datos respecto del promedio.

    As se definir la desviacin media respecto de la media como:

  • 7/27/2019 Descript Iva Me c

    46/108

    46

    Dx = x i ! xfi

    ni=1

    k

    "

    Tambin se puede utilizar la desviacin media respecto de la mediana como:

    DMe = x i !Mefi

    ni=1

    k

    "

    Las dos nos indicaran la dispersin de los datos respecto del promedio utilizado,

    en el caso de que sta fuera grande el promedio sera poco representativo.

    VARIANZA:

    Se define como la media de los cuadrados de las desviaciones de los valores de la

    variable respecto de la media aritmtica, es decir:

    s2= xi ! x( )

    2 fi

    n= x i ! x( )

    2h i

    i=1

    k

    "i=1

    k

    "

    Se utiliza el cuadrado para lograr que todas las desviaciones sean positivas; nosindica la mayor o menor dispersin de los valores de la variable respecto de la media

    aritmtica, y por lo tanto, su representatividad.

    Tiene el inconveniente de no venir expresada en las mismas unidades que la

    variable, sino en el cuadrado de las mismas, por ello se utiliza ms la siguiente.

    DESVIACIN TPICA O ESTNDAR:

    Se define como la raz cuadrada positiva de la varianza, es decir:

    s = x i ! x( )2 fi

    ni=1

    k

    " = x i ! x( )2hi

    i=1

    k

    "

    Al ser la raz cuadrada de la varianza viene expresada en las mismas unidades que

    la variable, lo que la hace ms apta como medida de dispersin que la varianza, siendo

    en la actualidad la ms utilizada.

  • 7/27/2019 Descript Iva Me c

    47/108

    47

    A menudo, en lugar de dividir entre el tamao de los datos, n, se divide entre n-1,

    obtenindose la llamada cuasivarianza:

    s2 = xi ! x( )2 f

    in!1i=1

    k

    "

    y cuasidesviacin tpica:

    s = xi ! x( )2 fi

    n !1i=1

    k

    "

    Siendo la relacin entre la varianza y la cuasivarianza la siguiente:

    s2=

    n

    n !1s2

    PROPIEDADES DE LA VARIANZA Y DE LA DESVIACIN TPICA:

    La varianza y la desviacin tpica no pueden ser negativas, por ser suma decuadrados:

    s2 0, s 0

    Si en una distribucin le sumamos a todos los valores de la variable unaconstante, la varianza y la desviacin tpica no varan.

    Si en la distribucin (xi fi) de media x = xifi

    ni=1

    k

    ! , y de varianza

    s2= xi ! x( )

    2 fi

    ni=1

    k

    " sumamos a todos los elementos una constante k, obtenemos otra

    distribucin de variable x'i = xi + k .

    Como, x' = x + k resulta que la varianza de la nueva distribucin ser:

  • 7/27/2019 Descript Iva Me c

    48/108

    48

    s'2= xi

    ' ! x'( )2 fi

    ni=1

    k

    " = xi + k( )! x ! k( )[ ]2 fi

    ni=1

    k

    " =

    = xi ! x( )2 fi

    ni=1

    k

    " = s2

    es decir, que la varianza no varia, y por lo tanto, la desviacin tpica tampoco.

    Si en una distribucin multiplicamos a todos los valores de la variable poruna constante, la varianza queda multiplicada por el cuadrado de la constante y la

    desviacin tpica queda multiplicada por la constante.

    En efecto:

    Si tomamos la distribucin x i''= kx i teniendo en cuenta que x' = kx , resulta que

    la varianza de la nueva distribucin vale:

    s' '2= x i

    ' ' ! x' '( )2 fi

    ni=1

    k

    " = kx i + kx( )fi

    ni=1

    k

    " =

    = k2

    xi ! x( )2 fi

    ni=1

    k

    " = k2s2

    y por ser la desviacin tpica la raz cuadrada de la varianza queda:

    s' '= s' '2= k

    2s2= ks

    CLCULO PRCTICO DE LA VARIANZA*

    En la prctica, al calcular la varianza conviene tener en cuenta la siguiente

    expresin:

    * La media, la varianza y la desviacin tpica las proporciona directamente cualquiercalculadora de bolsillo, luego nomerece la pena hacer perder tiempo al alumno

    escribiendo tablas con xifi etc.

  • 7/27/2019 Descript Iva Me c

    49/108

    49

    s2= xi ! x( )

    2 fi

    ni=1

    k

    " = x i2 ! 2xix + x

    2( )fi

    ni=1

    k

    " =

    = xi2 fi

    ni=1

    k

    " ! 2x x ifi

    ni=1

    k

    " + x2 fi

    ni=1

    k

    " = x i2 fi

    ni=1

    k

    " ! 2x2+ x

    2= x

    2 ! x2

    Veamos el clculo de la varianza y desviacin tpica en los ejemplos 1.9 y 1.10:

    xi fi

    54

    59

    63

    64

    2

    3

    4

    110

    x = x ifi

    ni! = 60.1Kg

    s2 = s2= xi

    2 fi

    ni=1

    k

    ! " x = 36247/10 -(60,1)2 = 3624,7 - 3612,01 = 12,69 Kg2

    s = 12.69 = 3,5623 Kg.

    En el ejemplo de datos agrupados en intervalos es:

    Intervalo marca de

    clase

    fi

    30-40

    40-50

    50-60

    35

    45

    55

    3

    2

    510

    x = 470/10 = 47

    S2 = 22850/10 -(47)2 = 2285 - 2209 = 76

    S = 76 = 8,718

  • 7/27/2019 Descript Iva Me c

    50/108

    50

    1.1.6.2 Medidas de dispersin relativas

    En el caso de intentar comparar la dispersin de dos distribuciones mediante

    alguna de las medidas de dispersin halladas antes, no podramos efectuar talcomparacin porque las distribuciones, en general, no vendrn dadas en las mismas

    unidades y tampoco porque los promedios en general tambin sern diferentes. Por ello,

    para poder comparar las dispersiones, es preciso definir medidas de dispersin

    adimensionales.

    Entre stas se encuentra el coeficiente de variacin de Pearson.

    COEFICIENTE DE VARIACIN DE PEARSON:

    Es el cociente entre la desviacin tpica y el valor absoluto de la media aritmtica.

    CV =s

    x

    Este coeficiente es adimensional luego permite comparar las dispersiones de dos

    distribuciones diferentes.

    A menudo se le suele utilizar en forma de porcentaje, empleando CV =s

    x100

    Obviamente, a mayor CV menor es la representatividad de x , pues la desviacin

    tpica ser mayor comparada con la media.

    1.1.7 MomentosExisten dos tipos de momentos:

    1.1.7.1 Momentos centrales (respecto a la mediaaritmtica)

  • 7/27/2019 Descript Iva Me c

    51/108

    51

    Se define el momento central de orden r respecto de la media aritmtica x como

    la media aritmtica de las potencias de orden r de las desviaciones de los datos respecto

    de la media:

    m r= xi ! x( )rf

    i

    ni=1

    k

    "

    En particular, se verifica que:

    - El momento central de orden 0 vale 1:

    m0 = x i ! x( )0 fi

    ni=1

    k

    " =fi

    ni=1

    k

    " =n

    n= 1

    - El momento central de orden 1 vale 0:

    m1 = x i ! x( )1 fi

    ni=1

    k

    " = x ifi

    ni=1

    k

    " ! xfi

    ni=1

    k

    " = x! xn

    n= 0

    - El momento de orden 2 es la varianza.

    1.1.7.2 Momentos con respecto al origen

    Se define el momento de orden r con respecto al origen como la media aritmtica

    de las potencias de orden r de los datos de la variable:

    ar = xir fi

    ni=1

    r

    !

    Como casos particulares cabe destacar:

    - El momento de orden 0 vale 1:

    a0 = x i0 fi

    ni=1

    k

    ! " xfi

    ni=1

    k

    ! = 1

    - El momento de orden 1 es la media aritmtica

  • 7/27/2019 Descript Iva Me c

    52/108

    52

    Existe una relacin entre los dos momentos, que nos da una forma reducida de

    calcular la varianza:

    s2 = m2 = x i ! x( )2 f

    ini=1

    k

    " = x i2fini=1

    k

    " ! x2 = a2 ! a12

  • 7/27/2019 Descript Iva Me c

    53/108

    53

    1.1.8 Medidas de forma

    Para tratar de conocer una distribucin no basta con conocer sus medidas de

    dispersin y de posicin, sino que es necesario, en general, conocer algunos aspectos

    ms de la misma.

    Dado que la diversidad de comportamientos de las xi de la distribucin se haca

    ms patente al realizar la representacin grfica, vamos a tratar de determinar a

    continuacin ms medidas, segn la "forma" de la representacin; clasificaremos estas

    medidas en dos grupos: medidas de asimetra y medidas de curtosis o apuntamiento.

    1.1.8.1 Medidas de asimetra

    Tienen por objeto establecer el grado de simetra (o asimetra) de una distribucin

    sin necesidad de realizar la representacin grfica.

    Entenderemos la simetra respecto al eje determinado por la media aritmtica, de

    tal forma que diremos que una distribucin es simtrica cuando los valores de la

    variable equidistantes de este valor central tengan la misma frecuencia, en casocontrario diremos que es asimtrica, siendo esta asimetra negativa o a izquierda si es

    ms larga la rama de la izquierda, es decir, las frecuencias descienden ms lentamente

    por la izquierda que por la derecha; analogamente llamaremos asimetra positiva o a

    derechas aquella en que la rama de la derecha es ms larga, es decir las frecuencias

    descienden ms lentamente por la derecha que por la izquierda.

    COEFICIENTE DE ASIMETRA DE FISHER

    Debemos buscar ahora una medida adimensional que recoja las desviaciones

    positivas y negativas de los valores respecto de la media.

    La figura 1.19 nos muestra las distintas distribuciones:

  • 7/27/2019 Descript Iva Me c

    54/108

    54

    Mo

    g1

    >0

    x_

    g = 01

    Distribucin simtrica Distribucin asimtricaa la derecha

    Mo

    g 0

    si la curva tiene asimetra negativa o a izquierdas, m3 < 0

    Para que no tenga dimensin debemos dividirla por una medida con las mismas

    unidades (cbicas), obtenindose el coeficiente de asimetra de Fisher.

  • 7/27/2019 Descript Iva Me c

    55/108

    55

    g1 =m3

    s3 =

    x i ! x( )3 fini=1

    k

    "

    x i ! x( )2 fini=1

    k

    "

    #

    $%

    &

    '(

    3

    2

    Siendo su interpretacin:

    Si g1 > 0 la distribucin es asimtrica positiva o a derecha.

    Si g1 = 0 la distribucin es simtrica.

    Si g1 < 0 la distribucin es asimtrica negativa o a izquierda.

    COEFICIENTE DE ASIMETRA DE PEARSON

    Otra medida de asimetra es el coeficiente de asimetra de Pearson definido por:

    Ap =x !Mo

    s

    Teniendo en cuenta que si la curva es simtrica, x = Me = Mo, si la distribucin

    es asimtrica positiva o a derechas x > Mo y si la distribucin es asimtrica negativa o

    a izquierdas x < Mo, su interpretacin ser:

    Ap= 0 la distribucin es simtrica.

    Ap > 0 la distribucin es asimtrica positiva (derechas)

    Ap< 0 la distribuciones asimtrica negativa (izquierdas)

    Tiene el inconveniente de que no puede utilizarse en distribuciones bimodales, por

    ello Pearson demostr empricamente que

    x ! Mo " 3 x !Me( )

    por lo que algunos autores utilizan como coeficiente de asimetra de Pearson

    Ap =3 x ! Me( )

    s

    Existen otros tipos de coeficientes de asimetra, pero son menos utilizados.

  • 7/27/2019 Descript Iva Me c

    56/108

    56

    1.1.8.2 Medidas de curtosis o apuntamiento

    Estas medidas, aplicadas a distribuciones unimodales simtricas o con ligera

    asimetra, tratan de estudiar la distribucin de frecuencias en la zona central, dandolugar a distribuciones muy apuntadas, o poco apuntadas.

    Para estudiar el apuntamiento, debemos hacer referencia a una distribucin tipo

    que consideraremos la distribucin "Normal"; sta corresponde a fenmenos muy

    corrientes en la naturaleza cuya representacin grfica es la campana de Gauss.

    Si una distribucin tiene mayor apuntamiento que la normal diremos que es

    "leptocrtica", si tiene menor apuntamiento que la normal la llamaremos "platicrtica",y a las que tengan igual apuntamiento que la normal las llamaremos "mesocrticas".

    Veamos esto en unas figuras 1.20a y b:

    Figura 1.20: Diferentes distribuciones segn su apuntamiento. Comparacin con la Normal

    En la distribucin normal m4 = 3.s4, por lo tanto utilizaremos como coeficiente de

    apuntamiento o curtosis.

    g2 =m 4

    s4 =

    xi ! x( )4 fini=1

    k

    "

    x i ! x( )2 fi

    ni=1

    k

    "#

    $%

    &

    '(

    2

    siendo la interpretacin la siguiente:

  • 7/27/2019 Descript Iva Me c

    57/108

    57

    Si g2 > 3 la curva es ms apuntada que la normal (leptocrtica).

    Si g2 = 3 la curva tiene el mismo apuntamiento que la normal (mesocrtica).

    Si g2 < 3 la curva es menos apuntada que la normal (platicrtica).

    A veces se utiliza como coeficiente de curtosis:

    g2 =m 4

    s4 ! 3

    y la comparacin ser con 0, obtenindose:

    g2 = 0 (mesocrtica).g2 > 0 (leptocrtica).

    g2 < 0 (platicrtica)

    NOTA: El clculo de m3 y m4 es ms prctico utilizando las frmulas:

    m3

    = a3

    - 3a2a1

    + 2a13

    m4

    = a4

    - 4a3a1

    + 6a2a12 - 3a

    14

    siendo a1 = x .

    1.1.9 Medidas de concentracin

    Aunque "dispersin" y "concentracin" tengan significados opuestos en el

    lenguaje coloquial, en estadstica no coincide el concepto de concentracin con la

    acepcin normal del vocablo.

    La "dispersin" hace referencia a la variabilidad de los datos, a las diferencias

    existentes entre ellos y la representatividad de los promedios.

    La "concentracin", por su parte, se refiere al mayor o menor grado de igualdad

    en el reparto de todos los valores de la variable.

    Estas medidas de concentracin tienen especial aplicacin a variables econmicas

    (rentas, salarios, etc.), pues lo que interesa es la mayor o menor igualdad en el repartoentre los componentes de la poblacin, es decir, que est equitativamente repartida.

  • 7/27/2019 Descript Iva Me c

    58/108

    58

    Llamaremos, pues, concentracin al grado de equidad en el reparto de la suma

    total de la variable considerada.

    La concentracin es mxima si uno solo de los elementos recibe el total de la

    variable, mientras que la concentracin ser mnima o equidistribuida si todos los

    elementos perciben la misma cantidad.

    Entre los ndices de concentracin que estudiaremos se encuentran el ndice de

    Gini y la curva de Lorenz.

    1.1.9.1 Curva de Lorenz

    Es una representacin grfica de la concentracin.

    Llamando

    ur = xifii=1

    r

    ! , pr =F r

    n100 , qr =

    ur

    n100

    Si representamos los valores pren el eje de abscisas y los valores qi en el eje de

    ordenadas, dibujando en el cuadrado de lado 100 los puntos pi y qi, y unindolos, queda

    determinada una poligonal llamada "curva de Lorenz".

    Vemoslo en un ejemplo econmico (tengamos en cuenta que lo anterior no es

    aplicable a todo tipo de variables):

    Supongamos que tenemos k trabajadores, con salarios x1 x2 ... xk ordenadosen sentido creciente. Queremos saber como se reparte la suma total de salarios

    S = x ii=1

    k

    !

    entre los k trabajadores.

    La concentracin es mxima si x1= x2= ........= xk-1 = 0; xk = S es decir, un solo

    trabajador recibe todo y el resto nada.

  • 7/27/2019 Descript Iva Me c

    59/108

    59

    La concentracin es mnima si x1 = x2 = .........= xk, es decir, todos los

    trabajadores reciben lo mismo.

    Para determinar el ndice de concentracin se forman las columnas siguientes:

    1- xifi que denota el salario recibido por los ni trabajadores.

    2- Fi columna de frecuencia absolutas acumuladas.

    3- ur, acumulador de la primera columna que denota el salario total recibido

    por los Fr primeros trabajadores, siendo su valor ur = xifii=1

    r

    !

    4- pr, que es la frecuencia relativa acumulada en tantos por 100:

    pr =Fr

    n100

    5- qr, que es el porcentaje del salario total que reciben los N i primeros

    trabajadores:

    qr =ur

    n100

    Si la concentracin fuese mnima, pr = qr igualmente repartida.

    Si la concentracin fuese mxima, q1 = q2 =..........= qk-1 = 0, qk = 100

    La representacin de la curva de Lorenz sera:

  • 7/27/2019 Descript Iva Me c

    60/108

    60

    Figura 1.21: Curva de Lorenz

    Los casos extremos nos daran las siguientes grficas (figura 1.22 y b):

    pi %

    qi %

    Distribucin de concentracin mnima pi %

    qi %

    Distribucin de concentracin mxima

    (a) (b)

    Figura 1.22: Casos extremos de concetracin

    Como propiedades de esta curva de Lorenz pueden citarse las siguientes:

    - La curva es siempre creciente, pues la ordenacin de salarios es de menor a mayor.

    - La curva empezar en el origen O = (0,0) y terminar en el (100,100)B

    - La curva est siempre situada por debajo de la diagonal.

    - La concentracin ser menor cuanto ms prxima est la curva de Lorenz a la

    diagonal.

    1.1.9.2 ndice de Gini

    Se define el ndice de concentracin de Gini por :

    IG =

    p i ! q i( )i=1

    k!1

    "

    pii=1

    k!1

    "

  • 7/27/2019 Descript Iva Me c

    61/108

    61

    Si la concentracin es mnima (pi = qi) vale 0 y si la concentracin es mxima

    (q1 = q2 =........= qk-1 = 0) vale 1.

    As pues el ndice de Gini varia de 0 a 1, siendo menor la concentracin y en

    consecuencia ms justa y equitativa la distribucin cuanto ms prximo est a cero,

    mientras que la concentracin ser mayor cuanto ms prximo est a 1 (Ver figura

    1.23).

    Por ltimo cabe sealar, que aunque el ndice de Gini tiene la ventaja de resumir

    en un solo nmero lo recogido en la curva de Lorenz, a veces, dos distribuciones de

    aspectos muy diferentes pueden tener dos ndices de concentracin de Gini iguales,

    como indican las curvas de la figura 1.23.

    Figura 1.23: Diferentes curvas de Lorenz

  • 7/27/2019 Descript Iva Me c

    62/108

    62

    "REPRESENTACIONES GRAFICAS"

    1.2 Ampliacin

  • 7/27/2019 Descript Iva Me c

    63/108

    63

    Quizs fuese interesante, presentar el tema de las representaciones grficas

    al alumno, mediante una introduccin desde la perspectiva del lenguaje

    grfico y de su utilidad y difusin en el mundo que nos rodea. Sera una

    buena forma de motivarle para que prestase atencin sobre la importanciade saber leer de forma correcta los grficos ms usuales.

    1.2.1 El lenguaje grfico

    El lenguaje grfico es el "conjunto de smbolos y convenios que permiten

    comunicar una informacin cuantitativa de la manera ms eficiente posible"

    (GETE-ALONSO y del BARRIO, 1990).

    Este lenguaje se sirve de numerosos signos y smbolos que han evolucionado con

    el tiempo y que encontramos en casi todas las manifestaciones de la actividad humana,

    emplendose para expresar de manera rpida y sucinta ideas, objetos y situaciones, en

    muchas ocasiones con significado universal.

    1.2.1.1 El lenguaje grfico en la vida cotidiana

    Si nos detenemos un momento a pensar en el mundo que nos rodea vemos como

    el lenguaje grfico se utiliza en absolutamente todo nuestro entorno (figura 1.24).

    Lo encontramos en las instrucciones de lavado de cualquier prenda de vestir, en la

    informacin sobre los transportes metropolitanos de cualquier ciudad, en las teclas que

    hacen funcionar los electrodomsticos, en los mapas de carreteras, en la informacin

    acerca de la calidad y categora de restaurantes y hoteles, en las seales que regulan el

    trfico, en elparte diario acerca del estado del tiempo, en los emblemas y distintivos de

    organizaciones y sociedades, etc. etc.

  • 7/27/2019 Descript Iva Me c

    64/108

    64

    Figura 1.24.- Importancia y actualidad del lenguaje grfico(Tomada de AVILA-ZARZA, 1993)

    1.2.1.2 El lenguaje grfico como herramienta decomunicacin social

    Hace ya tiempo que las representaciones grficas abandonaron las publicaciones

    especializadas, en las que se utilizan como herramienta de comunicacin y anlisis dedatos estadsticos, para pasar a formar parte de las herramientas de comunicacin social

    (televisin, prensa, propaganda...).

    La generalizada utilizacin de las representaciones grficas es sin duda

    sorprendente.

    Podemos encontrarlas en billetes, como el de diez Marcos alemanes de la figura

    1.25, en el que aparece representada la curva normal de Gauss.

  • 7/27/2019 Descript Iva Me c

    65/108

    65

    Figura 1.25: Billete de diez marcos alemanes, en el que est impresala Curva Normal de Gauss

    Tambin es posible encontrarlas ya en obras dirigidas al gran pblico, cuya

    nica intencin es entretener. As ocurre, por ejemplo, con la conocida novela de ficcin

    "Parque Jursico" (CRICHTON, M. 1990-92) en la que un Diagrama de perfil - (ver

    figura 1.26) sirve de base argumental.

    Figura 1.26.

    Esto se debe a que sin duda, y cada vez con mayor intensidad, nos vemos

    inmersos en una "sociedad estadstica", entendiendo como tal aqulla en la que los

    ciudadanos piensan, razonan y toman decisiones en base a anlisis estadsticos de

    datos.

  • 7/27/2019 Descript Iva Me c

    66/108

    66

    Aunque en Espaa la Estadstica dista an de ocupar un lugar como el que, por

    ejemplo, tiene en un pas como Japn, donde los peridicos de mayor difusin e

    importancia incluyen los viernes una seccin dedicada al control estadstico de calidad y

    en el que, por ejemplo, el diagrama horario del tren de Tokio se presenta mediante unclsico Steam and Leaf(ROMERO, 1991)* , somos en la actualidad espectadores de un

    cambio significativo.

    Cada vez en mayor medida se recurre a datos y anlisis estadsticos para transmitir

    la informacin, siendo los Mtodos Grficos de carcter descriptivo la herramienta de la

    que no se puede prescindir**.

    Un claro ejemplo de esta situacin de transicin, se produjo a raz de las

    elecciones generales realizadas en los dos ltimos comicios en nuestro pas, donde no

    slo los resultados de las encuestas, sino tambin los aspectos relacionados con aqullas

    eran objeto de anlisis estadstico, siendo los mtodos grficos las autnticas estrellas

    en la transmisin de la informacin.

    1.2.2 El poder de los mtodos grficos

    "Una imagen vale ms que mil palabras"***. No slo el lenguaje grfico

    es importante; el poder de las representaciones grficas es un hecho.

    La visin es la modalidad sensorial dominante del ser humano; nuestro cerebro

    est altamente capacitado para el manejo de informacin visual, siendo capaz de

    reconocer y procesar imgenes grficas con una simple inspeccin ocular.

    As, est comnmente aceptado por la comunidad cientfica que, en general, unarepresentacin grfica proporciona mayor informacin acerca de las caractersticas y

    patrones de los datos, que un texto o una presentacin tabular de los mismos.

    * Nos preguntamos, cuntos lectores en Espaa, sin y con conocimientos estadsticosbsicos podran ser capaces de interpretar uno similar...?.** Todo ello ha motivado no sacrificar en el apartado de mtodos grficos la inclusin

    de aqullos, que an no siendo histricamente recientes, son an "grandesdesconocidos".*** Provervio Chino

  • 7/27/2019 Descript Iva Me c

    67/108

    67

    1.2.2.1 Los riesgos del Anlisis de Datos sin lautilizacin de grficos

    LOS DIAGRAMAS DE ANSCOMBE

    El peligro de llevar a cabo anlisis de datos sin la utilizacin de grficos puede

    ponerse de manifiesto con los conocidos Diagramas de Anscombe (ANSCOMBE,

    1973) (ver figura 6.19), los cuales evidencian cmo cuatro grupos de datos que

    producen idnticas rectas de Regresin (incluida la ordenada en el origen y la

    pendiente), idnticos coeficientes de correlacin e idnticos errores estndar,

    corresponden en realidad a casos muy diferentes.

    Como seala TUKEY (1962), gran parte del poder e importancia de los

    Mtodos Grficos, es que nos permiten percibir aquello que nunca

    esperbamos ver.

    1.2.2.2 Los grficos como herramienta de engao

    ESPACIO PERCEPTIVO Y ESPACIO MATEMTICO EUCLDEO

    A pesar de la reconocida importancia y poder del lenguaje grfico, el proceso

    perceptivo y cognoscitivo que se produce durante la inspeccin de un grfico no es del

    todo conocido.

    En las Matemticas los espacios se construyen a partir de unos axiomas, y se

    describen y definen por una geometra. Hay varios tipos de espacios matemticos,

    definidos por sus correspondientes geometras (topolgico, proyectivo, afn,

    eucldeo...). El ms conocido y utilizado, es el Espacio Eucldeo.

    El espacio fsico en el que vivimos, puede considerarse aproximadamente, y

    teniendo en cuenta el alcance de nuestra percepcin, como un espacio matemtico

    eucldeo. Admitir que el espacio fsico es eucldeo no equivale a que el perceptual lo

    sea, y as, aun no est claro que la idea subjetiva de distancia, por ejemplo, coincida con

    la distancia fsica definida en relacin con las coordenadas rectangulares. Segn

    VURPILLOT (1979), el espacio visual binocular es un espacio de curvatura negativa

    al que la geometra hiperblica de Lobatchefsky describra de forma ms adecuada.

  • 7/27/2019 Descript Iva Me c

    68/108

    68

    Sin embargo, y a pesar de esta controversia acerca de si el espacio perceptivo

    coincide con en el espacio matemtico eucldeo, es ste -por aproximacin al espacio

    fsico- el que generalmente utilizamos para representar el mundo.

    No obstante, representadas en un espacio Eucldeo, las cosas no son siempre

    aquello que parecen ser.

    Como seala PINILLOS (1973 ) "En realidad, lo que ocurre es que la mente

    humana funciona como una totalidad, y no son los sentidos, sino el sujeto, quien

    percibe".

    ILUSIONES GEOMTRICAS

    Lo que acabamos de comentar se pone especialmente de manifiesto en las

    conocidas distorsiones perceptivas o ilusiones geomtricas. (Ver figura 1.27a y b)

    Fig. 1.27 (a): Ilusin de Mller-Lyer (dos rectas de igual longitud, parecen de diferente tamao(b): Ilusin de PoggendorfLas lneas oblicuas son colineales

    Estas distorsiones perceptivas, conocidas ya a principios de siglo, deberan ser

    tenidas en cuenta en el contexto de los Mtodos Grficos. Son sin embargo pocos losestudios experimentales realizados que examinan el papel de las distorsiones

    perceptivas (ilusiones geomtricas) en relacin con la utilizacin de los grficos, y la

    mayora de ellos no son conocidos por el usuario medio, como afirman SPENCE &

    LEWANDOWSKY (1990).

    POULTON (1985) ha investigado ilusiones similares a la clsica de Poggendorf,

    mediante experimentos que sugieren que las relaciones de lneas inclinadas sobre los

    ejes vertical y horizontal de los grficos pueden producir errores de lectura, que seincrementan a medida que aumenta la distancia a los ejes.

  • 7/27/2019 Descript Iva Me c

    69/108

    69

    SOLUCIONES PARA MITIGAR LAS ILUSIONES GEOMETRICAS

    POULTON (1985) propone:

    que los todos los grficos muestren los cuatro ejes.

    que todos los ejes estn graduados.

    INCONVENIENTES DE LAS REPRESENTACIONES GRFICAS

    Las representaciones grficas tienen ventajas, pero tambin sus inconvenientes. La

    frase "una imagen vale ms que mil palabras" podra cambiarse por esta otra "una imagen

    miente ms que 1000 nmeros" (SWOBODA, 1975).

    Las representaciones grficas deberan proporcionar con una sola mirada

    aquella idea del material estadstico que vena dada por la comparacin de

    muchos nmeros y datos.

    Pero... no siempre es as. Los errores y malentendidos surgen cuando el lector es

    distrado o no est suficientemente preparado y adquiere una idea que no se

    corresponde con los datos originales.

    10000

    9000

    8000

    7000

    6000

    I II III IV(a)

    9500

    9000

    8500

    8000

    7500

    I II III IV

    (b)

    I/II II/III III/IV

    9%

    8%

    7%

    6%

    5%

    (c)

    Figura 1.28: La ascensin lenta de la curva (a) pone de manifiesto un crecimiento moderado. Los mismos datospueden expresar un crecimiento explosivo y optimista (b). Se puede obtener una curva ascendente primero, y

    descendente despus si se toman los ndices de crecimiento de uno a otro perodo en lugar delos nmeros absolutos (c). (Adaptada de SWOBODA, 1975).

  • 7/27/2019 Descript Iva Me c

    70/108

    70

    No se pueden juzgar nunca las imgenes solas, sino que siempre

    deben considerarse tambin los nmeros y las escalas.

    1.2.3 Representaciones grficasms usuales

    1.2.3.1 Introduccin

    El artculo publicado por TUKEY en 1962, "The Future of Data Analysis", fue elgermen que proporcion un inusitado auge de Mtodos Grficos en la Estadstica,

    inaugurando una nueva era en este campo, al otorgarles un papel central en anlisis

    exploratorios.

    Sin embargo, la importancia y protagonismo que entonces se prevea, no lleg a

    hacerse realidad hasta ms tarde. Fue en la dcada de los 70 cuando aparecen

    publicaciones sobre el tema, tanto histricas (ROYSTON, 1970), como de

    recapitulacin (FIENBERG, 1977), o de carcter novedoso (CHERNOFF, 1973;

    TUKEY, 1977). Incluso tiene lugar un Simposio sobre el tema (WANG &

    LAKE,1978).

    La aparicin, desarrollo y generalizada utilizacin de los ordenadores fue y es, sin

    duda, la causa fundamental.

    1.2.3.2 Clasificacin

    Existen diversos criterios para clasificar los mtodos de representacin grfica:

    SNEE & PFEIFER (1985), siguiendo el criterio del propsito del mtodo, realizan

    una clasificacin de los distintos mtodos grficos en tres grandes grupos:

    -Grficos utilizados en Anlisis Exploratorios.

    -Grficos usados en Anlisis Confirmatorios.

    -Grficos para la Comunicacin y/o Presentacin de los resultados.

  • 7/27/2019 Descript Iva Me c

    71/108

    71

    Esta clasificacin de los Mtodos Grficos, resulta de un gran atractivo por su

    sencillez y didctica.

    En la figura 1.29 podemos ver un esquema sobre de las fases del mtodo cientficoen donde tienen cabida las representaciones grficas.

    Figura 1.29: Posible implementacin de los mtodos grficos en el procesodel Anlisis de Datos, segn NAGEL & DOBBERKAU (1988)

    ALONSO (1982) realiza una clasificacin en funcin de la finalidad estadstica y

    las caractersticas tcnicas de los distintos mtodos grficos. En ella, stos son

    clasificados en cuatro grupos de tcnicas.

    -Tcnicas de Representacin Grfica de la distribucin de Probabilidad,para una o varias variables.

    -Tcnicas que proporcionan el Perfil (o evolucin) a lo largo del tiempo, odel espacio, etc., de una o varias variables, bien para individuos, bien parapoblaciones.

    -Tcnicas que presentan las proximidades entre individuos y poblaciones,de acuerdo con los valores que toman para varias variables.

    -Tcnicas que permiten obtener grupos jerarquizados de individuos opoblaciones, en base a los valores que toman para varias variables.

  • 7/27/2019 Descript Iva Me c

    72/108

    72

    En base al procedimiento grfico y la tcnica estadstica subyacente, en el

    Anlisis Multivariante pueden distinguirse claramente dos grandes grupos de tcnicas

    grficas:

    Mtodos Multivariantes Grficos (MMG).Mtodos Grficos Multivariantes(MGM).

    Los Mtodos Multivariantes Grficos son potentes herramientas de diagnosis basadas

    en el anlisis de grandes matrices de datos, que mediante complejos procesos

    algebraicos asentados sobre mtodos numricos, permiten representar la informacin

    del hiperespacio de partida en un subespacio de dimensiones reducidas.

    Evidentemente se trata de procedimientos sumamente interesantes, pero queescapan al contenido del presente captulo.

    Los Mtodos Grficos Multivariantes slo exigen efectuar una transcripcin

    geomtrica de los datos correspondientes a un conjunto de variables, en una

    representacin grfica.

    Este tipo de mtodos permiten resumir la informacin, y constituyen directamente

    un procedimiento grfico descriptivo. Entre ellos tenemos:

    Diagramas de Dispersin Mltiple.

    Figuras de Representacin (Grficos Pictoriales o Iconos).

    Curvas de Andrews.

    Estos mtodos sern tratados con mayor profundidad ms adelante. (Ver figura

    1.30)

    1.2.3.3 Representaciones grficas en el anlisismultivariante

    MTODOS GRFICOS UNIVARIANTES MULTIPLES

    Muchas de las representaciones utilizadas en anlisis multivariante no son en s

    mismas multidimensionales ya que, a pesar de ser un conjunto de grficas que forman

    una representacin unitaria, cada una de ellas por separado slo muestra una dimensin(o a lo sumo dos) de los datos referidos a varias variables o dimensiones. Desde ellas no

  • 7/27/2019 Descript Iva Me c

    73/108

    73

    se puede mostrar una variacin comn. Son por ello Mtodos Grficos Univariantes

    Mltiples, ms que multivariantes.

    Evidentemente, son muchas las posibilidades que permiten las representacionesunivariantes en el anlisis de los datos correspondientes a varias variables. Sin embargo,

    estas representaciones no difieren en sus caractersticas de los mtodos grficos

    univariantes pero debido a su importancia, popularidad y utilizacin en todos los

    mbitos, merece la pena hacer referencia a tres tcnicas:

    Stem & leaf,Box-plot*

    Diagrama de dispersin**.

    Curvas de Andrews Mapas Estadsticos

    Grficos Pictoriales

    o Figurativos

    Diagrama de Dispersion

    Mltiple

    Figura 1.30: Algunos Mtodos Grficos Multivariantes(Tomado de AVILA-ZARZA (1993) con permiso del autor)

    Stem & leaf

    * Ambos son mtodos grficos de gran utilidad en la comparacin de dos o ms series

    de datos, de ah su importancia dentro del anlisis multivariante** Mediante esta representacin grfica es como generalmente se presentan losresultados en la mayora de los mtodos multivariantes grficos (MGM).

  • 7/27/2019 Descript Iva Me c

    74/108

    74

    La representacin Stem & Leaf*** es una representacin intermedia entre

    una tabla y un grfico. Muestra los valores con cifras, aunque su perfil es el

    de un histograma.

    Este tipo de representacin se debe a TUKEY (1977). (Ver figura 1.31).

    Construccin de un diagrama Steam & Leaf

    1.- Se debe escribir a la izquierda de una lnea vertical, de arriba hacia abajo,

    todos los posibles dgitos principales del conjunto de datos.

    2.- Luego se representa cada dato a la derecha de la lnea, escribiendo sus dgitos

    secundarios en la fila apropiada.

    Lectura del grfico

    La longitud de cada fila nos muestra el nmero de valores en cada intervalo, por

    lo que representa esencialmente un histograma lateral, solventando una limitacin del

    histograma, ya que permite identificar los valores originales de cada intervalo.

    La figura siguiente (figura 1.31) muestra el grfic