a punt ese stadi stica

Upload: loger12

Post on 16-Oct-2015

26 views

Category:

Documents


0 download

TRANSCRIPT

ESTADSTICA

La Estadstica es una ciencia referida a la recoleccin, anlisis e interpretacin de datos, cuyo objetivo es hallar regularidades de los fenmenos de masa. Busca las caractersticas generales de un colectivo y prescinde de las particulares de cada elemento.

Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en reas de negocios e instituciones gubernamentales.

La Estadstica se divide en dos ramas:

La estadstica descriptiva, ciencia que analiza series de datos (por ejemplo, edad de una poblacin, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.

La inferencia estadstica, que se dedica a la generacin de los modelos, inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). Centramos nuestro estudio en la Estadstica Descriptiva.

En todo estudio estadstico tenemos que distinguir:

Poblacin: conjunto de personas o cosas a los que est referido el estudio. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la poblacin ser el total de las viviendas de dicha ciudad.

Individuo: Cualquier elemento que forme parte de la poblacin. En sentido estadstico un elemento puede ser algo con existencia real, como un automvil o una casa, o algo ms abstracto como la temperatura, un voto, o un intervalo de tiempo.

A su vez, cada elemento de la poblacin tiene una serie de caractersticas que pueden ser objeto del estudio estadstico. As por ejemplo si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres: Sexo, Edad, Nivel de estudios, Profesin, Peso, Altura, Color de pelo, etc.

Luego por tanto de cada elemento de la poblacin podremos estudiar uno o ms cualidades o caracteres.

La poblacin puede ser segn su tamao de dos tipos:

Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo el nmero de alumnos de un centro de enseanza, o grupo clase.

Poblacin infinita: cuando el nmero de elementos que la forman es infinito, o tan grande que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta poblacin podra considerarse infinita.

Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los elementos de la poblacin sino que se realiza sobre un subconjunto de la misma (As, si se estudia el precio de la vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las viviendas de la ciudad, sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo). Este subconjunto puede ser una muestra, cuando se toman un determinado nmero de elementos de la poblacin, sin que en principio tengan nada en comn; o una subpoblacin, que es el subconjunto de la poblacin formado por los elementos de la poblacin que comparten una determinada caracterstica, por ejemplo de los alumnos del centro la subpoblacin formada por los alumnos de 3 ESO, o la subpoblacin de los varones.

Variables y atributos.

Como hemos visto, los caracteres de un elemento pueden ser de muy diversos tipos, por lo que los podemos clasificar en: 1) Variables Cuantitativas: tienen valor numrico (edad, precio de un producto, ingresos anuales).

2) Variables Cualitativas o Atributos. No se pueden medir numricamente (por ejemplo: nacionalidad, color de la piel, sexo).

Las variables tambin se pueden clasificar en:

Variables unidimensionales: slo recogen informacin sobre una caracterstica (por ejemplo: edad de los alumnos de una clase).

Variables bidimensionales: recogen informacin sobre dos caractersticas de la poblacin (por ejemplo: edad y altura de los alumnos de una clase).

Variables pluridimensionales: recogen informacin sobre tres o ms caractersticas (por ejemplo: edad, altura y peso de los alumnos de una clase).

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

- Discretas: slo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: nmero de hermanos (puede ser 1, 2, 3...., etc, pero, por ejemplo, nunca podr ser 3,45).

-Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehculo puede ser 80,3 km/h, 94,57 km/h...etc.

No obstante en muchos casos el tratamiento estadstico hace que a variables discretas las trabajemos como si fuesen continuas y viceversa.

Los atributos son aquellos caracteres que para su definicin precisan de palabras, es decir, no le podemos asignar un nmero. Por ejemplo Sexo Profesin, Estado Civil, etc.Ahora, nos centramos en las VARIABLES UNIDIMENSIONALESTablas EstadsticasSegn el nmero de observaciones y segn el recorrido de la variable estadstica, as tenemos los siguientes tipos de tablas estadsticas:

Tablas tipo I:

Cuando el tamao de la muestra y el recorrido de la variable son pequeos, por ejemplo si tenemos una muestra de las edades de 5 personas, no hay que hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.

Ejemplo: Edad de los 5 miembros de una familia:

5, 8, 16, 38, 45

Tablas tipo II:

Cuando el tamao de la muestra es grande y el recorrido de la variable es pequeo, por lo que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el nmero de personas activas que hay en 50 familias obtenemos la siguiente tabla:

Personas Activas en 50 familias

2122124211

2321113422

2212111322

3231242141

1343222133

Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos quedando la siguiente tabla:

Personas ActivasNmero de Familias

116

220

39

45

Total50

Tablas tipo III:

Cuando el tamao de la muestra y el recorrido de la variable son grandes, por lo que ser necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30 alumnos les preguntamos el dinero que tienen en ese momento ahorrado, nos encontramos con los siguientes datos:

4501152250300175802526806057851595230050001200100

518020067550037515002059851851253154255601100

Evidentemente, la variable estadstica tiene un recorrido muy grande, 4998 euros, por lo que s queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la amplitud de los intervalos, necesitaremos decidir cuntos intervalos queremos. Normalmente se suele trabajar con no ms de 10 12 intervalos.

Amplitud =4998/10 = 499,8 por lo que tomaremos intervalos de amplitud 500

Debemos tener en cuenta las siguientes consideraciones:

-Tomar pocos intervalos implica que la "prdida de informacin" sea mayor.

-Los intervalos sern siempre cerrados por la izquierda y abiertos por la derecha [ Li-1 , Li )

Procuraremos que en la decisin de intervalos los valores observados no coincidan con los valores de los extremos del intervalo y si esto ocurre que no sea en ms de un 5% del total de observaciones.

Con estas recomendaciones tendremos la siguiente tabla:

[ Li-1 , Li )Frecuencia

[ 0,500)16

[ 500, 1000)6

[ 1000,1500)3

[ 1500, 2000)2

[ 2000, 2500)1

[ 2500, 3000)1

[ 3000, 3500)0

[ 3500, 4000)0

[ 4000, 4500)0

[ 4500, 5000)0

[ 5000,5500)1

Distribucin de frecuencia

La distribucin de frecuencia es la representacin estructurada, en forma de tabla, de toda la informacin que se ha recogido sobre la variable que se estudia.

VariableFrecuencias absolutasFrecuencias relativas

(Valor)SimpleAcumuladaSimpleAcumulada

xXxxX

X1n1n1f1 = n1 / nf1

X2n2n1 + n2f2 = n2 / nf1 + f2

...............

Xn-1nn-1n1 + n2 +..+ nn-1fn-1 = nn-1 / nf1 + f2 +..+fn-1

Xnnn nfn = nn / n f

Siendo Xi los distintos valores que puede tomar la variable.

Siendo ni el nmero de veces que se repite cada valor.

Siendo fi el porcentaje que la repeticin de cada valor supone sobre el total

Frecuencia absoluta:

La frecuencia absoluta de una variable estadstica es el nmero de veces que aparece en la muestra dicho valor de la variable, la representaremos por niFrecuencia relativa:

La frecuencia absoluta, es una medida que est influida por el tamao de la muestra, al aumentar el tamao de la muestra aumentar tambin el tamao de la frecuencia absoluta. Esto hace que no sea una medida til para poder comparar. Para esto es necesario introducir el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamao de la muestra. La denotaremos por fi donde N = Tamao de la muestra

Porcentaje:

La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar siempre en trminos de tantos por ciento o porcentajes, por lo que esta medida resulta de multiplicar la frecuencia relativa por 100. La denotaremos por pi.

Frecuencia Absoluta Acumulada:

Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadstica ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el clculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el nmero de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por Ni.

Frecuencia Relativa Acumulada:

Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta acumulada dividido por el tamao de la muestra, y la denotaremos por Fi

Veamos un ejemplo:

Medimos la altura de los nios de una clase y obtenemos los siguientes resultados (cm):

AlumnoEstaturaAlumnoEstaturaAlumnoEstatura

xXxxxx

Alumno 11,25Alumno 111,23Alumno 211,21

Alumno 21,28Alumno 121,26Alumno 221,29

Alumno 31,27Alumno 131,30Alumno 231,26

Alumno 41,21Alumno 141,21Alumno 241,22

Alumno 51,22Alumno 151,28Alumno 251,28

Alumno 61,29Alumno 161,30Alumno 261,27

Alumno 71,30Alumno 171,22Alumno 271,26

Alumno 81,24Alumno 181,25Alumno 281,23

Alumno 91,27Alumno 191,20Alumno 291,22

Alumno 101,29Alumno 201,28Alumno 301,21

Si presentamos esta informacin estructurada obtendramos la siguiente tabla de frecuencia:

VariableFrecuencias absolutasFrecuencias relativas

(Valor)SimpleAcumuladaSimpleAcumulada

1,20113,3%3,3%

1,214513,3%16,6%

1,224913,3%30,0%

1,232116,6%36,6%

1,241123,3%40,0%

1,252146,6%46,6%

1,2631710,0%56,6%

1,2732010,0%66,6%

1,2842413,3%80,0%

1,2932710,0%90,0%

1,3033010,0%100,0%

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendramos una tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis.

Distribuciones de frecuencia agrupada

Supongamos que medimos la estatura de los habitantes de una vivienda y obtenemos los siguientes resultados (cm):

HabitanteEstaturaHabitanteEstaturaHabitanteEstatura

xxxxxx

Habitante 11,15Habitante 111,53Habitante 211,21

Habitante 21,48Habitante 121,16Habitante 221,59

Habitante 31,57Habitante 131,60Habitante 231,86

Habitante 41,71Habitante 141,81Habitante 241,52

Habitante 51,92Habitante 151,98Habitante 251,48

Habitante 61,39Habitante 161,20Habitante 261,37

Habitante 71,40Habitante 171,42Habitante 271,16

Habitante 81,64Habitante 181,45Habitante 281,73

Habitante 91,77Habitante 191,20Habitante 291,62

Habitante 101,49Habitante 201,98Habitante 301,01

Si presentramos esta informacin en una tabla de frecuencia obtendramos una tabla de 30 lneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportara escasa informacin

En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la informacin queda ms resumida (se pierde, por tanto, algo de informacin), pero es ms manejable e informativa:

EstaturaFrecuencias absolutasFrecuencias relativas

CmSimpleAcumuladaSimpleAcumulada

xxxxx

1,01 - 1,10113,3%3,3%

1,11 - 1,203410,0%13,3%

1,21 - 1,303710,0%23,3%

1,31 - 1,40296,6%30,0%

1,41 - 1,5061520,0%50,0%

1,51 - 1,6041913,3%63,3%

1,61 - 1,7032210,0%73,3%

1,71 - 1,8032510,0%83,3%

1,81 - 1,902276,6%90,0%

1,91 - 2,0033010,0%100,0%

El nmero de tramos en los que se agrupa la informacin es una decisin que debe tomar el analista: la regla es que mientras ms tramos se utilicen menos informacin se pierde, pero puede que menos representativa e informativa sea la tabla.

Medidas Estadsticas

Las medidas estadsticas pretenden "resumir" la informacin de la "muestra" para poder tener as un mejor conocimiento de la poblacin.En el resto del tema nos ocuparemos exclusivamente de las variables cuantitativas, puesto que con los atributos no se pueden realizar operaciones aritmticas. Como hemos estudiado, las variables estadsticas cuantitativas se dividen o clasifican en discretas o continuas, por lo que necesitaremos precisar cmo se calculan dichas medidas en cada caso.

En las variables cuantitativas continuas, dado que la tabulacin de los datos se hace mediante intervalos, necesitaremos tomar un valor del intervalo para poder operar. Este valor se denomina marca de clase y es el punto medio del intervalo.

Las medidas estadsticas se clasifican en:

1. Medidas de Centralizacin:

Que sirven para determinar los valores centrales o medios de la distribucin.

2. Medidas de Dispersin:

Nos van a dar una idea sobre la representatividad de las medidas centrales, a mayor dispersin menor representatividad.

3. Medidas de Localizacin:

tiles para encontrar determinados valores importantes, para una "clasificacin" de los elementos de la muestra o poblacin.

4. Medidas de la Simetra:

Sirven para ver si la distribucin tiene el mismo comportamiento por encima y por debajo de los valores centrales.

5. Ejemplo del clculo de los coeficientes de simetra y Curtosis

ALGUNAS CONSIDERACIONES

El estadstico Yule ha definido algunas propiedades deseables para una medida estadstica:

1. Debe definirse de manera objetiva: dos observadores distintos deben llegar al mismo resultado numrico.

2. Usar todas las observaciones y no algunas de ellas solamente, de manera que si varia alguna observacin la medida considerada debe reflejar esta variacin.

3. Tener un significado concreto: la interpretacin debe ser inmediata y sencilla.

4. Ser sencilla de calcular.

5. Prestarse fcilmente al clculo algebraico: Lo que permitir demostraciones ms elegantes.

6. Ser poco sensible a las fluctuaciones muestrales. Esta condicin es imprescindible en la Estadstica Matemtica y en la Teora de Sondeos.

Medidas de Centralizacin:

1. Media

1. Media aritmtica 2. Media geomtrica 3. Media armnica

2. Mediana

1. Variable discreta. 2. Variable contnua.

3. Moda

1. Variable discreta. 2. Variable contnua.

MEDIA:

Es el valor medio ponderado de la serie de datos. Se pueden calcular varios tipos de media siendo las ms utilizadas:

Media aritmtica:

La media aritmtica de una variable se define como la suma ponderada de los valores de la variable por sus frecuencias relativas y lo denotaremos por y se calcula mediante la expresin:

xi representa el valor de la variable o en su caso la marca de clase.

Propiedades:

1. Si multiplicamos o dividimos todas las observaciones por un mismo nmero, la media queda multiplicada o dividida por dicho nmero.

2. Si le sumamos a todas las observaciones un mismo nmero, la media aumentar en dicha cantidad.

3. Adems de la media aritmtica existen otros conceptos de media, como son la media geomtrica y la media armnica.

Media geomtrica:

La media geomtrica de N observaciones es la raz de ndice N del producto de todas las observaciones. La representaremos por G.

Solo se puede calcular si no hay observaciones negativas. Es una medida estadstica poco o nada usual.

Segn el tipo de datos que se analice ser ms apropiado utilizar la media aritmtica o la media geomtrica.

La media geomtrica se suele utilizar en series de datos como tipos de inters anuales, inflacin, etc., donde el valor de cada ao tiene un efecto multiplicativo sobre el de los aos anteriores. En todo caso, la media aritmtica es la medida de posicin central ms utilizada.

Lo ms positivo de la media es que en su clculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna informacin.

Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmtica como geomtrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo esta representatividad.

Media armnica:

La media armnica de N observaciones es la inversa de la media de las inversas de las observaciones y la denotaremos por H

Al igual que en el caso de la media geomtrica su utilizacin es bastante poco frecuente.

Mediana:

La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en orden creciente o decreciente, el valor que divide en dos partes la muestra.

No presentan el problema de estar influido por los valores extremos, pero en cambio no utiliza en su clculo toda la informacin de la serie de datos (no pondera cada valor por el nmero de veces que se ha repetido).

Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua.

Clculo de la mediana en el caso discreto:

Tendremos en cuenta el tamao de la muestra.

Si N es Impar, hay un trmino central, el trmino que ser el valor de la mediana.

Si N es Par, hay dos trminos centrales, la mediana ser la media de esos dos valores.Veamos un ejemplo.

N par

N Impar

1,4,6,7,8,9,12,16,20, 24,25,27 N=121,4,6,7,8,9,12,16,20, 24,25,27,30 N=13

Trminos Centrales el 6 y 7 9 y 12Trmino Central el 7 , 12

Me=Me=12

Clculo de la mediana en el caso contnuo:

Si la variable es continua, la tabla vendr en intervalos, por lo que se calcula de la siguiente forma:

Nos vamos a apoyar en un grfico de un histograma de frecuencias acumuladas.

De donde la mediana vale: donde ai es la amplitud del intervalo

Lo vemos por medio de un ejemplo.

Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma:

Li-1LiniNiComo el tamao de la muestra es N=50, buscamos el intervalo en el que la Frecuencia acumulada es mayor que 50/2=25, que en este caso es el 3 y aplicamos la frmula anterior. Luego la Mediana ser

Me=

455566

55651016

65751935

75851146

8595450

MODA:

La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite, es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa, pues no precisa la realizacin de ningn clculo.

Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una distribucin bimodal o polimodal segn el caso.

Por lo tanto el clculo de la moda en distribuciones discretas o cualitativas no precisa de una explicacin mayor; sin embargo, hay que detenerse un poco en el clculo de la moda para distribuciones cuantitativas continuas (no vamos a ver este ao).

MEDIDAS DE DISPERSIN

1. Breve Introduccin

2. Rango

3. Concepto de desviacin

4. Desviacin Media

5. Varianza

6. Desviacin Tpica

7. Cuasivarianza

8. Cuasi Desviacin tpica

9. Coeficiente de Variacin

10. Ejemplo

Breve Introduccin

Hasta el momento hemos estudiado los valores centrales de la distribucin, pero tambin es importante conocer si los valores en general estn cerca o alejados de estos valores centrales, es por lo que surge la necesidad de estudiar medidas de dispersin.

Rango: Se define como la diferencia existente entre el valor mayor y el menor de la distribucin. Lo notaremos como R. Realmente no es una medida muy significativa en la mayora de los casos, pero indudablemente es muy fcil de calcular.

Hemos estudiado varias medidas de centralizacin, por lo que podemos hablar de desviacin con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media.

Desviacin: Es la diferencia que se observa entre el valor de la variable y la media aritmtica. La denotaremos por di. (xi - )No es una medida, son muchas medidas, pues cada valor de la variable lleva asociada su correspondiente desviacin, por lo que precisaremos una medida que resuma dicha informacin.

La primera solucin puede ser calcular la media de todas las desviaciones, es decir, si consideramos como muestra la de todas las desviaciones y calculamos su media. Pero esta solucin es mala pues como veremos siempre va a ser 0.

Por lo tanto, esta primera idea no es vlida, pues las desviaciones positivas se contrarrestan con las negativas.

Para resolver este problema, tenemos dos caminos:

Tomar el valor absoluto de las desviaciones: Desviacin media

Elevar al cuadrado las desviaciones: Varianza.

Desviacin media:

Es la media de los valores absolutos de las desviaciones, y la denotaremos por dm.

Varianza:

Es la media de los cuadrados de las desviaciones, y la denotaremos por o tambin por . (Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el nmero de veces que se ha repetido cada valor. El resultado del sumatorio se divide por el tamao de la muestra).

Aunque tambin es posible calcularlo como:

Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm, la varianza vendr en cm2.

La varianza siempre ser mayor que cero. Mientras ms se aproxima a cero, ms concentrados estn los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, ms dispersos estn los datos.

Desviacin tpica:

Es la raz cuadrada de la varianza, se denota por Sx (x.Este estadstico se mide en la misma unidad que la variable por lo que se puede interpretar mejor.

Cuasivarianza:

Es una medida de dispersin, cuya nica diferencia con la varianza es que dividimos por N-1, la representaremos por o y la calcularemos de la siguiente forma:

Cuasidesviacin tpica:

Es la raz cuadrada de la cuasivarianza y la denotaremos por SN1 o N-1.

Todas estas medidas de dispersin vienen influidas por la unidad en la que se mide la variable. Esto implica que si cambiamos de unidad de medida, los valores de estos estadsticos se vean a su vez modificados. Adems, no permite comparar por ejemplo, en un grupo de alumnos si los pesos o las alturas presentan ms dispersin. Pues no es posible comparar unidades de distinto tipo.

Precisamos por lo tanto, una medida "escalar", es decir, que no lleve asociado ninguna unidad de medida.

Coeficiente de Variacin de Pearson:

Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitir decir entre dos muestras, cual es la que presenta mayor dispersin. La denotaremos por C.V.

Veamos por ltimo dos ejemplos de cmo se calculan todas estas medidas.

Ejemplo 1

Tenemos la serie de datos de la estatura de los 30 alumnos de una clase y vamos a calcular sus medidas de dispersin.

VariableFrecuencias absolutasFrecuencias relativas

(Valor)SimpleAcumuladaSimpleAcumulada

xXxXx

1,20113,3%3,3%

1,214513,3%16,6%

1,224913,3%30,0%

1,232116,6%36,6%

1,241123,3%40,0%

1,252146,6%46,6%

1,2631710,0%56,6%

1,2732010,0%66,6%

1,2842413,3%80,0%

1,2932710,0%90,0%

1,3033010,0%100,0%

1.- Rango: Diferencia entre el mayor valor de la muestra (1,30) y el menor valor (1,20). Luego el rango de esta muestra es 10 cm.

2.- Varianza: recordemos que la media de esta muestra es 1,253. Luego, aplicamos la frmula:

Por lo tanto, la varianza es 0,0010

3.- Desviacin tpica: es la raz cuadrada de la varianza.

Luego:

4.- Coeficiente de variacin de Pearson: se calcula como cociente entre la desviacin tpica y la media de la muestra.

Cv = 0,0320 / 1,253

Luego,

Cv = 0,0255

El inters del coeficiente de variacin es que al ser un porcentaje permite comparar el nivel de dispersin de dos muestras. Esto no ocurre con la desviacin tpica, ya que viene expresada en las mismas unidas que los datos de la serie.

Por ejemplo, para comparar el nivel de dispersin de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones tpicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variacin son ambos porcentajes, por lo que s se pueden comparar.

Ejemplo 2

45556650300-19,4116,42258,1615000

5565101660600-9,494883,636000

657519357013300,611,46,8493100

758511468088010,6116,61235,9670400

85954509036020,682,41697,4432400

N = 503470420,86082246900

=

Dm=

=

C.V.=

Medidas de Localizacin: Cuartiles, deciles y percentiles.

Las medidas de localizacin (tambin llamadas medidas de posicin no central) dividen la distribucin en partes iguales, sirven para clasificar a un individuo o elemento dentro de una determinada poblacin o muestra. As, en psicologa los resultados de los test o pruebas que realizan a un determinado individuo, sirven para clasificar a dicho sujeto en una determinada categora en funcin de la puntuacin obtenida.

1. Cuartiles.

2. Deciles.

3. Percentiles.

4. Ejemplos de clculo.

5. Algunas medidas de dispersin asociadas

Cuartiles

Medida de localizacin que divide la poblacin o muestra en cuatro partes iguales. Hay tres cuartiles Qi: Q1= Valor de la variable que deja a la izquierda el 25% de la distribucin.

Q2= Valor de la variable que deja a la izquierda el 50% de la distribucin = mediana.

Q3= Valor de la variable que deja a la izquierda el 75% de la distribucin.

Al igual que ocurre con el clculo de la mediana, el clculo de estos estadsticos, depende del tipo de variable.

Caso I: Variable cuantitativa discreta:

En este caso tendremos que observar el tamao de la muestra: N y para calcular Q1 o Q3 procederemos como si tuvisemos que calcular la mediana de la correspondiente mitad de la muestra.

Caso II: Variable cuantitativa continua:

En este caso el clculo es ms simple; sea la distribucin que sigue:

[Li-2 -- Li-1)ni-1Ni-1

[Li-1 -- Li)niNi

siendo el intervalo coloreado donde se encuentra el Cuartil correspondiente:

y

Deciles

Medida de localizacin que divide la poblacin o muestra en 10 partes iguales. Hay 9 deciles.No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables continuas.

dk = decil k-simo, es aquel valor de la variable que deja a su izquierda el k10 % de la distribucin.

[Li-2 -- Li-1)ni-1Ni-1

[Li-1 -- Li)niNi

Intervalo donde se encuentra el decil correspondiente:

k = 1,, 9

Percentiles:

Medida de localizacin que divide la poblacin o muestra en 100 partes iguales. Son 99 valores.No tiene mucho sentido calcularlas para variables cualitativas discretas. Por lo que lo vamos a ver slo para las variables continuas.

pk = Percentil k-simo es aquel valor de la variable que deja a su izquierda el k % de la distribucin.

[Li-2 -- Li-1)ni-1Ni-1

[Li-1 -- Li)niNi

Intervalo donde se encuentra el percentil correspondiente:

k=1 .. 99

A continuacin vemos dos ejemplos.Ejemplo 1Como se puede observar la forma de calcular estas medidas es muy similar a la del clculo de la mediana.

Vamos a calcular Q1, Q3, d3, y p45

Li-1LiniNi

455566

55651016

65751935

75851146

8595450

Clculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde al 2 intervalo.(50/4=12.5)

Anlogamente calculemos Q3, Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este caso es el 4 intervalo (3.50/4=37.5)

Veamos ahora el decil 3 (corresponde al 30 % 3 50 / 10 = 15) sera el 2 intervalo.

Por ltimo veamos el percentil 45 (4550/100 = 22.5) Corresponde al intervalo 3.

Ejemplo 2Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de 30 alumnos. Los deciles y centiles se calculan de igual manera, aunque haran falta distribuciones con mayor nmero de datos.

VariableFrecuencias absolutasFrecuencias relativas

(Valor)SimpleAcumuladaSimpleAcumulada

XXxxX

1,20113,3%3,3%

1,214513,3%16,6%

1,224913,3%30,0%

1,232116,6%36,6%

1,241123,3%40,0%

1,252146,6%46,6%

1,2631710,0%56,6%

1,2732010,0%66,6%

1,2842413,3%80,0%

1,2932710,0%90,0%

1,3033010,0%100,0%

1 cuartil: es el valor 1,22 cm, ya que por debajo suya se sita el 25% de la frecuencia (tal como se puede ver en la columna de la frecuencia relativa acumulada).

2 cuartil: es el valor 1,26 cm, ya que entre este valor y el 1 cuartil se sita otro 25% de la frecuencia.

3 cuartil: es el valor 1,28 cm, ya que entre este valor y el 2 cuartil se sita otro 25% de la frecuencia. Adems, por encima suya queda el restante 25% de la frecuencia.

Atencin: cuando un cuartil recae en un valor que se ha repetido ms de una vez (como ocurre en el ejemplo en los tres cuartiles) la medida de posicin no central sera realmente una de las repeticiones.

Algunas medidas de Dispersin asociadas

Una vez estudiadas las medidas de localizacin surgen nuevas medidas de dispersin, destacamos:

Recorrido intercuartlico: Medidas de forma: AsimetraEl concepto de asimetra se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmtica).

Las medidas de la asimetra, al igual que la curtosis, van a ser medidas de la forma de la distribucin. Es frecuente que los valores de una distribucin tiendan a ser similares a ambos lados de las medidas de centralizacin. La simetra es importante para saber si los valores de la variable se concentran en una determinada zona del recorrido de la variable.

As0

Asimetra Negativa a la Izquierda

Simtrica

Asimetra Positiva a la Derecha.

Para medir la asimetra se puede realizar atendiendo bsicamente a dos criterios:

Comparando la Media y la Moda.

Comparando los valores de la variable con la media.

Comparando la Media y la Moda:

Si la diferencia es positiva, diremos que hay asimetra positiva o a la derecha, en el caso de que sea negativa diremos que hay asimetra negativa o a la izquierda. No obstante, esta medida es poco operativa al no ser una medida relativa, ya que esta influida por la unidad en que se mida la variable, por lo que se define el coeficiente de Asimetra como:

Esta medida es muy fcil de calcular, pero menos precisa que el coeficiente de asimetra de Pearson.

El coeficiente de asimetra de Pearson, se basa en la comparacin con la media de todos los valores de la variable, as que es una medida que se basar en las diferencias , como vimos en el caso de la dispersin si medimos la media de esas desviaciones sera nulas, si las elevamos al cuadrado, seran siempre positivas por lo que tampoco serviran, por lo tanto precisamos elevar esas diferencias al cubo.

Para evitar el problema de la unidad, y hacer que sea una medida escalar y por lo tanto relativa, dividimos por el cubo de su desviacin tpica. Con lo que resulta la siguiente expresin conocida como Coeficiente de Asimetra de Fisher:

o de forma equivalente

Los resultados pueden ser los siguientes:

g1 = 0 (distribucin simtrica; existe la misma concentracin de valores a la derecha y a la izquierda de la media)

g1 > 0 (distribucin asimtrica positiva; existe mayor concentracin de valores a la derecha de la media que a su izquierda)

g1 < 0 (distribucin asimtrica negativa; existe mayor concentracin de valores a la izquierda de la media que a su derecha)Ejemplo: Vamos a calcular el Coeficiente de Asimetra de Fisher de la serie de datos referidos a la estatura de un grupo de 30 alumnos:

VariableFrecuencias absolutasFrecuencias relativas

(Valor)SimpleAcumuladaSimpleAcumulada

xXxxx

1,20113,3%3,3%

1,214513,3%16,6%

1,224913,3%30,0%

1,232116,6%36,6%

1,241123,3%40,0%

1,252146,6%46,6%

1,2631710,0%56,6%

1,2732010,0%66,6%

1,2842413,3%80,0%

1,2932710,0%90,0%

1,3033010,0%100,0%

Recordemos que la media de esta muestra es 1,253

((xi - x)^3)*ni((xi - x)^2)*ni

Xx

0,0001100,030467

Luego:

(1/30) * 0,000110

g1 =-------------------------------------------------= -0,1586

(1/30) * (0,030467)^(3/2)

Por lo tanto el Coeficiente de Fisher de Simetra de esta muestra es -0,1586, lo que quiere decir que presenta una distribucin asimtrica negativa (se concentran ms valores a la izquierda de la media que a su derecha).

Medidas de forma: Coeficiente de CurtosisEl Coeficiente de Curtosis analiza el grado de concentracin que presentan los valores alrededor de la zona central de la distribucin.

Se definen 3 tipos de distribuciones segn su grado de curtosis:

Distribucin mesocrtica: presenta un grado de concentracin medio alrededor de los valores centrales de la variable (el mismo que presenta una distribucin normal).

Distribucin leptocrtica: presenta un elevado grado de concentracin alrededor de los valores centrales de la variable.

Distribucin platicrtica: presenta un reducido grado de concentracin alrededor de los valores centrales de la variable.

INCLUDEPICTURE "http://www.aulafacil.com/CursoEstadistica/Nueva%20carpeta/Lecc-9-2.gif" \* MERGEFORMATINET

INCLUDEPICTURE "http://www.aulafacil.com/CursoEstadistica/Nueva%20carpeta/Lecc-9-3.gif" \* MERGEFORMATINET El Coeficiente de Curtosis viene definido por la siguiente frmula:

o Los resultados pueden ser los siguientes:

g2 = 0 (distribucin mesocrtica).

g2 > 0 (distribucin leptocrtica).

g2 < 0 (distribucin platicrtica).

Curtosis Negativa: Platicrtica

Curtosis Nula: Mesocrtica

Ejemplo 1:

Vamos a calcular el Coefiente de Curtosis de la serie de datos referidos a la estatura de un grupo de 30 alumnos:VariableFrecuencias absolutasFrecuencias relativas

(Valor)SimpleAcumuladaSimpleAcumulada

XXxxx

1,20113,3%3,3%

1,214513,3%16,6%

1,224913,3%30,0%

1,232116,6%36,6%

1,241123,3%40,0%

1,252146,6%46,6%

1,2631710,0%56,6%

1,2732010,0%66,6%

1,2842413,3%80,0%

1,2932710,0%90,0%

1,3033010,0%100,0%

Recordemos que la media de esta muestra es 1,253

((xi - xm)^4)*ni((xi - xm)^2)*ni

Xx

0,000049670,03046667

Luego:(1/30) * 0,00004967

g2 =-------------------------------------------------- 3= -1,39

((1/30) * (0,03046667))^2

Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una distribucin platicrtica, es decir, con una reducida concentracin alrededor de los valores centrales de la distribucin.

Ejemplo 2Veamos por ltimo el clculo de estos dos ltimos coeficientes en el ejemplo que estamos estudiando.

45556650300-19,4-43808,304849881,098

5565101660600-9,4-8305,8478074,896

657519357013300,64,1042,4624

758511468088010,613101,176138872,466

85954509036020,634967,264720325,638

N=503470-4041,61787156,56

=

Mo=70.24

As=

INCLUDEPICTURE "http://thales.cica.es/rd/Recursos/rd97/UnidadesDidacticas/53-1-u-145.gif" \* MERGEFORMATINET

Coeficiente de Asimetra de Fisher As=

K=

Luego es una distribucin asimtrica negativa o a la izquierda y Platicrtica.Medidas de forma: Grado de concentracin

Mide si los valores de la variable estn ms o menos uniformemente repartidos a lo largo de la muestra.

Para medir el nivel de concentracin de una distribucin de frecuencia se pueden utilizar distintos indicadores, entre ellos el Indice de Gini.

Este ndice se calcula aplicando la siguiente frmula:

IG = (pi - qi)

----------------------------

pi

(i toma valores entre 1 y n-1)

En donde pi mide el porcentaje de individuos de la muestra que presentan un valor igual o inferior al de xi.

pi =n1 + n2 + n3 + ... + ni

----------------------------x 100

N

Mientras que qi se calcula aplicando la siguiente frmula:

qi =(X1*n1) + (X2*n2) + ... + (Xi*ni)

-----------------------------------------------------x 100

(X1*n1) + (X2*n2) + ... + (Xn*nn)

El Indice Gini (IG) puede tomar valores entre 0 y 1:

IG = 0 : concentracin mnima. La muestra est uniformemente repartida a lo largo de todo su rango.

IG = 1 : concentracin mxima. Un slo valor de la muestra acumula el 100% de los resultados.

Ejemplo 1

Vamos a calcular el Indice Gini de una serie de datos con los sueldos de los empleados de una empresa (millones pesetas).

SueldosEmpleados (Frecuencias absolutas)Frecuencias relativas

(Millones)SimpleAcumuladaSimpleAcumulada

XXXxx

3,5101025,0%25,0%

4,5122230,0%55,0%

6,083020,0%75,0%

8,053512,5%87,5%

10,03387,5%95,0%

15,01392,5%97,5%

20,01402,5%100,0%

Calculamos los valores que necesitamos para aplicar la frmula del Indice de Gini:

Xini nipiXi * ni Xi * niqipi - qi

xXXxxxxx

3,5101025,035,035,013,610,83

4,5122255,054,089,034,618,97

6,083075,048,0147,057,219,53

8,053587,540,0187,072,815,84

10,033895,030,0217,084,411,19

15,013997,515,0232,090,37,62

25,0140100,025,0257,0100,00

xXxxxxxx

pi (entre 1 y n-1) = 435,0x (pi - qi) (entre 1 y n-1 ) = 83,99

Por lo tanto:

IG = 83,99 / 435,0 = 0,19

Un Indice Gini de 0,19 indica que la muestra est bastante uniformemente repartida, es decir, su nivel de concentracin no es excesivamente alto.

Ejemplo 2:Ahora vamos a analizar nuevamente la muestra anterior, pero considerando que hay ms personal de la empresa que cobra el sueldo mximo, lo que conlleva mayor concentracin de renta en unas pocas personas.

SueldosEmpleados (Frecuencias absolutas)Frecuencias relativas

(Millones)SimpleAcumuladaSimpleAcumulada

XxxXx

3,5101025,0%25,0%

4,5102025,0%50,0%

6,082820,0%70,0%

8,053312,5%82,5%

10,03367,5%90,0%

15,00360,0%90,0%

20,044010,0%100,0%

En este caso obtendramos los siguientes datos:

Xini nipiXi * ni Xi * niqipi - qi

xxxxxxxx

3,5101025,0353511,713,26

4,5102050,0458026,823,15

6,082870,04812843,027,05

8,053382,54016856,426,12

10,033690,03019866,423,56

15,003690,0019866,423,56

25,0440100,0100298100,00,00

xxxxxxxx

pi (entre 1 y n-1) = 407,5x (pi - qi) (entre 1 y n-1 ) = 136,69

El Indice Gini sera:

IG = 136,69 / 407,5 = 0,34

El Indice Gini se ha elevado considerablemente, reflejando la mayor concentracin de rentas que hemos comentado.

PAGE 6

_1095006796.unknown