estadistica desciptiva 1
Post on 30-Jun-2015
3.357 Views
Preview:
DESCRIPTION
TRANSCRIPT
Roberto Castro Z
1
Introducción
-Definición de Estadística- Estadística Descriptiva- Estadística Inferencial- Conceptos básicos:
• Unidad estadística• Variable• Población• Muestra • Tipos de Variables
Roberto Castro Z
2
Definición
Estadística: es todo lo que se relacione con la recolección, procesamiento, análisis e interpretación de datos numéricos.La estadística se clasifica en dos categorías: descriptiva y inferencial
Estadística Descriptiva: es la presentación de datos en cuadros y gráficas, incluye también la síntesis de ellos mediante descripciones numéricas
Estadística Inferencial: son las técnicas que tratan de generalizaciones de una población de datos basadas en muestras de datos de ésta
Roberto Castro Z
3
1986 1987 1988 1989
Guatemala 6,335.2 7,084.4 7,609.2 8,458.8El Salvador 3,952.9 4,628.1 5,473.2 5,755.4Honduras 3,798.0 4,064.0 4,625.5 3,744.2Nicaragua 323.6 409.4 468.4Costa Rica 4,400.8 4,510.7 4,604.5 5,226.0Panamá 5,145.1 5,309.7 4,551.4 4,639.3
FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994.
CUADRO 1
AÑOPAIS
CENTROAMERICA: PRODUCTO INTERNO BRUTO POR AÑO SEGÚN PAIS
(En millones de US dólares)
Gráfico 1 Centroamérica: Producto Interno Bruto por Año
0 2000 4000 6000 8000 10000 12000
Guatemala
El Salvador
Honduras
Nicaragua
Costa Rica
Panamá
Pa
ís
Millones de Dólares
1993
1992
Estadística Descriptiva
Promedio: 2.54
Moda: 3.45
Mediana: 3.05
Desviación Estándar: 1.2
Cuadros, gráficos, descripciones numéricas
Roberto Castro Z
4
Población
Muestra
Generalización: con los datos de la muestra se
hacen conclusiones sobre toda la población
Cálculos y descripciones sobre la muestra
¿Por qué es necesaria la Inferencia?
Problema: en la población existe algún valor que NO podemos calcular (desconocido) que nos interesa, por ejemplo: el peso promedio de los peces de un lago.
Técnicas probabilísticas
Estadística Inferencial
Valor desconocido en la población
Roberto Castro Z
5
Unidad Estadística : es el objeto o entidad sobre el cual se desea medir alguna característica o atributo. Debe definirse claramente en tiempo y en espacio
Variable: es el atributo o característica a medir sobre la unidad estadística de interés. Se llama variable porque para cada unidad estadística el valor de la medición puede variar
Conceptos Básicos
Población: es el conjunto de todas las mediciones del atributo de interés de la unidad estadística en estudio. A un valor que se calcula con todos los datos de la población se le llama Parámetro.
Muestra: es un subconjunto de la población, a estas mediciones se les llama observaciones. A un valor que se calcula con datos de la muestra se le llama Estimador.
Roberto Castro Z
6
Introducción
Lecturas:
Mason & Lind: pág 1 a 11
Roberto Castro Z
7
Variables
Variable Cualitativa: solamente se le asignan valores de atributos. Si-No, Bueno-Malo-Regular, Correcto-Incorrecto, Hombre-Mujer, etc.
Variable Cuantitativa: se le pueden asignar valores numéricos. Tamaño, contenido, resultado de un test, etc.
Variable : es una característica (magnitud, vector o número) que puede ser medida (u observada), adoptando diferentes valores en cada uno de los casos de un estudio (para cada unidad estadística)
Tipos de Variables
Roberto Castro Z
8
Variable Ordinal: aquella variable que mide categorías o modalidades ordenadas. Nivel de estudios, grado de aceptación, etc.
Variable Nominal: aquella variable que mide categorías o modalidades no ordenadas. Sexo, Provincia de residencia, etc.
Variable Binaria: aquella variable que solamente puede asumir dos categorías. Conoce un producto , Presencia de un enfermedad, etc.
Variables Cualitativas
Roberto Castro Z
9
Variable Discreta: aquella variable que puede asumir solamente un número finito de valores o un número infinito contable de valores. Número de hijos, edad en años cumplidos, etc.
Variable Continua: aquella variable que puede asumir solamente un número infinito no contable de valores. Temperatura, Edad real, Contenido de un recipiente, etc.
Variables Cuantitativas
Entre dos números enteros no existe ningún otro número entero. Entre dos números reales existen infinitos números reales
Roberto Castro Z
10
Estadística Descriptiva
Componentes de un Cuadro
1986 1987 1988 1989
Guatemala 6,335.2 7,084.4 7,609.2 8,458.8El Salvador 3,952.9 4,628.1 5,473.2 5,755.4Honduras 3,798.0 4,064.0 4,625.5 3,744.2Nicaragua 323.6 409.4 468.4Costa Rica 4,400.8 4,510.7 4,604.5 5,226.0Panamá 5,145.1 5,309.7 4,551.4 4,639.3
FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994.
CUADRO 1
AÑOPAIS
CENTROAMERICA: PRODUCTO INTERNO BRUTO POR AÑO SEGÚN PAIS
(En millones de US dólares)
Absoluto Relativo Absoluto Relativo
Total de Hogares 627,866 100.0 656,445 100.0Pobreza Extrema 39,095 6.2 45,146 6.9No Satisf. las Neces. Bás. 88,831 14.1 96,331 14.7No Pobres 499,940 79.6 514,968 78.4
FUENTE: Encuesta de Hogares de Propósitos Múltiples 1995 y 1996. Dirección General de Estadística y Censos
TOTAL DE HOGARES COSTARRICENSES POR AÑO SEGÚN CATEGORIA DE POBREZA
CUADRO 3
1995-1996(Valores absolutos y relativos)
1995 1996AÑO
CATEGORIA DE POBREZA
Roberto Castro Z
11
Número del Cuadro: Se usa cuando dentro del documento cuando existen dos o más cuadros
Título: Es una descripción de la naturaleza, clasificación y referencia en tiempo de los datos presentados. Debe responder a las preguntas: qué son los datos, cuándo y dónde se recolectaron, cómo y bajo qué criterios se clasificaron
Nota Introductoria: Es una frase (entre paréntesis o guiones) se utiliza para brindar información sobre el cuadro: Indicar unidades con que se trabaja; darle más claridad al cuadro; prevenir al usuario de las limitaciones de la información; establecer la base sobre la que se realizan las comparaciones
Encabezados: Son los títulos del resto de las columnas. Describen en forma general las clasificaciones de cada columna
Cuerpo: Son las cifras o datos que se quieren presentar
Columna Matriz: Contiene la clasificación principal que se hizo de la información
Componentes de un Cuadro
Roberto Castro Z
12
Convenciones para el título de un Cuadro
•Centrado
• Se usa la palabra SEGÚN para la clasificación primaria (la de la columna matriz)
• Se usa la palabra POR para la clasificación secundaria (la de los encabezados)
Nota al Pie: Una frase que aclara alguna cifra o clasificación, su función es más específica que la nota introductoria. Por lo general se llama la atención sobre esta nota con números o símbolos: (*) (1) (a)
Fuente: Es una cita bibliográfica exacta del origen de los datos. Esta no se incluye si los datos fueron obtenidos por la persona u organización que los publica
Componentes de un Cuadro
Roberto Castro Z
13
Componentes de un Gráfico
FUENTE: SIECA, Series Estadísticas Seleccionadas, 1994
GRAFICO 10 EVOLUCION DEL PRODUCTO INTERNO BRUTO EN COSTA RICA Y
GUATEMALA, 1986-1993
0
2000
4000
6000
8000
10000
12000
1986 1987 1988 1989 1990 1991 1992 1993
AÑO
Mill
on
es
de
Dó
lare
s
Guatemala
Costa Rica
Estadística Descriptiva
Roberto Castro Z
14
Gráficos de barras
Son gráficos con barras rectangulares de igual ancho y de longitud determinada por la cantidad que representa El espacio de separación entre las barras debe ser constante. Pueden ser horizontales o verticales y se pueden utilizar valores absolutos o relativos (%). Los ejes deben iniciar en cero y la escala deber ser continua (sin interrupciones). Existen tres tipos: Barras simples, Barras compuestas, Barras comparativas
FUENTE: Costo de la Canasta Básica de Alimentos. Año 3, No. 4. Dirección General de Estadística y Censos
GRAFICO 1 ESTRUCTURA DE COSTOS DE LOS GRUPOS DE ALIMENTOS DE LA CANASTA BASICA DE ALIMENTOS.
ABRIL 1997
0 5 10 15 20 25
VARIOS
HUEVOS
RAICES
FRIJOLES
AZUCAR
GRASAS
VERDURAS
LACTEOS
CEREALES
CARNES
GR
UP
O
PORCENTAJE
FUENTE: USS Corporation. Annual Report. 1974
USS Corporation: Dividendos y ganancias retenidas. 1967-1974
0
100
200
300
400
500
600
700
1969 1970 1971 1972 1973 1974
Año
Mill
ones
de
Dól
ares
Ganancias Retenidas
Dividendos
FUENTE: USS Corporation. Annual Report. 1974
USS Corporation: Dividendos y ganancias retenidas. 1967-1974
0%10%20%30%40%50%60%70%80%90%
100%
1969 1970 1971 1972 1973 1974
Año
Mill
ones
de
Dól
ares
Dividendos Ganancias Retenidas
FUENTE: Gerencia de Mercadeo, Universidad Latina de Costa Rica
Grafico 6 Universidad Latina de Costa Rica: Estudiantes matriculados por
sexo, según provincia de procedencia. 1995
0 500 1000 1500 2000 2500 3000
Guanacaste
Limón
Puntarenas
Heredia
Cartago
Alajuela
San José
Pro
vin
cia
Estudiantes
Hombres
Mujeres
Barras Simples
Barras Comparativas
Barras Compuestas
Roberto Castro Z
15
Gráficos de barras
Un gráfico debe ser lo suficientemente claro de forma que se explique por el mismo. Se compone de:
Número: para identificar el gráfico se utiliza siempre que haya más de uno.
Título: debe indicar el qué, dónde, cómo, y cuándo de la información (se siguen las mismas reglas de los títulos de los cuadros)
Fuente: indica el origen de la información utilizada, puede servir para informar al usuario el lugar donde puede obtener mayor información al respecto.
Leyenda: cuando en un gráfico se incluyen varias series de datos, es necesario identificar cada una de ellas mediante símbolos o leyendas.
Escala: Identifica la unidad de medida correspondiente a los valores en ambos ejes.
Nota introductoria y nota al pie: se utilizan si son necesarias y en tal caso, se sigue las mismas reglas que en los cuadros.
Título de los ejes: se utiliza para identificar cada uno de los ejes.
Roberto Castro Z
16
Barras Compuestas: Es un gráfico con varias barras divididas para mostrar sus componentes. Se pueden usar cifras absolutas o relativas. Es útil para comparar los totales de las magnitudes de las categorías y además para comparar los totales de subcategorías ( o componentes dentro de cada categoría), pero no permite la comparación de las magnitudes de las subcategorías.
Barras Simples: Es útil para comparar las magnitudes de las categorías. Si la variable es cualitativa o geográfica las barras se colocan horizontalmente. Las barras se colocan según su longitud de mayor a menor (excepto cuando hay una categoría especial de “otros” o “varios”, que se incluye al final).
Barras Comparativas: Es un grafico con una serie de barras superpuestas que representan los componentes de un fenómeno con el fin de comparar sus magnitudes simultáneamente. Es útil para apreciar las magnitudes de las subcategorías dentro de un mismo atributo, además permite comparar las magnitudes de las subcategorías de las distintas categorías. Tiene la desventaja de que no permite resaltar las comparaciones entre los totales de las categorías.
Gráficos de barras
Roberto Castro Z
17
Gráfico circular: Es un gráfico en que cada componente esta representado por una parte de un círculo. Se utiliza para destacar la importancia relativa de las categorías dentro de un total
Gráfico lineal: Es una representación sobre un plano cartesiano, de los valores de dos variables por medio de puntos unidos con líneas. Se utiliza principalmente para representar series cronológicas. Permite representar varias series de datos en un mismo gráfico.
Gráfico Circular y Gráfico Lineal Aritmético
Roberto Castro Z
18
Gráficos: Ejemplos
Roberto Castro Z
19
Gráficos: Ejemplos
Roberto Castro Z
20
Distribución de Frecuencias
• Definición
• Variable Cualitativa Nominal
• Variable Cualitativa Ordinal
• Variable Cuantitativa Discreta
• Variable Cuantitativa Continua
• Histograma
• Medidas de sesgo y curtósis
• Diagrama de tallo y hojas
Roberto Castro Z
21
Distribución de Frecuencias
La distribución de frecuencias es el primer paso para analizar un conjunto numeroso de datos. Permite, de una forma conveniente y simple, resumirlos, ordenarlos y clasificarlos. Junto a la distribución de frecuencias están los histogramas, polígonos de frecuencias y diagramas de tallo y hojas que permiten visualizar las características básicas de un conjunto de datos.
La distribución de frecuencias es un conteo de la cantidad de veces que se repite un valor o la cantidad de veces que se repiten algunos valores en una serie de categorías. Por ejemplo al preguntarle a un grupo de mujeres sobre el número de hijos vivos, podemos contar cuántas mujeres dijeron tener 1; cuántas 2, etc. También podríamos entrevistar a un grupo de personas sobre sus ingresos y podríamos contar cuántos tienen ingresos entre 0 y 25 mil por semana; cuántos tienen ingresos de más de 25 mil y hasta 50 mil; y cuántos tienen ingresos de más de 50 mil por semana.
Las distribuciones de frecuencias varían en su forma y en la técnica para elaborarlas dependiendo del tipo de variable que se analice.
Distribución de Frecuencias
Roberto Castro Z
22
Distribución de Frecuencias
Variable cualitativa nominal
Intención de voto de un grupo de 32 delegados para la convención del PDN de octubre de 1997:
Categoría Conteo Frecuencia
Mora ///// ///// /// 13Vargas ///// 4Rojas ///// // 7González ///// /// 8
Total 32
Absoluta Relativa
fi fr %
Mora 13 40.6González 8 25.0Rojas 7 21.9Vargas 4 12.5
Total 32 100.0
Frecuencia
Candidato
Tabla de FrecuenciasDISTRIBUCIO DE FRECUENCIAS DE LOS VOTOS
PARA LOS PRECANDIDATOS DEL PDN(Octubre 1997)
0
2
4
68
10
12
14
Mora González Rojas Vargas
Candidato
Nú
me
ro d
e v
oto
s
Mora Mora Rojas Mora Mora González González MoraVargas Rojas Mora González González Mora Mora GonzálezRojas Vargas Mora Vargas Rojas Mora Mora MoraMora González Vargas Rojas Rojas Rojas González González
Roberto Castro Z
23
Distribución de Frecuencias
fi F F fi F F
Primaria 23 23 56 41.1 41.1 100.0Secundaria 9 32 33 16.1 57.1 58.9Técnico 12 44 24 21.4 78.6 42.9Universitaria 12 56 12 21.4 100.0 21.4
CategoríaFrecuencias
Absolutas Relativas
Variable cualitativa ordinal
F1= f1
F2 = F1 + f2 ...
Fk = Fk-1 + fk
“Menos de” F
Fk= fk
Fk-1 = Fk + fk-
1 ...
F1 = F2 + f1
“Más de” F
Algunas Interpretaciones: 9 personas tienen educación secundaria, 44 personas tienen educación técnica o inferior, el 42.9% de las personas tienen educación técnica o superior
DISTRIBUCION DE FRECUENCIAS DE LOS EMPLEADOS DE LA EMPRESA XYZ SEGUN NIVEL DE INSTRUCCION
(Octubre 1997)
0
5
10
15
20
25
Primaria Secundaria Técnico Universitario
Nivel de Insrtucción
Nú
me
ro d
e E
mp
lea
do
s
Tabla de Frecuencias
Nivel de Instrucción de los Empleados de la Empresa XYZ (Octubre 1997)
Roberto Castro Z
24
Distribución de Frecuencias
Variable cuantitativa discreta
13 13 10 2 68 12 7 9 493 19 15 14 7
11 6 4 32 1229 9 8 15 17
5 37 16 11 1221 11 7 16 1811 6 10 10 243 10 6 9 7
12 19 20 5 71
TRABAJADORES QUE FALTAN A UNA FABRICA EN 50 DIAS DE TRABAJO
Días
Categorías Frecuencia
0 - 4 45 - 9 15
10 - 14 1615 - 19 820 - 24 3
25 o más 4
Total 50
Trabajadores
Roberto Castro Z
25
Distribución de Frecuencias
Variable cuantitativa discreta
fi F F fi F F
0-4 4 4 50 8.0 8.0 100.0 5-9 15 19 35 30.0 38.0 70.0 10-14 16 35 19 32.0 70.0 38.0 15-19 8 43 11 16.0 86.0 22.0 20-24 3 46 8 6.0 92.0 16.0 25 o más 4 50 4 8.0 100.0 8.0
CategoríaFrecuencias
Absolutas Relativas
Algunas Interpretaciones: en 8 días (de los 50) faltaron a la fábrica entre 15 y 19 trabajadores, en 19 días faltaron a la fábrica 9 o menos trabajadores, el 22% de los días faltaron a la fábrica 15 o más trabajadores
Tabla de Frecuencias
Trabajadores que faltan a una fábrica en 50 días de trabajo
DíasTrabajadores
Roberto Castro Z
26
Distribución de Frecuencias
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.222.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.726.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.719.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.018.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.514.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.18.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5
EMISION DIARIA (EN TONELADAS) DE OXIDO DE AZUFRE DE UN PLANTA INDUSTRIAL
Variable cuantitativa continua
Inferior Superior Inferior Superior fi F F fi F F
6.2 - 9.8 6.15 - 9.85 8.00 6 6 80 7.5 7.5 100.09.9 - 13.5 9.85 - 13.55 11.70 10 16 74 12.5 20.0 92.5
13.6 - 17.2 13.55 - 17.25 15.40 12 28 64 15.0 35.0 80.017.3 - 20.9 17.25 - 20.95 19.10 24 52 52 30.0 65.0 65.021.0 - 24.6 20.95 - 24.65 22.80 16 68 28 20.0 85.0 35.024.7 - 28.3 24.65 - 28.35 26.50 8 76 12 10.0 95.0 15.028.4 - 32.0 28.35 - 32.05 30.20 4 80 4 5.0 100.0 5.0
RelativasFrecuencias
Límites dados Límites realesPunto
Mediosxi
Absolutas
Distribución de frecuencias de las emisiones diarias de óxido de azufre en una planta industrial
(Toneladas)
80 días
Toneladas de Oxido de Azufre Días
Roberto Castro Z
27
Distribución de Frecuencias
Inferior Superior Inferior Superior fi F F fi F F
6.2 - 9.8 6.15 - 9.85 8.00 6 6 80 7.5 7.5 100.09.9 - 13.5 9.85 - 13.55 11.70 10 16 74 12.5 20.0 92.5
13.6 - 17.2 13.55 - 17.25 15.40 12 28 64 15.0 35.0 80.017.3 - 20.9 17.25 - 20.95 19.10 24 52 52 30.0 65.0 65.021.0 - 24.6 20.95 - 24.65 22.80 16 68 28 20.0 85.0 35.024.7 - 28.3 24.65 - 28.35 26.50 8 76 12 10.0 95.0 15.028.4 - 32.0 28.35 - 32.05 30.20 4 80 4 5.0 100.0 5.0
RelativasFrecuencias
Límites dados Límites realesPunto
Mediosxi
Absolutas
Distribución de frecuencias de las emisiones diarias de óxido de azufre en una planta industrial
(Toneladas)
Toneladas de Oxido de Azufre Días
Algunas Interpretaciones: en 24 días se presentaron emisiones de óxido de azufre entre 1.3 y 20.9 tóneladas, el 95% de los días se presentaron emision de óxido de azufre inferiores o iguales a 28.3 tóneladas, el 80% de los días se presentaron emisiones de +oxido de azufre superiores o iguales a 13.6 tóneladas
Variable cuantitativa continua
Roberto Castro Z
28
Distribución de Frecuencias
Histograma
Es un gráfico compuesto por una serie de rectángulos, de ancho proporcional al ancho de la clase y de altura proporcional al total de elementos de cada clase. En consecuencia el área contenida dentro del rectángulo (con respecto al área total) corresponde al porcentaje de la frecuencia relativa de la clase.
Roberto Castro Z
29
Distribución de Frecuencias: Sesgo
La distribución de una variable (y su representación mediante histogramas o curvas) puede ser simétrica o asimétrica (sesgada)
Es sesgo mide el grado de asimetría de una distribución con respecto a su media. La asimetría positiva indica una distribución que se extiende hacia valores más positivos. La asimetría negativa indica una distribución que se extiende hacia valores más negativos.
3
)2)(1( s
xx
nn
n iCoeficiente de Asimetría (Sesgo) =
Roberto Castro Z
30
Distribución de Frecuencias: Curtosis
La distribución de una variable ( y su representación mediante histogramas o curvas ) puede clasificarse de acuerdo con su altura y forma como mesocúrtica, leptocúrtica y platicúrtica. La curtosis caracteriza la elevación o el achatamiento relativos de una distribución, comparada con la distribución normal. Una curtosis positiva indica una distribución relativamente elevada, mientras que una curtosis negativa indica una distribución relativamente plana.
)3)(2(
)1(3
)3)(2)(1(
)1( 24
nn
n
s
xx
nnn
nn iCurtosis =
Roberto Castro Z
31
Distribución de Frecuencias: Sesgo y Curtosis
=COEFICIENTE.ASIMETRIA(B2:B81)
Cálculo en Excel
Curtosis = -0,4983
=CURTOSIS(B2:B81)
Rango de datos
Rango de datos
Roberto Castro Z
32
Distribución de Frecuencias: Sesgo y Curtosis
Cálculo en Minitab
Roberto Castro Z
33
Distribución de Frecuencias: Sesgo
Ejemplos
Roberto Castro Z
34
Distribución de Frecuencias
Diagrama de tallos y hojas
El diagrama consta de dos secciones:
• El tallo aparece en la parte izquierda quitando el último dígito. Si los datos van de 1500 a 2500, entonces los tallos serán 150*, 151*, 152*, etc.
• Al lado derecho de cada uno, se colocan las hojas que serán el último dígito para los datos que comienzan con el tallo correspondiente. Por ejemplo, a la derecha del tallo 23 se colocan las hojas 011235 que corresponden a los valores 230, 231, 231, 232, 233, 235
Ejemplo:
15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80, 81, 85, 85, 85, 90, 92
Tallos: 1, 2, 3, 4, 5, 6, 7, 8, 9
1* 52*3*4* 575* 3886* 277* 4588* 15559* 2
Roberto Castro Z
35
Distribución de Frecuencias
Diagrama de tallos y hojas. Elaborado por MInitab
92,6 142,7 164,5 199,9103,6 142,9 165,9 200,6109,2 144,0 166,5 201,3114,3 146,9 169,2 202,4123,1 147,3 172,0 208,4123,3 148,0 172,6 214,7127,1 151,9 173,3 216,6127,7 152,6 175,1 217,8127,9 153,4 179,3 218,0128,2 153,7 181,8 228,0130,1 153,7 182,2 231,2130,4 154,8 182,3 231,2130,6 155,0 183,5 241,7131,2 155,0 186,2 242,4133,6 155,3 186,9 255,8135,1 155,3 188,4135,3 158,2 190,5138,5 160,0 194,9140,3 160,6 197,5141,4 163,8 199,4
Roberto Castro Z
36
Diagrama de tallos y hojas: Ejemplos
Roberto Castro Z
37
Medidas de Posición y Variabilidad
Medidas de Posición
•Media Aritmética
• Mediana
• Moda
Medidas de Variabilidad
• Uso de las medidas de variabilidad
• Intervalo (Rango)
• Desviación absoluta promedio
• Desviación Estándar y Variancia
• Coeficiente de variación
• Cuartiles y percentiles
Roberto Castro Z
38
Medidas de Posición
Para una Población
Para una Muestra
N
xN
ii
1n
xx
n
ii
1_
En donde:N: el tamaño de la población n: el tamaño de la muestrax: variable
Ventajas: Su concepto es conocido y es intuitivamente claro, es una medida calculable, todo conjunto de datos posee una y sólo una media, es muy útil para realizar procedimientos estadísticos
Desventajas: Está afectada por los valores extremos que no sean representativos de ellos Su cálculo puede ser tedioso cuando hay muchos datos
Media Artimética (Media o Promedio)
Roberto Castro Z
39
Medidas de Posición
Media Artimética (Media o Promedio)
=CONTAR(B2:B9)=SUMA(B2:B9)
=PROMEDIO(B2:B9)
Rango: B2:B9
Cálculo en Excel
Ejemplo: media artimética
con y sin un valor extremo
Roberto Castro Z
40
Medidas de Posición
Es un valor del conjunto de datos que mide el elemento central: La mitad de los elementos se encuentran por arriba y la otra mitad por debajo de él.
Si n es impar
Si n es par
Mediana
Ventajas: No se afecta por los valores extremos, es fácil de entender, es una medida calculable, se puede obtener aún para variables ordinales
Desventajas: Los procedimientos estadísticos para tratarla son muy complejos, los datos deben estar ordenados
Roberto Castro Z
41
Medidas de Posición
=MEDIANA(B2:B10)
n = 9 es impar
(n+1)/2 = 10/2=5
Me = es el elemento 5: x5 = 18 Ejemplo
: Median
a con un
valor extremo
Cálculo en Excel
n = 8 es par
n/2 = 8/2 = 4
n/2 + 1 = 4+1= 5
Me = es el promedio del 5 y 6 elementos:
(x4 + x5)/2=(16+18)/2 = 34/2= 17
Mediana
Roberto Castro Z
42
Medidas de Posición
Moda
Rob
ert
o C
astr
o
Z.
Es el valor que se repite más dentro de un conjunto de datos.
Ventajas : no se afecta por los valores extremos, es fácil de entender, se puede obtener aún para variables ordinales y nominales.
Desventajas: algunas veces no existe el valor modal, otras veces la moda son todos los datos, cuando hay varias modas es muy difíciles interpretarlas y compararlas
Una sola moda
Cálculo en Excel
Varias Modas Sin moda
=MODA(B2:B9) ErrorModa Menor
Roberto Castro Z
43
Medidas de Posición
Media y Mediana en Minitab
Rob
ert
o C
astr
o
Z.
Roberto Castro Z
44
Medidas de Posición
Relación entre las medidas de posición
• La media, la mediana y la moda son idénticas en una distribución simétrica
• La mediana puede ser la idónea en distribuciones sesgadas, ya que siempre se encuentra entre la media y la moda, y no se afecta tanto por valores extremos y por la ocurrencia de un solo valor.
• Sin embargo no se cuenta con un criterio único para aplicar alguna de las tres medidas
Sesgo a la derecha Sesgo a la izquierda
Simétrica
Roberto Castro Z
45
Medidas de Variabilidad
• Las medidas de variabilidad suministran información que permite juzgar la confiabilidad de la medida de posición utilizada
• Permite reconocer la variabilidad o dispersión de los datos
Uso de las Medidas de Variabilidad
Tres curvas con el mismo promedio pero con variabilidades deferentes
Roberto Castro Z
46
Medidas de Variabilidad
Rango (Recorrido, amplitud, intervalo)
Es la diferencia entre valor máximo M y el valor mínimo m: Rango = R = M - m
• Su utilidad es escasa.
• Solo toma en cuenta el valor mayor y el menor sin tomar en cuenta el resto de las observaciones
• Esta muy afectado por los valores extremos
=MAX(B2:B8)
=B9-B10
=MIN(B2:B8)
Roberto Castro Z
47
Medidas de Variabilidad
En donde:
xi es la observación
x es el promedio de la muestra
µ es el promedio de la población
n es el tamaño de la muestra
N es el tamaño de la población
Para la Muestra
Para la Población
n
xxn
ii
_
1
N
xN
ii
1
Desviación Absoluta Promedio
1 2 -6 62 4 -4 43 6 -2 24 8 0 05 10 2 26 12 4 47 14 6 6
Suma 56 0 24Promedio 8
Desviación Absoluta: 24/7 = 3.4
La Desviación absoluta es el promedio de las distancias de todos
los valores con respecto al promedio (media aritmética)
Es una mejor medida que la amplitud pues toma en cuenta todas las observaciones. Indica a que distancia de la media se encuentra en promedio cada observación. Es muy limitado el desarrollo teórico estadístico a partir de esta medida.
2 8 6 6
La diferencia entre dos valores en valor absoluto es la “distancia” entre esos dos valores: el 2 se aleja del 8 en 6 unidades
Roberto Castro Z
48
Medidas de Variabilidad
Para la Muestra Para la Población
1
)( 2
1
n
xxs
n
ii
1
)( 2
1
N
xN
ii
En donde:
x es la observación
x es el promedio de la muestra, µ es el promedio de la población
n es el tamaño de la muestra, N es el tamaño de la población_
Desviación Estándar
• Incluye todos los valores en el cálculo.
• Permite determinar dónde se sitúan los valores en relación con su media.
• Se pueden comparar variables y sus distribuciones.
• Es muy utilizada en la inferencia estadística
• Esta afectada por valores extremos.
Roberto Castro Z
49
Medidas de Variabilidad
Desviación Estándar
x
x
N
x
N
2
2
2
11 2
11 2
71 6
11 2
71 6 4
x x
x x
n
x x
n
2
2
2
11 2
1
11 2
61 8 6 6 7
1
11 2
61 8 6 6 7 4 3 2
.
. .
=DESVESTP(B3:B9)
=DESVEST(B3:B9)
Para la Población Para la Muestra
Roberto Castro Z
50
Medidas de Variabilidad
Al igual que la desviación absoluta, la desviación estándar se puede interpretar como el promedio de las distancias de cada observación con respecto a la media aritmética (o el promedio de las diferencias de cada valor con respecto a la media)
La Desviación Estándar:
• Incluye todos los valores en el cálculo.
• Permite determinar dónde se sitúan los valores en relación con su media.
• Se pueden comparar variables y sus distribuciones.
• Es muy utilizada en la inferencia estadística
• Esta afectada por valores extremos (al igual que la media aritmética).
Desviación Estándar
Roberto Castro Z
51
Variancia
Rob
ert
o C
astr
o
Z.
Para la Muestra Para la Población
Unidades en que se expresa la variancia: dado que la diferencia entre cada observación y la media se eleva al cuadrado, las unidades en que se mide la variable también está elevada al cuadrado, por lo que las unidades se deben expresar de esta forma. Por ejemplo: colones al cuadrado (ingresos), años al cuadrado (edades), centímetros al cuadrado (altura), etc.
1
)( 2
12
n
xxs
n
ii
N
xN
ii
2
12
)(
Medidas de Variabilidad
=VAR(B3:B9)
=VARP(B3:B9)
Para la Muestra
Para la Población
Cálculo en Excel
Roberto Castro Z
52
Medidas de Variabilidad
Coeficiente de Variación
x
scv
El coeficiente de variación mide la variabilidad porcentual o relativa de un conjunto de datos con respecto a su promedio.
Es útil para comparar la variabilidad de diferentes conjuntos de datos
CV
Para la Muestra Para la Población
Roberto Castro Z
53
Medidas de Variabilidad
Los cuartiles dividen en cuatro partes las observaciones. El primer cuartil Q1 es un valor que deje por debajo de él 25% de las y por encima 75% de las observaciones. El Q2 es la mediana (50%) y Q3 deja por debajo 75% y por encima 25% de las observaciones
Cuartiles
Roberto Castro Z
54
Medidas de Variabilidad
Los percentiles dividen en dos partes las observaciones. Por ejemplo, el percentil 20, P20, es el valor que deja por debajo un 20% y por encima un 80% de las observaciones
Percentiles
Roberto Castro Z
55
Medidas de Variabilidad
Cálculo con Minitab
Roberto Castro Z
56
Medidas de Posición y Variabilidad
La información de los cuartiles se visualiza en el diagrama de caja.
La mitad central de los datos, que va desde el primer hasta el tercer cuartil, se representa mediante un rectángulo. La mediana se identifica mediante una barra vertical dentro de esta caja. Una línea se extiende desde el tercer cuartil hasta el valor máximo y otra línea se extiende desde el primer cuartil hasta el mínimo
Diagrama de Caja
Roberto Castro Z
57
Descriptive Statistics: Emisión
Variable N Mean Median TrMean StDev SE Mean Minimum Maximum Q1 Q3Emisión 80 18,896 19,050 18,917 5,656 0,632 6,200 31,800 14,825 22,975
Estadísticas Descriptivas
Diagrama de Caja
Roberto Castro Z
58
Medidas de Posición y Variabilidad
Diagrama de Caja: Ejemplos
Roberto Castro Z
59
Medidas de Posición y Variabilidad
Diagrama de Caja: Minitab
Roberto Castro Z
60
Estadísticas Descriptivas
Minitab: Resumen Gráfico
top related