Download - Tema 4,DESCRIPCION DE CONJUNTOS DE DATOS
MAESTRÍA EN BANCA VALORES Y SEGUROS( 2DA EDICIÓN – 2DA VERSIÓN )Msc Jorge Mario Jimenez Aviles
10 de 2011Santa Cruz - Bolivia
PROBABILIDAD E INFERENCIA ESTADISTICA
DESCRIPCION DE CONJUNTOS DE
DATOS
TEMA 4
Variables cualitativas y cuantitativas
Ejemplos de variables cualitativas son ocupación, sexo, estado civil, etc.
Variables que producen observaciones que pueden medirse, se considera que son variables cuantitativas. Ejemplos de variables cuantitativas son peso, estatura, edad. Variables cuantitativas pueden clasificarse en discretas o continuas
Estadística descriptiva
Rama de la estadística que trata sobre la descripción y análisis estadístico de una población, que resume y presenta datos obtenidos de la población o de una muestra, mediante métodos adecuados.
Tiene como objetivo caracterizar los datos, de manera gráfica o analítica, para resaltar las propiedades de los elementos bajo estudio.
METODOS GRAFICOS
1. Organización de los datos
2. Distribución de frecuencias
3. Tabla de distribuciones de frecuencia
4. Presentación gráfica de una
distribución de frecuencias
Distribuciones de Frecuencia y Presentación Gráfica
Distribuciones de Frecuencia y Presentación Gráfica
Numero de galones de agua utilizados por una familia en un año (miles de galones)
15 23 22 15 18 24
14 21 13 20 17 19
14 20 14 21 18 30
17 19 8 26 16 14
18 34 23 13 27 16
Primero ordenamos los datos:8 13 13 14 14 14
14 15 15 16 16 17
17 18 18 18 19 19
20 20 21 21 22 23
23 24 26 27 30 34
Pasos para construir una tabla distribución de frecuencias
1 Determinar el numero de clases o intervalos de clase
Agrupamiento de datos en categorías que muestran el
número de observaciones en cada categoría
mutuamente excluyente
DISTRIBUCIÓN DE FRECUENCIAS
• Determinar el Rango (Recorrido) Rango = Xmáx – Xmín R= 34-8 = 26
• Detereminar el número de intervalos de clase.k = 1 + (3.322)(log n) K = 1+(3.322)(log 30) = 5.91 Tomaremos 6 como número de intervalos.
• Calcular el ancho del intervalo
C = 26/6 = 4.33 ≈ 5 kR
c
TABLA DE DISTRIBUCIÓN DE FRECUENCIA
Intervalos de clases
8-12
13-17
18-22
23-27
28-32
33-37
Totales
Límites Reales
7.5-12.5
12.5-17.5
17.5-22.5
22.5-27.5
27.5-32.5
32.5-37.5
fr%
3.3
40
33.3
16.7
3.3
3.3
99.9
Xi
10
15
20
25
30
35
fi
1
12
10
5
1
1
30
GRÁFICOS
Histograma
Pareto
Diagrama Circular (Pastel)
Histograma de frecuencia
Histograma
0
2
4
6
8
10
12
14
1Consumo de agua (miles galones)
Nº
de
fam
ilia
s
7.5-12.5
12.5-17.5
17.5-22.5
22.5-27.5
27.5-32.5
32.5-37.5
0
2
4
6
8
10
12
14
40% 33% 17% 3% 3% 3%
PARETONUMERO
FAM
40%
34%
17%
3% 3% 3%
% CONSUMO
12
10
5
1
1
1
Diagrama Circular (Pastel)
EJERCICIO 1
EJERCICIO 2
DESCRIPCION DE CONJUNTOS DE DATOS
TEMA 4 (PARTE II)
MEDIDAS DE POSICIÓN Y DE DISPERSIÓN
LAS MEDIDAS DECRIPTIVAS NUMERICAS CALCULADAS A PARTIR DE MEDICIONES POBLACIONALES SE LLAMAN PARAMETROS; LAS MEDIDAS CALCULADAS A PARTIR DE MDICIONES MUESTRALES RECIBEN EL NOMBRE DE ESTADISTICAS
MEDIDAS DE TENDENCIA CENTRAL
MEDIA ARITMETICA
MEDIANA
MODA
MEDIA ARITMÉTICA(CONOCIDA COMUNMENTE COMO PROMEDIO)
Se obtiene sumando todos los valores y dividiéndolos entre el total de valores observadosAl evaluar la media se incluyen todos los
valoresUn conjunto de datos sólo tiene una media
MEDIANA
Es el dato que se encuentra en el centro del conjunto de valores ordenadosNo está influenciada por valores extremos50% de las observaciones se encuentran por debajo de la
medianaEs única para un conjunto de valores
COMO SE CALCULA?
MODA
Es el valor de la observación que aparece con más frecuenciaNo está influenciada por valores
extremosMuy utilizada para datos nominalesPuede haber mas de una moda o no
existir moda
MEDIDAS DE VARIABILIDAD
AMPLITUD (RANGO)
VARIANZA
DESVIACION ESTANDAR
23
Medidas de dispersión
Rango
Una manera de medir la dispersión es calcular el recorrido de la distribución empírica, es decir, la diferencia entre las observaciones máxima y mínima.
Su mayor ventaja es que se puede calcular facilmente, sin embargo, no brinda información sobre la dispersión existente entre ambos valores extremos.
AMPLITUD
Diferencia entre el dato máximo y dato mínimo
minmax xxAmplitud
VARIANZA
La media aritmética de las desviaciones de la media al cuadrado
N
xi
2
2
POBLACIONAL MUESTRAL
1
)( 22
n
xxis
DESVIACIÓN ESTÁNDAR
Raíz cuadrada de la Varianza
POBLACIONAL MUESTRAL
N
x
2
1
2
n
)x(xs
27
Propiedades del desviación estándar
s mide la dispersión respecto a la media.
s = 0 solo ocurre cuando no hay dispersión: todas las observaciones toman el mismo valor. De lo contrario s > 0.
Cuanto más dispersión hay entre las observaciones, mayor es s.
s, al igual que la media, se encuentra fuertemente influenciado por las observaciones extremas.
La distribución normal
La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754).
Posteriormente, Carl Friedrich Gauss (1777-1855)realizó estudios más a fondo donde formula la ecuación de la curva conocida comúnmente, como la “Campana de Gauss".
Utilidad
Se utiliza muy a menudo porque hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la norma.
Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, por ejemplo: tallas, pesos, diámetros, distancias, perímetros,...
Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono
Utilidad
Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen
Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...
Errores cometidos al medir ciertas magnitudes
Valores estadísticos muéstrales como la media, varianza y moda
31
Si una distribución es simétrica, la media, mediana y modo coinciden
• Si una distribución no es simétrica, las tres medidas difieren.
Asimetría hacia la derecha(asimetría positiva)
MediaMediana
ModaMedia
MedianaModa
Asimetría hacia la izquierda(asimetría negativa)
Media, Mediana y Moda
32
Distribuciones normalesLa curva con mayor desviación estándar es la curva que
presenta mayor dispersión.
La desviación típica es la medida natural de la dispersión de una distribución normal. La forma de una curva normal no solo queda completamente determinada por y , sino que además es posible situar a simple vista en la curva.
Cuando nos alejamos de , en cualquier dirección, la curva pasa de descender rápidamente a descender suavemente.
Estos puntos de inflexión están situados a una distancia de .
Suponga que el tiempo de reacción de una droga en particular tiene una distribución Normal con una media de 10 minutos y una desviación estándar de 2 minutos
Aproximadamente,a) 68% de los sujetos tomando el medicamento
tendrán la reacción entreo 8 y 12 minutos
b) 95% de los sujetos tomando la droga tendrán la reacción entre 6 y 14 minutos
c) 99.7% de los sujetos tomando la droga tendrán la reacción entre 4 y 16 minutos.
34
Distribuciones normales
Todas las distribuciones normales tienen la misma forma general.La curva de densidad de una distribución normal se describe por su media y su desviación estándar . La media se sitúa en el centro de la curva simétrica, en el mismo lugar que la mediana. Si se cambia sin cambiar se provoca un desplazamiento de la curva de densidad a lo largo del eje de las abscisas sin que cambie su dispersión. La desviación típica controla la dispersión de la curva normal.
Propiedades de la distribución normal:
El área bajo la curva aproximado del promedio μ a más o menos una desviación estándar (1σ) es de 0.68, a más o menos 2σ es de .0 95 y a más o menos 3σ es de 0.99.
(Las propiedades continuan en la próxima lámina)
36
Regla Empírica
En una distribución normal: · El 68 % de las observaciones se encuentra entre
.· El 95 % de las observaciones se encuentra entre
2 .· El 99.7 % de las observaciones se encuentra entre
3 . 68% de los datos
95% de los datos
99.7% de los datos
La desviación estándar (σ )
En resumen
Podemos concluir que hay una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza.
La desviación estándar (σ ) determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será más plana.
La media indica la posición de la campana, de modo que para diferentes valores de μ la gráfica es desplazada a lo largo del eje horizontal.