estadística descriptiva

10
Estadística Descriptiva Definición: Procedimientos que permiten organizar, resumir y presentar la información contenida en un conjunto de datos de una variable de interés. Métodos: Cálculo y análisis de medidas descriptivas de los datos Elaboración de tablas, diagramas y gráficos Las variables de interés para un investigador pueden ser de dos tipos: Cualitativas o Cuantitativas Cualitativas : expresan categorías o atributos (profesión, sexo, procedencia) Cuantitativas : se expresan numéricamente (edad, peso, sueldo)

Upload: bruis

Post on 04-Jan-2016

52 views

Category:

Documents


0 download

DESCRIPTION

Estadística Descriptiva. Definición: Procedimientos que permiten organizar, resumir y presentar la información contenida en un conjunto de datos de una variable de interés. Métodos: Cálculo y análisis de medidas descriptivas de los datos Elaboración de tablas, diagramas y gráficos - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Estadística  Descriptiva

Estadística Descriptiva

• Definición:

– Procedimientos que permiten organizar, resumir y presentar la información contenida en un conjunto de datos de una variable de interés.

• Métodos:

– Cálculo y análisis de medidas descriptivas de los datos

– Elaboración de tablas, diagramas y gráficos

• Las variables de interés para un investigador pueden ser de dos tipos: Cualitativas o Cuantitativas

– Cualitativas: expresan categorías o atributos (profesión, sexo, procedencia)

– Cuantitativas: se expresan numéricamente (edad, peso, sueldo)

Page 2: Estadística  Descriptiva

Medidas Descriptivas (para datos cuantitativos x1, . . . xn )

• Tendencia Central

– media aritmética

– mediana

– media truncada

– media geométrica

– otras

• Dispersión:

– rango,

– desviación estandar,

– rango intercuartílico,

– desviación mediana,

– otras

• Otras medidas:

• curtosis,

• coeficiente de asimetría

• coeficiente de variación

• otras

Page 3: Estadística  Descriptiva

Algunas medidas de tendencia central

• Media Aritmética:

• Mediana: valor tal que “el 50% de los datos está por encima y el otro 50% está por debajo”.(atención: con esta definición puede haber más de una mediana para un

conjunto de datos)

• Media Truncada: media aritmética después de “eliminar” un % de los datos.(atención: debe ser pequeño, como mucho 10)

• Media Geométrica: (para datos que toman valores mayores que cero)

n

xxx n

...1

nngeo xxx ...1

Page 4: Estadística  Descriptiva

Algunas medidas de dispersión

• Rango: xmax – xmin

• Desviación estándar:

• Desviación mediana: mediana de “las desviaciones de los datos de la mediana”.

• Rango intercuartílico: rango, luego de “eliminar el 25% superior y el 25% inferior”. Si denotamos por q1 al primer cuartil (valor tal que el 25% está por

debajo y el 75% por arriba) y q3 al tercer cuartil (valor tal que el 75% está por

debajo y el 75% está por arriba) entonces el rango intercuartílico (ri) es Q3-Q1

1

)(...)( 221

n

xxxxs n

Page 5: Estadística  Descriptiva

Ejemplo

• Consideremos los siguientes datos, que corresponden a los salarios mensuales (miles de bolívares fuertes) de ingenieros e ingenieras con dos años de experiencia (Datos A corresponde a hombres y Datos B a mujeres):

Datos A: 1,51 2,25 1,65 1,15 1,85 1,80 4,75 1,25 2,00 1,50 1,80

Datos B: 1.05 1.42 1.81 1.89 2.09 1.52 1.98 1,61

Datos A Datos B

número de datos 11 8

media aritmética 1.96 1,67

mediana 1.80 1,71

media truncada (*) 1.66 1,61

media geométrica 1,81 1,64

rango 3.6 1,04

desviación estándar 0.98 0,34

desviación mediana 0.29 0,23

rango intercuartílico 0.5 0,51

Page 6: Estadística  Descriptiva

Diagrama de cajas

• Representación gráfica de los cuartiles, que permite distinguir aspectos de la distribución de los datos, así como la presencia de valores extremos.

• Para el caso de los datos del ejemplo anterior se tiene:

mujereshombres

5

4

3

2

1

sexo

sala

rio

Page 7: Estadística  Descriptiva

Datos Agrupados

• Tabla de Frecuencias: resultado de agrupar los datos en intervalos disjuntos (numéricos) o categorías diferentes (categóricos) con el propósito de observar como están distribuidos.

• Se elaborarán tablas de frecuencias con base en una matriz de datos (ver al lado) que se construyó a partir de la información recogida en una encuesta realizada a un grupo de 39 estudiantes. Los datos completos están en una de las hojas del archivo excel denominado DATOS VARIOS

n° edad sexon° de

Créditos aprobados

dominio del idioma inglés

1 22,46 m 82 bajo

2 24,99 f 159 alto

3 25,65 m n.s alto

4 23,16 m n.s bajo

. . . . .

. . . . .

. . . . .

38 22,76 m 108 alto

39 22,08 f 115 regular

Page 8: Estadística  Descriptiva

Datos Agrupados

Categoría Frecuencia absoluta

Frecuencia relativa

alto 18 0,462

regular 12 0,308

bajo 9 0,231

Tabla de frecuencia para el dominio del idioma inglés (variable cualitativa)

Intervalo de clase

Frec. absoluta

Frec. relativa

Frec. absoluta acumulada

Frec. relativa acumulada

[19 - 21] 12 0,308 12 0,308

(21 - 23] 13 0,333 25 0,641

(23 - 25] 9 0,231 34 0,872

(25 - 27] 5 0,128 39 1

Tabla de frecuencia para la edad (variable cuantitativa)

El 46,2% de los encuestados manifestó tener un domino alto del idioma inglés

El 12,8% de los encuestados tiene edad superior a los 25 años, mientras que el 64,1% tiene, como máximo, 23 años

¿Que porcentaje (aprox.) de los estudiantes tendrán edades entre 20,5 años y 24,3 años? ¿Que valor (aprox) tiene la mediana?

Page 9: Estadística  Descriptiva

Graficando datos categóricos agrupados

18; 46%

9; 23%

12; 31%

Alto

Regular

bajo

18

12 9

0

2

4

6

8

10

12

14

16

18

20

Alto Regular bajo

Gráfico de torta para los datos de la variable domino del idioma inglés

Gráfico de barras para los datos de la variable domino del idioma inglés

Page 10: Estadística  Descriptiva

Graficando datos numéricos agrupados

0

2

4

6

8

10

12

14

o a b c d e f g17 19 21 23 25 27 290

5

10

15

20

25

30

35

40

45

o a b c d e f17 19 21 23 25 27 29

Histograma y polígono de frecuencia para los datos de la variable edad (frecuencia absoluta)

Polígono de frecuencia acumulada para los datos de la variable edad (frecuencia absoluta)

Atención:

1. De manera análoga se construyen el histograma, el polígono de frecuencia y el polígono de frecuencia acumulada a partir de las frecuencias relativas.

2. A partir de los datos agrupados es posible obtener buenas aproximaciones de la media, mediana, desviación estándar, etc, de los datos originales.