estadística i - ecotec · 2011-05-19 · diagrama de pareto 1. ordenar los datos de mayor a menor...

72
Estadística I

Upload: others

Post on 30-Jan-2020

27 views

Category:

Documents


0 download

TRANSCRIPT

Estadística I

Estadística I

Asistencia

Puntualidad

Conducta

Evaluación

Bibliografía

Mail: [email protected]

La estadística surgió como una necesidad del

estado: el censo y su descripción política,

geográfica y económica.

En el siglo XVII y XVIII nace la probabilidad

aplicada a los juegos de azar que ejerce una

fuerte influencia sobre la estadística.

En el XIX empieza a aplicarse a cuestiones

sociales.

Estadística

Dos significados:

1.- Colección de datos numéricos (una estadística).

2.- Método de análisis de datos (la estadística).

Estadística

Estadística

La Estadística es la ciencia que estudialos métodos y procedimientos pararecoger, clasificar, resumir, hallarregularidades y analizar los datos, asícomo de realizar inferencias a partir deellos, con la finalidad de ayudar a la tomade decisiones y en su caso formularpredicciones.

Definiciones

Una población (universo) es la colección de todos

los miembros de un grupo.

Un parámetro es una medida numérica que

describe una característica de la población.

Definiciones

Una muestra es una porción de la población

seleccionada para analisis. Debe ser

representativa y seleccionada de manera

aleatoria.

Un estadístico es una medida numérica que

describe una característica de una muestra.

Ramas de la Estadística

Estadística Descriptiva

Recolección, resumen y presentación de datos.

Estadística Inferencial

Obtiene conclusiones acerca de una población a

partir de una muestra.

Estadística Descriptiva

Recolección de datos

Ej. Cuestionario

Presentación de datos

Ej. Tablas y gráficos

Tratamiento de datos

Ej. Media muestral =iX

n

Estadística Inferencial

Estimación

Pruebas de Hipótesis

Obtiene conclusiones acerca de una población a

partir de una muestra.

Fuente de Datos

Fuentes Secundarias

Compilación de datos

Observación

Experimentación

Impreso o eletrónico

Encuesta

Fuentes Primarias

Colección de datos

Tipo de datos

Dato: Valores observados de las variables.

Variables categóricas: producen datos cualitativos. Ej: Estatus Marital, Color de ojos

Variables numéricas: generan datos numéricos

V. Numérica discreta: Respuesta numéricas que resultan

de un conteo.

Ej. Número de Hijos, defectos por hora

V. Numérica contínua : Respuesta numérica que resulta de

un medición.

Ej. Peso, Estatura

Ejercicio1

Para cada una de las variables, determine si

es categórica o numérica. Si la variable es

numérica, indique si es discreta o contínua.

1. Número de aparatos telefónicos en casa.

2. Duración (en minutos) de la última llamada.

3. Si existe en la casa una línea telefónica conectada

a un módem.

4. Si hay un fax en la casa.

Ejercicio 2

De acuerdo con una encuesta de Goldman, cerca del4% de los hogares estadounidense utilizan serviciosbancarios online. Una encuesta realizada por CyberDialogue investigó las razones por las que la genteabandona esta opción . A continuación se ofrece losresultados obtenidos:

¿Por qué abandonó el banco online?

Demasiado tiempo... 40%

No lo necesita ..........30%

No confía en el sistema..20%.

Demasiado costoso........10%

Describa la población de la encuesta Goldman

Describa la población de la encuesta Cyber

Dialogue.

La respuesta a la pregunta ¿ Por qué abandonó

el banco online? ¿Es categórica o numérica?

El 40% de quienes respondieron indicaron que el

banco en línea era demasiado complicado .¿Es

esto un parámetro o un estadístico?

Niveles de Medición

Nominal: Nombres o clasificaciones que se

utilizan para datos en categorías distintas y

separadas

Ej: Tipo de bebida que prefiere

Ordinal: Clasifican observaciones en categorías

con un orden significativo pero no es posible

determinar la diferencia numérica entre los

valores.

Ej: Riesgo: alto medio bajo

Niveles de Medición

De intervalo: Nivel ordinal donde podemos

determinar magnitudes de diferencia entre los

datos. El cero no indica ausencia de valor.

Ej: Temperatura, Años

De razón: Nivel de intervalo modificado para

que el cero indique un punto de partida

Ej: Peso de equipaje, estatura de un niño

Ejercicio

Indique el nivel de medición utilizado:

Preferencia de vehículo según su estilo:camion,

van,etc.

Temperatura corporal de una muestra de clientes

enojados.

Numero de cédula.

Contenido de nicotina (mg) de un cigarrillo.

Calificación de una cita a ciegas : sobresaliente, común

y horrible.

Ingreso anual de los gerentes en una compañía.

Ejercicio

Indique el nivel de medición utilizado:

Años en que ha ocurrido el Fenómeno “EL niño”

Calificaciones finales : MB, B, R, P

Automóviles descritos como subcompactos, compactos,

medianos o grandes.

Temperatura del ambiente en el aula.

Edad de los clientes.

Año de nacimiento de sus padres

Presentación de datos en tablas y gráficos

Presentación de datos categóricos:

Tabla resumen

Gráficos: Barras, Pastel y Diagrama de Pareto

Presentación de datos numéricos

Tabla de frecuencia

Gráficos: Histograma, Polígono, Ojiva

Datos Categóricos

La tabla resumen indica la frecuencia, cantidad

o porcentaje de objetos en un conjunto de

categorías para observar las diferencias que

hay entre ellas.

Nivel De Riesgo Número de Fondos Porcentaje

Bajo 58 47,93

Promedio 46 38,02

Alto 17 14,05

Total 121 100

Datos Categóricos

Gráficos de barras :Cada barra muestra

una categoria, su longitud representa la

cantidad, frecuencia o porcentaje de los

valores que caen en cada categoría.

Nivel de Riesgo

0

20

40

60

80

Bajo Promedio Alto

Fre

cu

en

cia

Datos Categóricos

Gráfico de Pastel: Es un círculo que se

divide en partes para representar las

categorías. El tamaño de cada rebanada

varía de acuerdo con el porcentaje de cada

categoría.

Nivel de Riesgo

Bajo

Promedio

Alto

Alto

14%

Bajo

48%Promedio

38%

Los gastos de un estudiante en un semestre

académico fueron: alimentación $600,alquiler

$500, diversión $300, ropa $200, libros $200,

otros $200. A partir de esta información:

Construya una tabla resumen

Dibuje un gráfico de barras de frecuencia y %.

Diagrama de Pareto

El principio de Pareto indica que en todo grupo

de elementos o factores que contribuyen a un

mismo efecto, unos pocos son responsables de

la mayor parte de dicho efecto.

Diagrama de Pareto

Es un gráfico de barras, donde las categorías

son mostradas en orden descendente.

Un polígono acumulado se presenta en el

mismo gráfico.

Utilizado para separar lo “poco vital” de lo

“mucho trivial”.

Pasos del desarrollo del

Diagrama de Pareto

1. Ordenar los datos de mayor a menor frecuencia

2. Calcular el porcentaje y porcentaje acumulado.

3. Dibujar un gráfico de barras con las frecuencias.

4. Dibujar un eje secundario de %.

5. Trazar un gráfico lineal cuyos puntos representan

el porcentaje acumulado.

6. Identificar los elementos más importantes.

Tabla de Pareto

Tipo de

Inversión

Monto

(en miles $)

Porcentaje

(%)

%

Acumulado

Acciones 46,50 42% 42%

Bonos Globales 32,00 29% 71%

Bonos Locales 16,00 15% 86%

Banco 15,50 14% 100%

Total 110,00 100%

Diagrama de Pareto

Ejemplo

Los siguientes datos presentan el tipo de daños en

teclados defectuosos:

Realice el análisis de Pareto

Tipo de defecto Frecuencia

Mancha 413

Daño 1039

Impacto en el molde 275

Raya plateada 413

Hundimiento 371

Marca de spray 292

Ejemplo

Un gran almacén con elevados costes por hurtos,

encargó a un grupo de trabajo a resolver el problema.

Se recopiló la información por áreas con los siguientes

resultados:

Sección Costo

Joyería 62

Alimentación 15

Perfumería 58

Electrodomésticos 22

Música 47

Ropa 16

Deportes 50

Hogar 14

Tablas y gráficos para datos categóricos

Datos

Categóricos

Gráficos

Gráfica de

pastel

Diagrama

de Pareto

Gráfico de

Barras

Tabulación de Datos

Tabla resumen

Arreglo Ordenado

Una secuencia de datos ordenados:

Muestra el rango (min y max)

Provee el grado de variabilidad de los datos

Permite identificar observaciones inusuales

Si el conjunto de datos es grande, el arreglo

ordenado es menos útil.

Datos recolectados :

24, 26, 24, 21, 27, 27, 30, 41, 32, 38

Datos en arreglo ordenado del menor al mayor:

21, 24, 24, 26, 27, 27, 30, 32, 38, 41

Arreglo Ordenado

Diagrama Tallo y Hoja

Permite ver cómo se distribuyen y donde

están las concentraciones de datos.

Se organiza los datos en grupos (llamados

tallos), para que los valores dentro de cada

grupo (las hojas) ramifiquen hacia la derecha

de cada fila.

Ejemplo

Efectúe el diagrama de tallo hoja para los

siguientes conjuntos de datos

21, 24, 24, 26, 27, 27, 30, 32, 38, 41

613, 632, 658, 717,722, 750, 776, 827,841, 859, 863,

891,894, 906, 928, 933,955, 982, 1034, 1047,1056,

1140, 1169, 1224

Tallo Hoja6 1 3 6

7 2 2 5 8

8 3 4 6 6 9 9

9 1 3 3 6 8

10 3 5 6

11 4 7

12 2

Datos:

613, 632, 658, 717,

722, 750, 776, 827,

841, 859, 863, 891,

894, 906, 928, 933,

955, 982, 1034,

1047,1056, 1140,

1169, 1224

Ejemplo 2

Los siguientes datos representan las cuotas

en $ de cheques rechazados de una muestra

de 23 bancos:

28 20 20 21 22 25 25 18 25 15 20

18 20 25 25 22 30 30 30 30 15 20 29

Coloque los datos en un arreglo ordenado

Elabore un diagrama tallo hojas

¿Cuál de estos diagramas ofrece más información?

¿Alrededor de que valor se concentran los datos?

Ejemplo 3

El siguiente diagrama de tallo hojas

representa la cantidad de gasolina (con un

decimal) comprada en galones para una

muestra de 25 autos

Coloque los datos en un arreglo ordenado

¿Cuál de estos diagramas ofrece más información?

¿Cuánta gasolina es más probable que se compre?

La distribución de frecuencias es una lista o

una tabla…

Que contiene clases agrupadas (rangos en los

cuales se ubican los datos ) ...

Y la correspondiente frecuencias.

Tabulación de datos numéricos: Distribución de frecuencias

Intervalos de clase

Cada clase tiene el mismo ancho y se lo calcula

de la siguiente manera:

Se sugiere no menos de 5 pero no más de 15

agrupaciones. Número de clases=3.32*log(n)

Las clases nunca se traslapan.

clases de deseado número

rangointervalo de Ancho

Distribución de frecuencia

Ejemplo: Cierto fabricante seleccionaaleatoriamente 20 días de invierno y toma latemperatura con los siguientes resultados :

24, 35, 17, 21, 24, 37, 26, 46, 58, 30,

32, 13, 12, 38, 41, 43, 44, 27, 53, 27

Ordene los datos :12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Calcule el rango: 58 - 12 = 46

Seleccione el número de clases:5 (usualmente entre 5 y 15)

Calcule el ancho de clase: 10 (46/5 )

Determine los límites de clases: 10, 20, 30, 40, 50, 60

Calcule el punto medio de cada clase: 15, 25, 35, 45, 55

Cuente las observaciones y asigne a la clase que

corresponda

Distribución de frecuencia

Distribución de frecuencia

Clase Frecuencia

10 pero menos que 20 3 .15 15

20 pero menos que 30 6 .30 30

30 pero menos que 40 5 .25 25

40 pero menos que 50 4 .20 20

50 pero menos que 60 2 .10 10

Total 20 1.00 100

Frecuencia

RelativaPorcentaje

Datos ordenados

12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Frecuencia Acumulada

Clase

10 pero menos que 20 3 15 3 15

20 pero menos que 30 6 30 9 45

30 pero menos que 40 5 25 14 70

40 pero menos que 50 4 20 18 90

50 pero menos que 60 2 10 20 100

Total 20 100

PorcentajePorcentaje Acumulado

Datos ordenados:

12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

FrecuenciaFrecuencia

Acumulada

En cierto país se desea investigar elcrecimiento de los jóvenes y se seleccionó unamuestra aleatoria de 25 jóvenes y se los midió.

Construya la tabla de distribución de frecuenciaincluyendo el porcentaje acumulado.

Gráfico de datos numéricos: Histograma

Gráfica de barras para datos numéricos agrupados en

los que las frecuencias o los porcentajes de cada

grupo de datos numéricos están representados por

barras individuales.

El punto medio de cada clase se muestra en el eje de

las x.

El eje vertical representa la frecuencia o el porcentaje

de los valores por intervalo de clase.

Punto medio

Histograma

(Ningun

espacio

entre

barras)

Clase

10 pero menos que 20 15 3

20 pero menos que 30 25 6

30 pero menos que 40 35 5

40 pero menos que 50 45 4

50 pero menos que 60 55 2

Frecuencia

Punto

medio

Polígono de Frecuencia

Punto medio de clase

Clase

10 pero menos que 20 15 3

20 pero menos que 30 25 6

30 pero menos que 40 35 5

40 pero menos que 50 45 4

50 pero menos que 60 55 2

FrecuenciaPunto

Medio

En el polígono de

porcentaje el eje

vertical debería de

estar definido como el

porcentaje de las

observaciones por

clase)

Ejercicios

Polígono de frecuencia Acumulada

Límite de clases

Temperatura Frec

Frec

Acum

%

Acum

Menos que 10 0 0 0%

10 pero menos de 20 3 3 15%

20 pero menos de 30 6 9 45%

30 pero menos de 40 5 14 70%

40 pero menos de 50 4 18 90%

50 pero menos de 60 2 20 100%

Chap 1-53

Polígono de frecuencia Acumulada

Ojiva: Temperatura diaria

0

2

4

6

8

10

12

14

16

18

20

10 20 30 40 50 60

Límite de Clase

Fre

c.

Acu

m

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

% A

cu

m.

A 40 estudiantes en la cafetería se les pidió que

estimaran el número de horas que habían dedicado a

estudiar en la semana anterior. El registro de

respuestas aparece en la tabla.

Complete la tabla y dibuje la ojiva.

Tiempo de estudio semanal en horas Frecuencia

10 y menos que 20 6

20 y menos que 30 11

30 y menos que 40 9

40 y menos que 50 7

50 y menos que 60 4

60 y menos que 70 2

70 y menos que 80 1

Ejercicios

Datos Bivariados

Tabla de contingencia

Investment Investor A Investor B Investor C Total Category

Acciones 46.5 55 27.5 129

Bonos G. 32.0 44 19.0 95

Bonos Loc. 15.5 20 13.5 49

Bancos 16.0 28 7.0 51

Total 110.0 147 67.0 324

Gráfica de barras agrupadas

Datos Bivariados

Diagrama de Dispersión

Volume

n por

dia

Costo

por dia

23 131

24 120

26 140

29 151

33 160

38 167

41 185

42 170

50 188

55 195

60 200

Permite examinar las posibles relaciones

entre dos variable numéricas.

En el diagrama de dispersión , las variables

pueden estar relacionadas de las siguientes

formas:

0

50

100

150

200

250

300

350

0 50 100 150Variable A

Vari

able

B

0

20

40

60

80

100

120

140

160

0 50 100 150Variable A

Vari

able

B

Variable A aumenta y Variable B aumenta Variable A aumenta y variable B disminuye

Determine el tipo de relación que existe entre las

siguientes variables:

1) Un almacén recopiló las ventas y gastos de

publicidad de 5 de sus sucursales.

VENTAS GASTOS DE

PUBLICIDAD

264000 550

384000 590

400200 680

422400 700

543000 750

2) Una persona se

entrena para obtener

el carnet de conducir

repitiendo un test de

50 preguntas. En la

tabla se describen el

nº de errores que

corresponden a los

intentos realizados.

Número de

intentos

Número de

errores

1 15

2 12

3 10

4 8

5 7

6 5

7 5

8 2

3) A 12 alumnos de un centro se les preguntó a qué

distancia estaba su residencia del Instituto, con fin de

estudiar si esta variable estaba relacionada con la nota

media obtenida. Se obtuvieron los datos que figuran en

la siguiente tabla:

Distancia

(Km) 0,05 0,1 0,12 0,4 0,5 0,7 1 1,2 2,1 2,5 3 3

Nota

Prom. 8,4 4 5,7 9,1 6,3 6,7 4,3 5,4 7,8 4,5 7,2 8,1

Diagrama de Serie de tiempo

Año

Ventas

(miles $)

1996 43

1997 54

1998 60

1999 73

2000 82

2001 95

2002 107

2003 99

2004 95

Se usa para estudiar patrones de las variables a través del tiempo .

Año

Tasa de

desempleo

1998 4,7

1999 4,3

2000 4

2001 4,2

2002 5,6

2003 5,9

2004 6

2005 6,1

2006 6

2007 6,5

Tasa de desempleo por año

0

2

4

6

8

1998 1999 2000 2001 2002 2003 2004 2005 2006 2007

Año

Ta

sa

de

de

se

mp

leo

(%)

Los datos de la siguiente tabla representan el promedio

de espectadores de televisión por juego (en millones )

para la Liga de Futbol Nacional (NFL), Asociación

Nacional de Basketball (NBA), la Liga de Baseball

(MLB) y la Liga nacional de Jockey (NHL).

Para cada uno de los cuatro deportes realice un

diagrama de series de tiempo.

¿Qué patrón si lo hay está presente en los datos ?

Año NFL NBA MLB NHL

1995 19,6 10,6 15,9 3,6

1996 18,5 10,2 9,8 3,2

1997 17,4 10,8 10,4 2,4

1998 18,1 7,8 9,4 2,6

1999 18,3 7,2 10 3,3

2000 17 6,7 7,7 2,8

2001 16,9 6,8 9,8 3,1

2002 18,6 5,8 8,9 2,6

Organización de Datos numéricos

Datos

Numéricos

Arreglo

Ordenado

Diagrama de Tallo-Hoja Histograma Polígono Ojiva

Distribución de

Frecuencias

Uso inadecuado de gráficas y consideraciones éticas

Algunas directrices para desarrollar buenas gráficas son :

La gráfica no debe distorsionar los datos

La gráfica no debería contener adornos innecesarios

Cualquier gráfica de dos dimensiones debe contener una escala para cada eje.

Todos los ejes deben estar debidamente rotulados

La gráfica debe tener un título

Los datos normalmente no son fáciles de usar para la toma de decisiones. Algunas organizaciones necesitan

Tablas Gráficos

Las técnicas repasadas en este tema son:

Diagramas de barras, De pastel, De Pareto

Arreglo ordenado y diagrama de tallo-hoja

Distribuciones de frecuencia, histogramas y polígonos

Distribuciones acumulativas y ojivas

Tabla de contingencia y Gráficas de barras agrupadas

Diagrama de dispersión y Serie de tiempo

Resumen