introducción a la estadística - ugrmjgarcia/matematicasiv_1718/pdf/tema_1.pdf · tabulación y...

20
Introducción a la Estadística Definición: Arte de aprender a partir de los datos” (Ross, 2005) Recopilación de datos Descripción Análisis Objetivos Descripción ESTADÍSTICA DESCRIPTIVA Inferencia TEORÍA DE LA PROBABILIDAD INFERENCIA ESTADÍSTICA M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada Definiciones: Población: Conjunto de unidades o elementos con alguna característica en común, y sobre la que se desea obtener cierta información. Puede ser finita o infinita. Muestra: Subconjunto representativo de la población bajo estudio Individuo: Cada uno de los elementos de la población

Upload: others

Post on 10-Aug-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Introducción a la Estadística

Definición: “Arte de aprender a partir de los datos” (Ross, 2005)

• Recopilación de datos

• Descripción

• Análisis

Objetivos

Descripción ESTADÍSTICA DESCRIPTIVA

Inferencia TEORÍA DE LA PROBABILIDAD INFERENCIA ESTADÍSTICA

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

Definiciones:

Población: Conjunto de unidades o elementos con alguna característica en común,

y sobre la que se desea obtener cierta información. Puede ser finita o infinita.

Muestra: Subconjunto representativo de la población bajo estudio

Individuo: Cada uno de los elementos de la población

Page 2: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

Definición: Carácter o Característica: Propiedad o cualidad de los individuos de una

población. Cada carácter puede presentar distintas modalidades. Las modalidades deben ser

a la vez exhaustivas y mutuamente excluyentes. Existen dos tipos de características:

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

Cuantitativa: representadas por cantidades numéricas, son medibles.

Cualitativa: representan características que no pueden asociarse a cantidades con signifi-

cado numérico, no son medibles. Se distingue entre:

1.1. Conceptos básicos

Variables Estadísticas: representación numérica de un carácter cuantitativo, cuyos valores

resultan de la medición de las modalidades.

Variable cuantitativa discreta: sus valores son puntos “aislados” toman un

número finito o infinito numerable de valores.

Variable cuantitativa continua: pueden tomar cualquier valor en un intervalo de la

recta real (dados dos valores cualesquiera, que toma la variable, existe entre ellos una

infinidad de valores que puede tomar).

Nominales: las categorías no tienen orden.

Ordinales: presentan distintos órdenes.

Page 3: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

Distribución de frecuencias: Conjunto de modalidades junto a las frecuencias

correspondientes a cada una de ellas. Una tabla estadística presenta de forma ordenada

las distribuciones de frecuencias.

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

Se considera una población de n individuos, en la que se estudia una variable que presenta

los valores o modalidades kxx ,,1

•Frecuencia absoluta del valor o modalidad : número de observaciones que presenta

dicha modalidad, se nota ; .

•Frecuencia relativa del valor o modalidad : proporción de individuos que presentan el

valor

Para caracteres medidos en escala ordinal, supuesto que

•Frecuencia absoluta acumulada del valor o modalidad : número de individuos con

valor menor o igual que ,

•Frecuencia relativa acumulada del valor o modalidad : proporción de individuos con

valor menor o igual a

ix

in nnk

i

i 1

ix

ix1 ;

1

k

i

ii

i fn

nf

kxxx ,21

ix

kixi ,,1 , kinN

i

j

ji ,,1 ,1

ixkixi ,,1 ,

kifn

NF

i

j

ji

i ,,1 ,1

Page 4: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

1.2.1. Tablas y gráficas para describir datos cualitativos

"R","R","R","R","G","G","G","R","R","Ca","Ca","CL","CL","R","Can","R","R","G","G","G","R","R", "G","G","G","R","R","A", "Ar", "As","A", "Ar","CL","As","As","As","Ca","Ca","G","R","G","G", "Ca","CL", "M","CL","A","G", "M", "M","G", "M", "M","G","G","G","As","Ca","Ca", "Ca","As", "Ar","CL", "M", "M","CL","As", "G","G","G","G","G","Ar","Ca", "M","PV","M","IB","A","Ca", "Ar","Ca","Ca","Ca", "CL", "PV", "PV","CL","R","Ca","Ca","Ca","Ar", "M","Ar", "CL","N","A","As", "PV","A","A","A", "PV","Ar","A","CL","G", "PV", "PV","G","G","CL","As","A","Ar","Ar","G","G", "G","G","G","G","G","A","Ar","A","Ar","A","A","As","Ar","A","A","As","A","Ar","CL","CL", "G","G","G","G","G","G","G”

Ejemplo: De la población de 146 parques eólicos en España, deseamos estudiar su localización

por comunidades. Los datos son:

Page 5: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

1.2.1. Tablas y gráficas para describir datos cualitativos

Parques: A Ar As Ca Can CL G IB M N PV R Frecuencias: 17 14 11 16 1 14 39 1 10 1 7 15

Representaciones gráficas:

Diagrama de barras: se representa cada categoría mediante una barra y su altura es la

frecuencia absoluta o relativa.

Diagrama de sectores: se divide el círculo en tantos sectores como modalidades y el área de

cada sector es proporcional a su frecuencia.

A Ar As Ca Can CL G IB M N PV R

Parques eólicos

Fre

cu

en

cia

re

lativa

0.0

00

.05

0.1

00

.15

0.2

00

.25

0.3

0

A

Ar

As

Ca

Can

CL

G

IBM

N

PV

R

Parques eólicos

A Ar As Ca Can CL G IB M N PV R

Parques eólicos

Fre

cu

en

cia

01

02

03

04

0

Page 6: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

BY: M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

1.2.1. Tablas y gráficas para describir datos cualitativos

Ejemplo: Los datos correspondientes al tipo de grupo sanguíneo de una clase son

"A","O","B", "AB", "A","AB", "O","AB","AB", "B","A","A","B", "B", "B", "AB", "AB","O", "O","O", "AB", "AB", "A","A", "B","B", "A", "AB", "A”

Grupos: A AB B O Frecuencias: 8 9 7 5

A AB B O

Grupos sanguíneo

Fre

cu

en

cia

02

46

81

0

A AB B O

Grupos sanguíneos

Fre

cu

en

cia

re

lativa

0.0

0.1

0.2

0.3

0.4

A

AB

B

O

Grupo sanguíneo

Page 7: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

1.2.2. Tablas y gráficas para describir datos cuantitativos

Variable cuantitativa discreta: si toma pocos valores su tratamiento es como el caso

de variables cualitativas.

Ejemplo: Una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza

un estudio sobre la calidad de producción. Los siguientes datos sobre el número de piezas

defectuosas encontradas en una muestra de cajas examinadas.

Numero de defectuosas: 0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4, 4,4,4,5,5,5,5,6,6,6,6,6,7,7,7,8,8,9

Numero de defectuosas: 0 1 2 3 4 5 6 7 8 9 Frecuencia Absoluta: 6 9 10 7 7 4 5 3 2 1

Page 8: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

BY: M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

1.2.2. Tablas y gráficas para describir datos cuantitativos

Ejemplo: Una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza

un estudio sobre la calidad de producción. Los siguientes datos sobre el número de piezas

defectuosas encontradas en una muestra de cajas examinadas.

Numero de defectuosas: 0 1 2 3 4 5 6 7 8 9 Frecuencia Absoluta: 6 9 10 7 7 4 5 3 2 1

0 1 2 3 4 5 6 7 8 9

Diagrama de barras del número de piezas defectuosas

Fre

cuencia

s A

bsolu

tas

02

46

810

0 1 2 3 4 5 6 7 8 9

Diagrama de barras del número de piezas defectuosas

Fre

cuencia

s R

ela

tiva

0.0

00.0

50.1

00.1

5

0 1 2 3 4 5 6 7 8 9

Diagrama de barras del número de piezas defectuosas

Fre

cuencia

s A

bsolu

tas A

cum

ula

das

010

20

30

40

50

0

1

2

3

4

5

6

7

8

9

Número de piezas defectuosas

Page 9: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

BY: M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

1.2.2. Tablas y gráficas para describir datos cuantitativos

Variables cuantitativas: toman muchos

valores próximos y distintos Agrupar los datos en clases

Agrupar los datos en clases

1. Determinar el número de clases Raíz cuadrada del número de datos

Regla de Sturges

2. Dividir el rango de los valores en clases de igual amplitud

3. Calcular las frecuencias de cada clase

clases de número y ; minmax NxxRN

RL

datosdetotalnúmeronnN ],log1[ 2

Histograma: está formado por rectángulos yuxtapuestos, cuyas bases son los intervalos de

agrupación de los valores y sus alturas son proporcionales a las densidades de frecuencia,

intervalo del amplitud y intervalo del absoluta frecuencia ; ii

i

ii an

a

nh

Page 10: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

1.2.2. Tablas y gráficas para describir datos cuantitativos

Histogram of Datos

Datos

Fre

qu

en

cy

0 1 2 3 4

02

46

8

Ejemplo: Los siguientes datos corresponden al tiempo necesario para procesar 25 trabajos

en una CPU:1.17,1.61,1.16,1.38,3.53,1.23,3.76,1.94,0.96,4.75,0.15,2.41,0.71,0.02,1.59,0.19,

0.82,0.47,2.16,2.01,0.92,0.75,2.59,3.07,1.4

Page 11: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.2. Tabulación y gráficas para describir datos

1.2.2. Tablas y gráficas para describir datos cuantitativos

Interpretación de un histograma:

1. Simetría de los datos

2. Máximo único

3. Dispersión de los datos

4. Datos atípicos

5. Distribución de colas largas

Page 12: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.3. Medidas numéricas

Medidas de posición: permiten situar el conjunto de datos.

Central

No central

Medidas de dispersión: miden el grado de separación de los datos de la

distribución. También permiten medir la representatividad de las medidas de

posición.

Medidas de forma: informan sobre la forma de una distribución.

Page 13: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.3. Medidas numéricas

1.3.1. Medidas de tendencia central

Media:

n

xn

x

nnxx

k

i

ii

kk

1

11

por dada está media la menterespectiva ,,, absolutas sfrecuenciacon variablela tomaque valoreslos , ,Sean

Propiedades:

3. Si se realiza un cambio de origen y escala del tipo y=ax+b, la media sufre el mismo

cambio, bxay

4. Si tenemos la suma de dos o mas variables, la media de la suma es la suma de las medias

de cada variable

5. Es muy sensible a datos atípicos

es la suma de todos los valores de la variable divididos entre el número total de

observaciones.

1. Representa el centro de gravedad de la distribución.

2. Utiliza toda la información de la distribución de frecuencias.

n

x

xxx

n

i

i

n

1

1 datos los de media la define se variableuna de datos , ,Sean

Page 14: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.3. Medidas numéricas

1.3.1. Medidas de tendencia central

Mediana (solo se requiere que los datos sean de naturaleza ordinal):

Es el valor que deja el 50% de los datos a su izquierda y el otro 50% a la derecha una vez

ordenados

Cálculo de la mediana para una variable con datos no agrupados:

• Si

• Si

Cálculo de la mediana para una variable con datos agrupados:

•Si n/2 coincide con la mediana es extremo superior del intervalo ], ,( intervalo del 1 iiii eeIN

• Si n/2 no coincide con la frecuencia absoluta acumulada Interpolar

] ,( ),(2/

111

iiiii

i

ii eeIee

n

NneMe

Esta medida no es sensible a datos atípicos.

Propiedades:

Es de cálculo fácil y de interpretación sencilla.

iii Nn

Nx 2

/ 1

ii xMen

N 2

medio) punto el tomarsesuele numéricos datos(en , 2

1 iii xxMen

N

Si se realizan cambios de escala y origen en los datos, la mediana queda afectada por

los mismos cambios.

Page 15: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.3. Medidas numéricas

1.3.1. Medidas de tendencia central

Moda (puede calcularse para datos de cualquier tipo, basta una escala nominal):

Es el valor que aparece con mayor frecuencia en un conjunto de datos.

Propiedades:

Para caracteres cuantitativos, si se realizan cambios de escala y origen en los datos ,

la moda queda afectada por los mismos cambios.

Page 16: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.3. Medidas numéricas

1.3.2. Cuantiles 10 r

Cálculo de los cuantiles datos no agrupados:

1. Ordenar los datos en orden creciente

2.

Denominaciones particulares:

• Percentiles

• Cuartiles

Definición: El cuantil de orden r ( ) denotado por Pr es el valor que deja una

proporción de r valores menores o iguales que él y el resto por encima.

Cálculo de los cuantiles datos agrupados Intervalo cuantil. Interpolar

iii Nnr

Nx 100

/ 1

iii Nnr

Nx 100

/ 1

ii xnr

N rP 100

medio) punto el tomarsesuele numéricos datos(en ,P 100

1r iii xxnr

N

Page 17: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.3. Medidas numéricas

1.3.3. Medidas de dispersión

Varianza y cuasivarianza

)(111

)(

S , )(-

)(

:menterespectiva nza,cuasivaria lay varainzala define se ,,, variableuna de datos los Dados

221

22

1

2

2

1

21

2

1

2

2

1

xxn

n

n

xnx

n

xx

xn

x

n

xx

xx

n

i

i

n

i

i

n

n

i

i

n

i

i

n

1

)(

S ,

)(

por dadasestán nzacuasivariay varianzala ,, absolutas sfrecuenciacon variableuna de valores,,Sean

1

2

2

11

2

2

11

n

xxn

n

xxn

nnxx

n

i

ii

n

n

i

ii

kk

• Se ve afectada por cambios de escala y es invariante frente a traslaciones

• La suma de las varianzas no coincide con la varianza de la suma

Desviación típica: raíz cuadrada de la varianza,

Coeficiente de variación:

Rango intercuartílico: Q (3) –Q (1)

• Es una medida adimensional x

CV

• Vale cero si y solo si todos los datos coinciden

0

222

xy abaxy

Page 18: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.3. Medidas numéricas

1.3.4 Medidas de forma

Coeficiente de asimetría de Fisher:

3

3

11

)(

n

xxnn

i

ii

• Es una medida adimensional

• Simetría a la derecha 0 1

0 1 • Simetría a la izquierda

Distribución simétrica: Si para cada dato de la forma existe otro de la forma b- x b x

La media, la mediana y la moda coinciden en el centro de simetría

• En distribuciones simétricas 0 1

Page 19: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.4. Métodos para detectar datos atípicos

Definición: una observación que es inusualmente grande o pequeña en relación con los

demás valores de un conjunto de datos se denomina dato atípico o fuera de rango

• El dato se ha introducido de forma incorrecta en el conjunto de datos bajo estudio

• El dato proviene de una población distinta a la que se está estudiando

• El dato es correcto pero representa un suceso muy poco común

¿Cómo determinar datos atípicos?

• Regla empírica

• Rango intercuartílico

El histograma de los datos tiene forma de campana ]3 ,3[ xxxiDato atípico si

Datos atípicos aquellos inferiores a Q 1 -1.5(Q 3 – Q 1) o mayores a Q 3 +1.5(Q 3 – Q 1) se consideran moderadamente atípicos y fuertemente atípicos si son inferiores a Q 1 -3(Q 3 – Q 1) o mayores a Q 3 +3(Q 3 – Q 1).

Page 20: Introducción a la Estadística - UGRmjgarcia/MatematicasIV_1718/PDF/Tema_1.pdf · Tabulación y gráficas para describir datos 1.2.2. Tablas y gráficas para describir datos cuantitativos

Tema 1: Estadística descriptiva unidimensional

M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada

1.4. Métodos para detectar datos atípicos

01

23

4