introducción a la estadística - ugrmjgarcia/matematicasiv_1718/pdf/tema_1.pdf · tabulación y...
TRANSCRIPT
Introducción a la Estadística
Definición: “Arte de aprender a partir de los datos” (Ross, 2005)
• Recopilación de datos
• Descripción
• Análisis
Objetivos
Descripción ESTADÍSTICA DESCRIPTIVA
Inferencia TEORÍA DE LA PROBABILIDAD INFERENCIA ESTADÍSTICA
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
Definiciones:
Población: Conjunto de unidades o elementos con alguna característica en común,
y sobre la que se desea obtener cierta información. Puede ser finita o infinita.
Muestra: Subconjunto representativo de la población bajo estudio
Individuo: Cada uno de los elementos de la población
Tema 1: Estadística descriptiva unidimensional
Definición: Carácter o Característica: Propiedad o cualidad de los individuos de una
población. Cada carácter puede presentar distintas modalidades. Las modalidades deben ser
a la vez exhaustivas y mutuamente excluyentes. Existen dos tipos de características:
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
Cuantitativa: representadas por cantidades numéricas, son medibles.
Cualitativa: representan características que no pueden asociarse a cantidades con signifi-
cado numérico, no son medibles. Se distingue entre:
1.1. Conceptos básicos
Variables Estadísticas: representación numérica de un carácter cuantitativo, cuyos valores
resultan de la medición de las modalidades.
Variable cuantitativa discreta: sus valores son puntos “aislados” toman un
número finito o infinito numerable de valores.
Variable cuantitativa continua: pueden tomar cualquier valor en un intervalo de la
recta real (dados dos valores cualesquiera, que toma la variable, existe entre ellos una
infinidad de valores que puede tomar).
Nominales: las categorías no tienen orden.
Ordinales: presentan distintos órdenes.
Tema 1: Estadística descriptiva unidimensional
Distribución de frecuencias: Conjunto de modalidades junto a las frecuencias
correspondientes a cada una de ellas. Una tabla estadística presenta de forma ordenada
las distribuciones de frecuencias.
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
Se considera una población de n individuos, en la que se estudia una variable que presenta
los valores o modalidades kxx ,,1
•Frecuencia absoluta del valor o modalidad : número de observaciones que presenta
dicha modalidad, se nota ; .
•Frecuencia relativa del valor o modalidad : proporción de individuos que presentan el
valor
Para caracteres medidos en escala ordinal, supuesto que
•Frecuencia absoluta acumulada del valor o modalidad : número de individuos con
valor menor o igual que ,
•Frecuencia relativa acumulada del valor o modalidad : proporción de individuos con
valor menor o igual a
ix
in nnk
i
i 1
ix
ix1 ;
1
k
i
ii
i fn
nf
kxxx ,21
ix
kixi ,,1 , kinN
i
j
ji ,,1 ,1
ixkixi ,,1 ,
kifn
NF
i
j
ji
i ,,1 ,1
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
1.2.1. Tablas y gráficas para describir datos cualitativos
"R","R","R","R","G","G","G","R","R","Ca","Ca","CL","CL","R","Can","R","R","G","G","G","R","R", "G","G","G","R","R","A", "Ar", "As","A", "Ar","CL","As","As","As","Ca","Ca","G","R","G","G", "Ca","CL", "M","CL","A","G", "M", "M","G", "M", "M","G","G","G","As","Ca","Ca", "Ca","As", "Ar","CL", "M", "M","CL","As", "G","G","G","G","G","Ar","Ca", "M","PV","M","IB","A","Ca", "Ar","Ca","Ca","Ca", "CL", "PV", "PV","CL","R","Ca","Ca","Ca","Ar", "M","Ar", "CL","N","A","As", "PV","A","A","A", "PV","Ar","A","CL","G", "PV", "PV","G","G","CL","As","A","Ar","Ar","G","G", "G","G","G","G","G","A","Ar","A","Ar","A","A","As","Ar","A","A","As","A","Ar","CL","CL", "G","G","G","G","G","G","G”
Ejemplo: De la población de 146 parques eólicos en España, deseamos estudiar su localización
por comunidades. Los datos son:
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
1.2.1. Tablas y gráficas para describir datos cualitativos
Parques: A Ar As Ca Can CL G IB M N PV R Frecuencias: 17 14 11 16 1 14 39 1 10 1 7 15
Representaciones gráficas:
Diagrama de barras: se representa cada categoría mediante una barra y su altura es la
frecuencia absoluta o relativa.
Diagrama de sectores: se divide el círculo en tantos sectores como modalidades y el área de
cada sector es proporcional a su frecuencia.
A Ar As Ca Can CL G IB M N PV R
Parques eólicos
Fre
cu
en
cia
re
lativa
0.0
00
.05
0.1
00
.15
0.2
00
.25
0.3
0
A
Ar
As
Ca
Can
CL
G
IBM
N
PV
R
Parques eólicos
A Ar As Ca Can CL G IB M N PV R
Parques eólicos
Fre
cu
en
cia
01
02
03
04
0
Tema 1: Estadística descriptiva unidimensional
BY: M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
1.2.1. Tablas y gráficas para describir datos cualitativos
Ejemplo: Los datos correspondientes al tipo de grupo sanguíneo de una clase son
"A","O","B", "AB", "A","AB", "O","AB","AB", "B","A","A","B", "B", "B", "AB", "AB","O", "O","O", "AB", "AB", "A","A", "B","B", "A", "AB", "A”
Grupos: A AB B O Frecuencias: 8 9 7 5
A AB B O
Grupos sanguíneo
Fre
cu
en
cia
02
46
81
0
A AB B O
Grupos sanguíneos
Fre
cu
en
cia
re
lativa
0.0
0.1
0.2
0.3
0.4
A
AB
B
O
Grupo sanguíneo
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
1.2.2. Tablas y gráficas para describir datos cuantitativos
Variable cuantitativa discreta: si toma pocos valores su tratamiento es como el caso
de variables cualitativas.
Ejemplo: Una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza
un estudio sobre la calidad de producción. Los siguientes datos sobre el número de piezas
defectuosas encontradas en una muestra de cajas examinadas.
Numero de defectuosas: 0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4, 4,4,4,5,5,5,5,6,6,6,6,6,7,7,7,8,8,9
Numero de defectuosas: 0 1 2 3 4 5 6 7 8 9 Frecuencia Absoluta: 6 9 10 7 7 4 5 3 2 1
Tema 1: Estadística descriptiva unidimensional
BY: M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
1.2.2. Tablas y gráficas para describir datos cuantitativos
Ejemplo: Una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza
un estudio sobre la calidad de producción. Los siguientes datos sobre el número de piezas
defectuosas encontradas en una muestra de cajas examinadas.
Numero de defectuosas: 0 1 2 3 4 5 6 7 8 9 Frecuencia Absoluta: 6 9 10 7 7 4 5 3 2 1
0 1 2 3 4 5 6 7 8 9
Diagrama de barras del número de piezas defectuosas
Fre
cuencia
s A
bsolu
tas
02
46
810
0 1 2 3 4 5 6 7 8 9
Diagrama de barras del número de piezas defectuosas
Fre
cuencia
s R
ela
tiva
0.0
00.0
50.1
00.1
5
0 1 2 3 4 5 6 7 8 9
Diagrama de barras del número de piezas defectuosas
Fre
cuencia
s A
bsolu
tas A
cum
ula
das
010
20
30
40
50
0
1
2
3
4
5
6
7
8
9
Número de piezas defectuosas
Tema 1: Estadística descriptiva unidimensional
BY: M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
1.2.2. Tablas y gráficas para describir datos cuantitativos
Variables cuantitativas: toman muchos
valores próximos y distintos Agrupar los datos en clases
Agrupar los datos en clases
1. Determinar el número de clases Raíz cuadrada del número de datos
Regla de Sturges
2. Dividir el rango de los valores en clases de igual amplitud
3. Calcular las frecuencias de cada clase
clases de número y ; minmax NxxRN
RL
datosdetotalnúmeronnN ],log1[ 2
Histograma: está formado por rectángulos yuxtapuestos, cuyas bases son los intervalos de
agrupación de los valores y sus alturas son proporcionales a las densidades de frecuencia,
intervalo del amplitud y intervalo del absoluta frecuencia ; ii
i
ii an
a
nh
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
1.2.2. Tablas y gráficas para describir datos cuantitativos
Histogram of Datos
Datos
Fre
qu
en
cy
0 1 2 3 4
02
46
8
Ejemplo: Los siguientes datos corresponden al tiempo necesario para procesar 25 trabajos
en una CPU:1.17,1.61,1.16,1.38,3.53,1.23,3.76,1.94,0.96,4.75,0.15,2.41,0.71,0.02,1.59,0.19,
0.82,0.47,2.16,2.01,0.92,0.75,2.59,3.07,1.4
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.2. Tabulación y gráficas para describir datos
1.2.2. Tablas y gráficas para describir datos cuantitativos
Interpretación de un histograma:
1. Simetría de los datos
2. Máximo único
3. Dispersión de los datos
4. Datos atípicos
5. Distribución de colas largas
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.3. Medidas numéricas
Medidas de posición: permiten situar el conjunto de datos.
Central
No central
Medidas de dispersión: miden el grado de separación de los datos de la
distribución. También permiten medir la representatividad de las medidas de
posición.
Medidas de forma: informan sobre la forma de una distribución.
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.3. Medidas numéricas
1.3.1. Medidas de tendencia central
Media:
n
xn
x
nnxx
k
i
ii
kk
1
11
por dada está media la menterespectiva ,,, absolutas sfrecuenciacon variablela tomaque valoreslos , ,Sean
Propiedades:
3. Si se realiza un cambio de origen y escala del tipo y=ax+b, la media sufre el mismo
cambio, bxay
4. Si tenemos la suma de dos o mas variables, la media de la suma es la suma de las medias
de cada variable
5. Es muy sensible a datos atípicos
es la suma de todos los valores de la variable divididos entre el número total de
observaciones.
1. Representa el centro de gravedad de la distribución.
2. Utiliza toda la información de la distribución de frecuencias.
n
x
xxx
n
i
i
n
1
1 datos los de media la define se variableuna de datos , ,Sean
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.3. Medidas numéricas
1.3.1. Medidas de tendencia central
Mediana (solo se requiere que los datos sean de naturaleza ordinal):
Es el valor que deja el 50% de los datos a su izquierda y el otro 50% a la derecha una vez
ordenados
Cálculo de la mediana para una variable con datos no agrupados:
• Si
• Si
Cálculo de la mediana para una variable con datos agrupados:
•Si n/2 coincide con la mediana es extremo superior del intervalo ], ,( intervalo del 1 iiii eeIN
• Si n/2 no coincide con la frecuencia absoluta acumulada Interpolar
] ,( ),(2/
111
iiiii
i
ii eeIee
n
NneMe
Esta medida no es sensible a datos atípicos.
Propiedades:
Es de cálculo fácil y de interpretación sencilla.
iii Nn
Nx 2
/ 1
ii xMen
N 2
medio) punto el tomarsesuele numéricos datos(en , 2
1 iii xxMen
N
Si se realizan cambios de escala y origen en los datos, la mediana queda afectada por
los mismos cambios.
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.3. Medidas numéricas
1.3.1. Medidas de tendencia central
Moda (puede calcularse para datos de cualquier tipo, basta una escala nominal):
Es el valor que aparece con mayor frecuencia en un conjunto de datos.
Propiedades:
Para caracteres cuantitativos, si se realizan cambios de escala y origen en los datos ,
la moda queda afectada por los mismos cambios.
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.3. Medidas numéricas
1.3.2. Cuantiles 10 r
Cálculo de los cuantiles datos no agrupados:
1. Ordenar los datos en orden creciente
2.
Denominaciones particulares:
• Percentiles
• Cuartiles
Definición: El cuantil de orden r ( ) denotado por Pr es el valor que deja una
proporción de r valores menores o iguales que él y el resto por encima.
Cálculo de los cuantiles datos agrupados Intervalo cuantil. Interpolar
iii Nnr
Nx 100
/ 1
iii Nnr
Nx 100
/ 1
ii xnr
N rP 100
medio) punto el tomarsesuele numéricos datos(en ,P 100
1r iii xxnr
N
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.3. Medidas numéricas
1.3.3. Medidas de dispersión
Varianza y cuasivarianza
)(111
)(
S , )(-
)(
:menterespectiva nza,cuasivaria lay varainzala define se ,,, variableuna de datos los Dados
221
22
1
2
2
1
21
2
1
2
2
1
xxn
n
n
xnx
n
xx
xn
x
n
xx
xx
n
i
i
n
i
i
n
n
i
i
n
i
i
n
1
)(
S ,
)(
por dadasestán nzacuasivariay varianzala ,, absolutas sfrecuenciacon variableuna de valores,,Sean
1
2
2
11
2
2
11
n
xxn
n
xxn
nnxx
n
i
ii
n
n
i
ii
kk
• Se ve afectada por cambios de escala y es invariante frente a traslaciones
• La suma de las varianzas no coincide con la varianza de la suma
Desviación típica: raíz cuadrada de la varianza,
Coeficiente de variación:
Rango intercuartílico: Q (3) –Q (1)
• Es una medida adimensional x
CV
• Vale cero si y solo si todos los datos coinciden
0
222
xy abaxy
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.3. Medidas numéricas
1.3.4 Medidas de forma
Coeficiente de asimetría de Fisher:
3
3
11
)(
n
xxnn
i
ii
• Es una medida adimensional
• Simetría a la derecha 0 1
0 1 • Simetría a la izquierda
Distribución simétrica: Si para cada dato de la forma existe otro de la forma b- x b x
La media, la mediana y la moda coinciden en el centro de simetría
• En distribuciones simétricas 0 1
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.4. Métodos para detectar datos atípicos
Definición: una observación que es inusualmente grande o pequeña en relación con los
demás valores de un conjunto de datos se denomina dato atípico o fuera de rango
• El dato se ha introducido de forma incorrecta en el conjunto de datos bajo estudio
• El dato proviene de una población distinta a la que se está estudiando
• El dato es correcto pero representa un suceso muy poco común
¿Cómo determinar datos atípicos?
• Regla empírica
• Rango intercuartílico
El histograma de los datos tiene forma de campana ]3 ,3[ xxxiDato atípico si
Datos atípicos aquellos inferiores a Q 1 -1.5(Q 3 – Q 1) o mayores a Q 3 +1.5(Q 3 – Q 1) se consideran moderadamente atípicos y fuertemente atípicos si son inferiores a Q 1 -3(Q 3 – Q 1) o mayores a Q 3 +3(Q 3 – Q 1).
Tema 1: Estadística descriptiva unidimensional
M.J. García-Ligero Ramírez Departamento de Estadística e I.O. Universidad de Granada
1.4. Métodos para detectar datos atípicos
01
23
4