universidad católica de valencia san vicente mártir facultad de … · 2016. 3. 8. · calcular...
TRANSCRIPT
BIOESTADISTICA
Universidad Católica de Valencia San Vicente Mártir
Facultad de Medicina
Departamento de Epidemiología, Departamento de Epidemiología,
Análisis critico y Metodología de la investigaciónAnálisis critico y Metodología de la investigación
Departamento de Epidemiología, Medicina
BIOESTADÍSTICA APLICADAMedicina
Epidemiología, Medicina Preventiva, Análisis crítico y
Metodología de la investigación
BIOESTADISTICA
� Tema 3: Estadística Descriptiva
Departamento de Epidemiología, Departamento de Epidemiología,
Análisis critico y Metodología de la investigaciónAnálisis critico y Metodología de la investigación
� Tema 3: Estadística Descriptiva
OBJETIVOS DEL TEMA:OBJETIVOS DEL TEMA:
1.1. Conocer como se produce la recopilación y tabul ación de los datos.Conocer como se produce la recopilación y tabulació n de los datos.
2.2. Representar gráficamente datos de variables cat egóricas: Diagramas de Barras y Representar gráficamente datos de variables categór icas: Diagramas de Barras y
Sectores.Sectores.
3.3. Conocer y Calcular los estadísticos descriptivo s de tendencia central, variabilidad, Conocer y Calcular los estadísticos descriptivos de tendencia central, variabilidad,
forma y posición. forma y posición.
4.4. Representar gráficamente datos de variables con tinuas: polígonos de frecuencias, Representar gráficamente datos de variables continu as: polígonos de frecuencias,
histogramas, gráfico de caja y bigotes, gráfico de tallo y hojas.histogramas, gráfico de caja y bigotes, gráfico de tallo y hojas.
5.5. Conocer la terminología médica especifica en la que se aplican proporciones, tasas y Conocer la terminología médica especifica en la que se aplican proporciones, tasas y
ratios. Calcular proporciones, tasas y ratios a par tir de datos proporcionados.ratios. Calcular proporciones, tasas y ratios a par tir de datos proporcionados.
BIOESTADISTICADepartamento de Epidemiología, Departamento de Epidemiología,
Análisis critico y Metodología de la investigaciónAnálisis critico y Metodología de la investigación
� Tema 3: Estadística Descriptiva
Guión:Guión:
1.1. Introducción a la estadística descriptivaIntroducción a la estadística descriptiva..
2.2. Organización de los datos: Tablas de Frecuencias.Organización de los datos: Tablas de Frecuencias.
3.3. Representación Grafica de Variables Categóricas.Representación Grafica de Variables Categóricas.
4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.
5.5. Representación Grafica de Variables Continuas.Representación Grafica de Variables Continuas.
BIOESTADISTICA
¿Cuál es el campo de la estadística?¿Cuál es el campo de la estadística?
La estadística trata de la variabilidad de las situaciones de la vida La estadística trata de la variabilidad de las situaciones de la vida
cotidiana. Esta variabilidad implica incertidumbre.cotidiana. Esta variabilidad implica incertidumbre.
Tema 3: Estadística Descriptivastadística Descriptiva
cotidiana. Esta variabilidad implica incertidumbre.cotidiana. Esta variabilidad implica incertidumbre.
Se sabe que “fumar provoca cáncer”. Fumar no causa cáncer del mismo modo que al golpear una bola de billar con otra, ésta última se
mueva. Mucha gente fuma mucho durante mucho tiempo y no desarrolla cáncer. La formación de cáncer como consecuencia de
fumar no es una consecuencia invariable sino que ocurre sólo algunas fumar no es una consecuencia invariable sino que ocurre sólo algunas veces. Los datos recogidos para examinar la asociación entre fumar y tener cáncer debe ser analizada reconociendo un resultado incierto y
variable.
BIOESTADISTICA
El campo de la Estadística tiene que ver con la El campo de la Estadística tiene que ver con la
Tema 3: Estadística Descriptivastadística Descriptiva
El campo de la Estadística tiene que ver con la El campo de la Estadística tiene que ver con la
recopilación, presentación, análisis y uso de recopilación, presentación, análisis y uso de datosdatos
para tomar decisiones y resolver problemas.para tomar decisiones y resolver problemas.
Todos recibimos información en forma de datos y a Todos recibimos información en forma de datos y a
menudo es necesario menudo es necesario extraer conclusiones extraer conclusiones a partir de a partir de menudo es necesario menudo es necesario extraer conclusiones extraer conclusiones a partir de a partir de
la información contenida en los mismos.la información contenida en los mismos.
BIOESTADISTICA
Las herramientas de la estadística tienen por objetivo el Las herramientas de la estadística tienen por objetivo el
ayudarnos a generar, recopilar y analizar los datos ayudarnos a generar, recopilar y analizar los datos
Tema 3: Estadística Descriptivastadística Descriptiva
ayudarnos a generar, recopilar y analizar los datos ayudarnos a generar, recopilar y analizar los datos
referentes a un problema de interés, con el fin de referentes a un problema de interés, con el fin de
extraer la información útil extraer la información útil contenida en dichos datos.contenida en dichos datos.
El primer paso en el análisis estadístico de los datos El primer paso en el análisis estadístico de los datos El primer paso en el análisis estadístico de los datos El primer paso en el análisis estadístico de los datos
consiste en la consiste en la descripcióndescripción de los mismos, de los mismos,
organizando la información contenida de manera que organizando la información contenida de manera que
el usuario pueda aprehenderla con la mayor facilidad.el usuario pueda aprehenderla con la mayor facilidad.
BIOESTADISTICA
El El análisis descriptivo análisis descriptivo consiste en la tabulación de los consiste en la tabulación de los
datos, la generación de unos pocos estadísticos datos, la generación de unos pocos estadísticos
Tema 3: Estadística Descriptivastadística Descriptiva
datos, la generación de unos pocos estadísticos datos, la generación de unos pocos estadísticos
capaces de capturar las principales características de capaces de capturar las principales características de
los datos y la elaboración de gráficos adecuados.los datos y la elaboración de gráficos adecuados.
La descripción de un conjunto de datos a través de un La descripción de un conjunto de datos a través de un
número reducido de estadísticos y representaciones número reducido de estadísticos y representaciones número reducido de estadísticos y representaciones número reducido de estadísticos y representaciones
gráficas adecuadas se conoce como gráficas adecuadas se conoce como Estadística Estadística
DescriptivaDescriptiva..
BIOESTADISTICA
•• TablasTablas
Estadística DescriptivaEstadística Descriptiva
Tema 3: Estadística Descriptivastadística Descriptiva
•• TablasTablas•• GráficosGráficos•• EstadísticosEstadísticos
DatosDatos Información
Decisiones
Las herramientas de la estadística descriptiva(tablas, gráficos y estadísticos) nos ayudan aextraer la información “oculta” en los datos,asistiéndonos en la toma de decisiones.
BIOESTADISTICADepartamento de Epidemiología, Departamento de Epidemiología,
Análisis critico y Metodología de la investigaciónAnálisis critico y Metodología de la investigación
� Tema 3: Estadística Descriptiva
Guión:Guión:
1.1. Introducción a la estadística descriptiva.Introducción a la estadística descriptiva.
2.2. Organización de los datos: Tablas de Frecuencias.Organización de los datos: Tablas de Frecuencias.
3.3. Representación Grafica de Variables Categóricas.Representación Grafica de Variables Categóricas.
4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.
5.5. Representación Grafica de Variables Continuas.Representación Grafica de Variables Continuas.
BIOESTADISTICA
¿Cómo podemos representarlos de forma útil?¿Cómo podemos representarlos de forma útil?
¿Cómo descubrir estructuras en un montón de datos desnudos?¿Cómo descubrir estructuras en un montón de datos desnudos?
¿Cómo resumir de forma básica los datos?¿Cómo resumir de forma básica los datos?
Tema 3: Estadística Descriptivastadística Descriptiva
¿Cómo resumir de forma básica los datos?¿Cómo resumir de forma básica los datos?
BIOESTADISTICA
Lo primero que necesitamos son unos cuantos datos Lo primero que necesitamos son unos cuantos datos para analizar…... para analizar…...
Tema 3: Estadística Descriptivastadística Descriptiva
Se ha recogido una muestra de Se ha recogido una muestra de 82 estudiantes midiendo su peso 82 estudiantes midiendo su peso
en librasen libras
Sexo Peso (Libras) Sexo Peso (Libras)Hombre 140 Hombre 140Hombre 145 Hombre 145Hombre 160 Hombre 160Hombre 190 Hombre 190Hombre 155 Hombre 155Hombre 165 Hombre 165Hombre 150 Hombre 150Hombre 190 Hombre 190Hombre 195 Hombre 195Hombre 138 Hombre 138Hombre 160 Hombre 160Hombre 155 Hombre 155Hombre 153 Hombre 153Hombre 145 Hombre 145Hombre 145 Hombre 145Hombre 170 Hombre 170Hombre 175 Hombre 175Hombre 175 Hombre 175Hombre 180 Hombre 180Hombre 135 Hombre 135Hombre 170 Hombre 170Hombre 157 Hombre 157Hombre 130 Hombre 130Hombre 185 Hombre 185Hombre 190 Hombre 190
BIOESTADISTICA
Esos datos se pueden resumir agrupando los individuos Esos datos se pueden resumir agrupando los individuos en cada pesoen cada peso
Tema 3: Estadística Descriptivastadística Descriptiva
Peso (Libras) Cuenta de Peso (Libras)102 1108 2110 2112 1112 1115 1116 2118 1120 3121 1123 1125 6130 4131 1133 1135 3136 1138 2140 3142 1145 5145 5150 9153 1155 8157 1160 4164 1165 1170 2175 2180 3185 1190 4195 2215 1
Total general 82
BIOESTADISTICA
Esos datos se pueden resumir aun mas convirtiendo el Esos datos se pueden resumir aun mas convirtiendo el peso en una variable categórica (Categorías de peso)peso en una variable categórica (Categorías de peso)
Tema 3: Estadística Descriptivastadística Descriptiva
Categoria Estudiantes
<120 10
120-140 23
140-160 28
160-180 10
180-200 10
>200 1
Total general 82
BIOESTADISTICA
Esos datos se pueden resumir aun mas convirtiendo el Esos datos se pueden resumir aun mas convirtiendo el peso en una variable categórica (Categorías de peso)peso en una variable categórica (Categorías de peso)
Tema 3: Estadística Descriptivastadística Descriptiva
Fre
cuen
cia
Abs
olut
a A
cum
ulad
a
Fre
cuen
cia
Rel
ativ
a A
cum
ulad
a
Cat
egor
ia
Fre
cuen
cia
Abs
olut
a
Fre
cuen
cia
Abs
olut
a A
cum
ulad
a
Fre
cuen
cia
Rel
ativ
a
Fre
cuen
cia
Rel
ativ
a A
cum
ulad
a
Cat
egor
ia
Fre
cuen
cia
Abs
olut
a
Fre
cuen
cia
Abs
olut
a A
cum
ulad
a
Fre
cuen
cia
Rel
ativ
a
Fre
cuen
cia
Rel
ativ
a A
cum
ulad
a
<120 10 10 12,20% 12,20%120-140 23 33 28,05% 40,24%140-160 28 61 34,15% 74,39%160-180 10 71 12,20% 86,59%180-200 10 81 12,20% 98,78%
>200 1 82 1,22% 100,00%Total general 82 82 100,00% 100,00%
BIOESTADISTICA
•• Una tabla de frecuencia o distribución de frecuencias Una tabla de frecuencia o distribución de frecuencias
Tablas de frecuencias: DefiniciónTablas de frecuencias: Definición
Tema 3: Estadística Descriptivastadística Descriptiva
•• Una tabla de frecuencia o distribución de frecuencias Una tabla de frecuencia o distribución de frecuencias
simple, muestra los resultados de la tabulación de una simple, muestra los resultados de la tabulación de una
serie de observaciones (frecuencia) en cada nivel o valor serie de observaciones (frecuencia) en cada nivel o valor
de la variable.de la variable.
•• Su aspecto no difiere para variables numéricas Su aspecto no difiere para variables numéricas
(discretas o continuas medidas en cualquier escala (discretas o continuas medidas en cualquier escala (discretas o continuas medidas en cualquier escala (discretas o continuas medidas en cualquier escala
(intervalo o razón), las categóricas o cualitativas (en (intervalo o razón), las categóricas o cualitativas (en
escala nominal) o las ordinales.escala nominal) o las ordinales.
BIOESTADISTICA
Tablas de frecuenciasTablas de frecuencias
Supongamos que conocemos el valor que toma una variable X Supongamos que conocemos el valor que toma una variable X
para cada uno de los n individuos de una población. Si los I para cada uno de los n individuos de una población. Si los I
Tema 3: Estadística Descriptivastadística Descriptiva
para cada uno de los n individuos de una población. Si los I para cada uno de los n individuos de una población. Si los I
posibles valores de la variable (modalidades) son {x1, x2, …, posibles valores de la variable (modalidades) son {x1, x2, …,
xI}, definimos, para cada modalidad xi,xI}, definimos, para cada modalidad xi,
Frecuencia absoluta ni: Frecuencia absoluta ni: Nº de individuos con dicha modalidad.Nº de individuos con dicha modalidad.
FrecuenciaFrecuencia absoluta acumulada Ni:absoluta acumulada Ni: nº de individuos con nº de individuos con
modalidad menor o igual a xi y se calcula acumulando las modalidad menor o igual a xi y se calcula acumulando las
frecuencias absolutas hasta la ifrecuencias absolutas hasta la i--ésima, es decir…ésima, es decir…
Ni = n1 + n2 + … + ni.Ni = n1 + n2 + … + ni.
BIOESTADISTICA
Tablas de frecuenciasTablas de frecuencias
Frecuencia relativa fi:Frecuencia relativa fi: es el cociente entre ni y n y se es el cociente entre ni y n y se
Tema 3: Estadística Descriptivastadística Descriptiva
Frecuencia relativa fi:Frecuencia relativa fi: es el cociente entre ni y n y se es el cociente entre ni y n y se
corresponde con la proporción de individuos que presentan la corresponde con la proporción de individuos que presentan la
modalidad xi.modalidad xi.
Frecuencia relativa acumulada Fi:Frecuencia relativa acumulada Fi: es el cociente entre Ni y n y es el cociente entre Ni y n y
se corresponde con la proporción de los individuos que se corresponde con la proporción de los individuos que
presentan una modalidad menor o igual a xi.presentan una modalidad menor o igual a xi.presentan una modalidad menor o igual a xi.presentan una modalidad menor o igual a xi.
BIOESTADISTICA
Tablas de frecuencias. FórmulasTablas de frecuencias. Fórmulas
Hayni individuos, de un total den, que verifican la modalidadxi
Tema 3: Estadística Descriptivastadística Descriptiva
n
nf ii = ∑
=
=+++=i
jjii nnnnN
121 L
Frecuencia relativa Frecuencia absoluta acumulada
Frecuencia relativa acumulada
∑=
=+++=+++==i
jji
iii ffff
n
nnn
n
NF
121
21L
L
Frecuencia relativa acumulada
BIOESTADISTICA
Notación para datos organizados (más frecuente)Notación para datos organizados (más frecuente)
xi ni Ni f i F i
Tema 3: Estadística Descriptivastadística Descriptiva
xi ni Ni f i F i
34 2 2
35 6 8
36 7 15
37 7 22
38 12 34
… … …
n = Σni ,
f i= ni/n
la suma de todas las frecuencias observadas da la muestra de observación
El nº de observaciones en un valor de la variable dividida por total de observaciones da la proporción de observaciones en ese valor de la variable
BIOESTADISTICA
En una encuesta realizada sobre una población de 1509 familias seha tabulado, entre otras variables, el número de hijos, obteniéndose:
Tablas de frecuencias, datos sin agruparTablas de frecuencias, datos sin agrupar
Tema 3: Estadística Descriptivastadística Descriptiva
ha tabulado, entre otras variables, el número de hijos, obteniéndose:
x i n i
0 4191 2552 3753 2154 1275 54
N i
419674
1049126413911445
f i
0,2780,1690,2490,1420,0840,036
F i
0,2780,4470,6950,8380,9220,958
Hay 1264 familias con 3 o menos hijos.
El 24,9% de las familias tiene 2 hijos.
5 546 247 23>7 17
1509
1445146914921509
0,0360,0160,0150,011
0,9580,9730,9891,000
El 92,2% de las familias tiene 4 o menos hijos.
Para variables cuantitativas continuas, o discretas con un número elevado demodalidades, se agrupan estas en intervalos o clases, empleando la marca declase (centro del intervalo) como valor representativo para todo el intervalo.
BIOESTADISTICA
Procedimiento para agrupar datos (I)Procedimiento para agrupar datos (I)
1. ¿Cuántos intervalos debe haber?Está relacionado con el número de observaciones. Generalmente se
Tema 3: Estadística Descriptivastadística Descriptiva
Está relacionado con el número de observaciones. Generalmente se usan de 5 a 15, con un número menor para muestras pequeñas.
k = √n | k = log2n + 1,
donde n es el número de observaciones.
2. ¿Cuál es el rango de valores?
R = x -xR = xmáx-xmín
3. ¿Cuál es la amplitud de los intervalos?
i = R / k
BIOESTADISTICA
Procedimiento para agrupar datos (II)Procedimiento para agrupar datos (II)
4. Cogemos el valor mínimo en la variable y redondeamos por abajo a un valor múltiplo de 10 ó
Tema 3: Estadística Descriptivastadística Descriptiva
redondeamos por abajo a un valor múltiplo de 10 ó de 5, o similar.
5. Creamos los intervalos utilizando las siguientes notaciones
[ valor incluido, valor excluido[ ó [valor incluido, valor incluido]
[50-54], [55-59],… ó [50-55[,[55-60[[50-54], [55-59],… ó [50-55[,[55-60[
6. Contabilizamos el número de datos observados en cada intervalo de nuestra muestra de datos.
BIOESTADISTICA
Tablas de frecuencias. Ejemplo ITablas de frecuencias. Ejemplo I
Variable cualitativa
Se observa el grupo sanguíneopara 20 pacientesafectadospor cierta
Tema 3: Estadística Descriptivastadística Descriptiva
Se observa el grupo sanguíneopara 20 pacientesafectadospor ciertaenfermedad, obteniéndose:
{A, A, AB, AB, O, A, B, A, A, O, A, A, AB, A, O, A, A, O, B, A}
x i n i f i
A 11 0,55O 4 0,20
• A falta de un orden numérico, para lasvariables cualitativas, es usual ordenar lasmodalidadesporsufrecuenciaabsoluta.O 4 0,20
AB 3 0,15B 2 0,10
20
modalidadesporsufrecuenciaabsoluta.
• El 55% de los pacientes tienen gruposanguíneo A, el 20% O, el 15% AB y el 10%restante B.
BIOESTADISTICA
Tablas de frecuencias. Ejemplo IITablas de frecuencias. Ejemplo II
Variable cuasicuantitativa
En unaencuestarealizadaenun hospitalacercade la satisfacciónpor el trato
Tema 3: Estadística Descriptivastadística Descriptiva
En unaencuestarealizadaenun hospitalacercade la satisfacciónpor el tratorecibido durante el periodo de atención a 200 pacientes se ofrecen lassiguientes respuestas {Muy Baja, Baja, Normal, Alta, Muy Alta},obteniéndose los siguientes resultados:
x i n i
MB 8B 40
N i f i F i
8 0,04 0,0448 0,20 0,24
48 pacientes manifiestan una satisfacciónBaja o Muy Baja.
El 26% de los pacientesmanifiestanunaB 40N 52A 60
MA 40200
48 0,20 0,24100 0,26 0,50160 0,30 0,80200 0,20 1,00
El 26% de los pacientesmanifiestanunasatisfacción Normal.
El 50% de los pacientes manifiestan unasatisfacción Normal, Baja o Muy Baja.
BIOESTADISTICA
Tablas de frecuencias. Ejemplo IIITablas de frecuencias. Ejemplo IIIVariable cuantitativa
En una encuestarealizadasobre una población de 1509 familias se ha
Tema 3: Estadística Descriptivastadística Descriptiva
En una encuestarealizadasobre una población de 1509 familias se hatabulado, entre otras variables, el número de hijos, obteniéndose:x i n i
0 4191 2552 3753 2154 1275 54
N i
419674
1049126413911445
f i
0,2780,1690,2490,1420,0840,036
F i
0,2780,4470,6950,8380,9220,958
Hay 1264 familias con 3 o menos hijos.
El 24,9% de las familias tiene 2 hijos.
5 546 247 23>7 17
1509
1445146914921509
0,0360,0160,0150,011
0,9580,9730,9891,000 El 92,2% de las familias tiene 4 o menos hijos.
Para variables cuantitativas continuas, o discretas con unnúmero elevado demodalidades, se agrupan estas en intervalos o clases, empleando la marca de clase(centro del intervalo) como valor representativo para todoel intervalo.
BIOESTADISTICADepartamento de Epidemiología, Departamento de Epidemiología,
Análisis critico y Metodología de la investigaciónAnálisis critico y Metodología de la investigación
� Tema 3: Estadística Descriptiva
Guión:Guión:
1.1. Introducción a la estadística descriptiva.Introducción a la estadística descriptiva.
2.2. Organización de los datos: Tablas de Frecuencias.Organización de los datos: Tablas de Frecuencias.
3.3. Representación Grafica de Variables Categóricas.Representación Grafica de Variables Categóricas.
4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.
5.5. Representación Grafica de Variables Continuas.Representación Grafica de Variables Continuas.
BIOESTADISTICA
Análisis de una variable categórica:Análisis de una variable categórica:
Tema 3: Estadística Descriptivastadística Descriptiva
Los resultados de una variable categórica (p.ej.: tabaquismo) se pueden expresar en una tabla de frecuencias.
ni fi %
1: Nunca ha fumado 144 0,48 48
2: Exfumador/a 66 0,22 22
3: Fumador/a ocasional 9 0,03 3
4: Fumador/a diario 81 0,27 27
n=300 1
BIOESTADISTICA
Análisis de una variable categóricaAnálisis de una variable categórica
ni fi %i
1: Nunca ha fumado 144 0,48 48
Tema 3: Estadística Descriptivastadística Descriptiva
1: Nunca ha fumado 144 0,48 48
2: Exfumador/a 66 0,22 22
3: Fumador/a ocasional 9 0,03 3
4: Fumador/a diario 81 0,27 27
n=300 1 100
Σni= n
f = n / n
Tamaño total de la muestra
Proporción respecto al total de la muestra en unafi= ni / n
Σfi= 1
Proporción respecto al total de la muestra en unacategoría i
%i= fi * 100Porcentaje respecto al total de la muestra en unacategoría i
BIOESTADISTICABIOESTADISTICA
Representación gráfica de los datosRepresentación gráfica de los datos
Un segundo paso en el análisis estadístico de los datos, posterior a la tabla Un segundo paso en el análisis estadístico de los datos, posterior a la tabla
de frecuencias, lo constituye la presentación gráfica de los mismos, de frecuencias, lo constituye la presentación gráfica de los mismos,
Tema 3: Estadística Descriptivastadística Descriptiva
de frecuencias, lo constituye la presentación gráfica de los mismos, de frecuencias, lo constituye la presentación gráfica de los mismos,
eligiendo un gráfico adecuado a la naturaleza de los datos.eligiendo un gráfico adecuado a la naturaleza de los datos.
Variables cualitativasVariables cualitativas Los gráficos más usuales para representar variables Los gráficos más usuales para representar variables
de tipo nominal son el de tipo nominal son el diagrama de barrasdiagrama de barras y el y el diagrama de sectoresdiagrama de sectores..
Variables cuantitativasVariables cuantitativas Para las variables cuantitativas tiene sentido Para las variables cuantitativas tiene sentido
calcular frecuencias acumuladas, por lo que distinguiremos entre Gráficos calcular frecuencias acumuladas, por lo que distinguiremos entre Gráficos
Diferenciales, para frecuencias no acumuladas (absolutas o relativas) y Diferenciales, para frecuencias no acumuladas (absolutas o relativas) y
Gráficos Integrales, para frecuencias acumuladas (absolutas o relativas).Gráficos Integrales, para frecuencias acumuladas (absolutas o relativas).
BIOESTADISTICABIOESTADISTICA
Representación gráfica de los datosRepresentación gráfica de los datos
Para Para variables discretasvariables discretas empleamos el empleamos el diagrama de barrasdiagrama de barras, como gráfico , como gráfico
Tema 3: Estadística Descriptivastadística Descriptiva
Para Para variables discretasvariables discretas empleamos el empleamos el diagrama de barrasdiagrama de barras, como gráfico , como gráfico
diferencial, y una representación “en escalera”, como diagrama integral.diferencial, y una representación “en escalera”, como diagrama integral.
Para Para variables continuasvariables continuas empleamos el empleamos el histogramahistograma y el polígono de y el polígono de
frecuencias, como gráficos diferenciales, y el polígono de frecuencias frecuencias, como gráficos diferenciales, y el polígono de frecuencias
acumuladas como gráfico integral.acumuladas como gráfico integral.
BIOESTADISTICA
Representación de variables categóricasRepresentación de variables categóricas
La representación de variables categóricas (nominales y La representación de variables categóricas (nominales y
Tema 3: Estadística Descriptivastadística Descriptiva
La representación de variables categóricas (nominales y La representación de variables categóricas (nominales y
ordinales) se basa en dos tipos de gráficos:ordinales) se basa en dos tipos de gráficos:
Diagrama de barras Diagrama de sectores
BIOESTADISTICA
El diagrama de barrasEl diagrama de barras
Uso y contexto
Tema 3: Estadística Descriptivastadística Descriptiva
•• Sirve para mostrar diversas Sirve para mostrar diversas
proporciones, frecuencias, porcentajes proporciones, frecuencias, porcentajes
y compararlos.y compararlos.
•• Situaciones:Situaciones:
–– Diversas variables dicotómicasDiversas variables dicotómicas
Uso y contexto
ProcedimientoProcedimiento•• Eje horizontal: se representan las diversas variables o categorías (alfabéticamente, por Eje horizontal: se representan las diversas variables o categorías (alfabéticamente, por
tamaño,…)tamaño,…)
•• Eje vertical: se presentan las frecuencias (mín hasta máximo aprox.) o porcentajes (0Eje vertical: se presentan las frecuencias (mín hasta máximo aprox.) o porcentajes (0--100)100)
•• Se dibujan las barras verticales encima de cada grupo de modo que la altura de la barra Se dibujan las barras verticales encima de cada grupo de modo que la altura de la barra
represente (corresponder con un valor del eje vertical) la frecuencia o porcentaje de ese grupo. represente (corresponder con un valor del eje vertical) la frecuencia o porcentaje de ese grupo.
Las barras deben ser igual de anchas y separadas entre sí.Las barras deben ser igual de anchas y separadas entre sí.
BIOESTADISTICA
El diagrama de sectoresEl diagrama de sectores
Uso y contexto
Tema 3: Estadística Descriptivastadística Descriptiva
•• Sirve para mostrar diversas Sirve para mostrar diversas
frecuencias, proporciones o frecuencias, proporciones o
porcentajes y compararlos.porcentajes y compararlos.
•• Representa la descomposición de un Representa la descomposición de un
totaltotal
•• Situaciones:Situaciones:
–– Una variable politómicaUna variable politómica–– Una variable politómicaUna variable politómica
Procedimiento•• Para obtener el ángulo que cubre cada categoría de la variable se aplica una fórmula, que resulta Para obtener el ángulo que cubre cada categoría de la variable se aplica una fórmula, que resulta
en diferentes ángulos proporcionales a la frecuencia correspondiente:en diferentes ángulos proporcionales a la frecuencia correspondiente:
n
nii
×= 360α
BIOESTADISTICA
x i n i f i11
10
12
Diagrama de barras para variables cualitativasDiagrama de barras para variables cualitativas
LaLa alturaaltura dede lala barrabarra parapara cadacada
Tema 3: Estadística Descriptivastadística Descriptiva
x i n i f i
A 11 0,55O 4 0,20
AB 3 0,15B 2 0,10
20
43
2
0
2
4
6
8
10
A O AB B
LaLa alturaaltura dede lala barrabarra parapara cadacada
modalidadmodalidad haha dede serser
proporcionalproporcional aa lala frecuenciafrecuencia dede
lala mismamisma..
Diagrama de sectores para variables cualitativasDiagrama de sectores para variables cualitativasB
SeSe dividedivide elel círculocírculo enen sectoressectores dede modomodo queque aa cadacada
A55%
O20%
AB15%
B10%
A
O
AB
B
modalidadmodalidad lele correspondecorresponde unun ánguloángulo proporcionalproporcional aa susu
frecuenciafrecuencia..
n
nii
×= 360α
xi ni αi
A 11 198 º
O 4 72 º
AB 3 54 º
B 2 36 º
20
BIOESTADISTICADepartamento de Epidemiología, Departamento de Epidemiología,
Análisis critico y Metodología de la investigaciónAnálisis critico y Metodología de la investigación
� Tema 3: Estadística Descriptiva
Guión:Guión:
1.1. Introducción a la estadística descriptiva.Introducción a la estadística descriptiva.
2.2. Organización de los datos: Tablas de Frecuencias.Organización de los datos: Tablas de Frecuencias.
3.3. Representación Grafica de Variables Categóricas.Representación Grafica de Variables Categóricas.
4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.
5.5. Representación Grafica de Variables Continuas.Representación Grafica de Variables Continuas.
BIOESTADISTICA
¿Cómo podemos representarlos de forma útil?¿Cómo podemos representarlos de forma útil?
¿Cómo descubrir estructuras en un montón de datos desnudos?¿Cómo descubrir estructuras en un montón de datos desnudos?
¿Cómo resumir de forma básica los datos?¿Cómo resumir de forma básica los datos?
Tema 3: Estadística Descriptivastadística Descriptiva
¿Cómo resumir de forma básica los datos?¿Cómo resumir de forma básica los datos?
BIOESTADISTICA
Representación de variables cuantitativas continuasRepresentación de variables cuantitativas continuas
Desviación Típica = 0,3028
Tema 3: Estadística Descriptivastadística Descriptiva
Desviación Típica = 0,3028
Desviación Típica = 1,5138
Desviación Típica = 3,0277
BIOESTADISTICA
Cálculo de Parámetros EstadísticosCálculo de Parámetros Estadísticos
El tercer paso en el análisis estadístico de los datos, posterior a la tabla de El tercer paso en el análisis estadístico de los datos, posterior a la tabla de
Tema 3: Estadística Descriptivastadística Descriptiva
El tercer paso en el análisis estadístico de los datos, posterior a la tabla de El tercer paso en el análisis estadístico de los datos, posterior a la tabla de
frecuencias y a la elaboración de gráficos, lo constituye el cálculo, a partir frecuencias y a la elaboración de gráficos, lo constituye el cálculo, a partir
de los datos, de magnitudes capaces de capturar aspectos específicos de de los datos, de magnitudes capaces de capturar aspectos específicos de
la estructura de los mismos. Estos son los Parámetros Estadísticos.la estructura de los mismos. Estos son los Parámetros Estadísticos.
Los parámetros estadísticos tienen la virtud de condensar la información Los parámetros estadísticos tienen la virtud de condensar la información
existente en los datos mediante unos pocos números que faciliten la existente en los datos mediante unos pocos números que faciliten la existente en los datos mediante unos pocos números que faciliten la existente en los datos mediante unos pocos números que faciliten la
comprensión de la estructura interna de los datos, su interpretación y su comprensión de la estructura interna de los datos, su interpretación y su
comunicación a un tercero.comunicación a un tercero.
BIOESTADISTICA
Principales características de los datosPrincipales características de los datos
Tendencia central:Tendencia central: valores centrales representativos o en torno a valores centrales representativos o en torno a
Tema 3: Estadística Descriptivastadística Descriptiva
Tendencia central:Tendencia central: valores centrales representativos o en torno a valores centrales representativos o en torno a
los cuales se distribuyen los datos.los cuales se distribuyen los datos.
Posición:Posición: valores tales que un determinado porcentaje de valores valores tales que un determinado porcentaje de valores
queda por debajo de ellos.queda por debajo de ellos.
Dispersión: Dispersión: medida de lo alejados que están los datos de un valor medida de lo alejados que están los datos de un valor
en torno al cual se distribuyen.en torno al cual se distribuyen.
BIOESTADISTICA
Principales características de los datosPrincipales características de los datos
Simetría:Simetría: medida de hasta que punto la distribución de los datos a un medida de hasta que punto la distribución de los datos a un
Tema 3: Estadística Descriptivastadística Descriptiva
Simetría:Simetría: medida de hasta que punto la distribución de los datos a un medida de hasta que punto la distribución de los datos a un
lado de un valor central es imagen especular de la del otro lado.lado de un valor central es imagen especular de la del otro lado.
Apuntamiento:Apuntamiento: medida de hasta que punto algunos valores son más medida de hasta que punto algunos valores son más
frecuentes que el resto.frecuentes que el resto.
Concentración: Concentración: cuando la magnitud que se mide se considera como el cuando la magnitud que se mide se considera como el
resultado de un reparto las medidas de concentración miden el grado resultado de un reparto las medidas de concentración miden el grado
de equidad en el mismo.de equidad en el mismo.
BIOESTADISTICA
Medidas de tendencia central: Media (Aritmética)Medidas de tendencia central: Media (Aritmética)
LaLa mediamedia eses elel parámetroparámetro dede localizaciónlocalización centralcentral mámá usadousado concon elel objetivoobjetivo dede
resumirresumir unun conjuntoconjunto dede datosdatos aa partirpartir dede unun únicoúnico valorvalor queque enen ciertocierto modomodo seasea
Tema 3: Estadística Descriptivastadística Descriptiva
representativorepresentativo deldel conjuntoconjunto dede loslos valoresvalores dede loslos datosdatos..
LaLa mediamedia sese calculacalcula simplementesimplemente dividiendodividiendo elel resultadoresultado dede sumarsumar todostodos loslos
datosdatos porpor elel númeronúmero dede datosdatos yy susu interpretacióninterpretación eses lala dede unun valorvalor centralcentral..
LaLa mediamedia sese puedepuede considerarconsiderar comocomo unauna especieespecie dede centrocentro dede gravedadgravedad deldel
conjuntoconjunto dede loslos datos,datos, lolo cualcual sese puedepuede visualizarvisualizar suponiendosuponiendo queque sese disponendisponen
loslos datosdatos enen unauna barrabarra metálicametálica recta,recta, horizontalhorizontal yy concon pesopeso despreciable,despreciable,
asignandoasignando aa cadacada datodato unun mismomismo pesopeso yy tratandotratando dede imaginarimaginar enen queque puntopunto porporasignandoasignando aa cadacada datodato unun mismomismo pesopeso yy tratandotratando dede imaginarimaginar enen queque puntopunto porpor
debajodebajo dede lala barrabarra habríahabría queque situarsituar unun apoyoapoyo parapara queque lala barrabarra sese mantengamantenga enen
equilibrioequilibrio..
SiSi elel triángulotriángulo sese desplazadesplaza haciahacia lala izquierdaizquierda oo haciahacia lala derechaderecha elel equilibrioequilibrio seseromperompe..
BIOESTADISTICA
Cálculo de la mediaCálculo de la media
Tema 3: Estadística Descriptivastadística Descriptiva
Intervalo Xi (MC) ni Xini
Variable continuaDatos agrupados en intervalos
Variable discretaDatos con valores repetidos
I
II
nn
nXnXX
++++=
L
L
1
11
n
nXX
I
iii∑
== 1
Xi ni Xini
[0, 3[[3, 5[[5, 7[
[7, 8,5[[8,5, 10[
1,504,006,007,759,25
10152010560
15,0060,00120,0077,5046,25318,755,3125
i i
0 21 52 103 124 65 1
36
i i
052036245902,5
BIOESTADISTICA
Media geomMedia geoméétricatrica
LaLa usamosusamos cuandocuando tenemostenemos observacionesobservaciones dede unauna poblaciónpoblación muymuy
variables,variables, oo concon distribucionesdistribuciones asimétricasasimétricas positivaspositivas..
Tema 3: Estadística Descriptivastadística Descriptiva
variables,variables, oo concon distribucionesdistribuciones asimétricasasimétricas positivaspositivas..
TenemosTenemos queque transformartransformar cadacada valorvalor dede lala variablevariable aa unun logaritmologaritmo dede
basebase 1010 óó ee..
SeSe obtieneobtiene unauna mediamedia alal usouso concon esaesa escalaescala transformadatransformada yy sese obtieneobtiene elel
antilogaritmo,antilogaritmo, eseese resultadoresultado eses lala mediamedia geométricageométrica..antilogaritmo,antilogaritmo, eseese resultadoresultado eses lala mediamedia geométricageométrica..
)loglog( 10 xantixg =n
xx
n
ii∑
== 110
10
loglog
BIOESTADISTICA
Media ponderadaMedia ponderada
LaLa usamosusamos cuandocuando tenemostenemos observacionesobservaciones dentrodentro dede unauna variablevariable queque sonson
másmás importantesimportantes queque otrasotras..
Tema 3: Estadística Descriptivastadística Descriptiva
másmás importantesimportantes queque otrasotras..
SeSe asociaasocia unun pesopeso wiwi aa cadacada valorvalor dede lala variable,variable, xi,xi, parapara reflejarreflejar lala
importanciaimportancia queque sese dada aa esosesos valoresvalores..
∑n
xwSupongamosSupongamos queque estamosestamos interesadosinteresados enen determinardeterminar
lala estanciaestancia dede pacientespacientes enen loslos hospitaleshospitales dede unun
∑
∑
=
== n
ii
i ii
w
w
xwx
1
1lala estanciaestancia dede pacientespacientes enen loslos hospitaleshospitales dede unun
distrito,distrito, yy conocemosconocemos lala mediamedia dede cadacada hospitalhospital.. ParaPara
calcularcalcular enen elel totaltotal deldel distritodistrito podemospodemos hacerhacer usouso dede
estaesta media,media, cogiendocogiendo comocomo pesopeso elel totaltotal dede pacientespacientes
dede cadacada hospitalhospital..
BIOESTADISTICA
Medidas de tendencia central:Medidas de tendencia central: La ModaLa Moda
Tema 3: Estadística Descriptivastadística Descriptiva
Llamaremos Llamaremos modamoda a cualquier máximo relativo de la distribución de a cualquier máximo relativo de la distribución de
frecuencias, es decir, cualquier valor que posea una frecuencia frecuencias, es decir, cualquier valor que posea una frecuencia
mayor que su anterior y su posterior.mayor que su anterior y su posterior.
Es por tanto el valor Es por tanto el valor que mas se repiteque mas se repite dentro de la distribucióndentro de la distribución
BIOESTADISTICA
Medidas de tendencia central:Medidas de tendencia central: La ModaLa Moda
ParaPara variablesvariables continuas,continuas, agrupadasagrupadas enen intervalos,intervalos, puedepuede asumirseasumirse lala modamoda comocomolala marcamarca dede claseclase deldel intervalointervalo concon mayormayor alturaaltura enen elel histogramahistograma (intervalo(intervalo modal)modal)o,o, alternativamente,alternativamente, calcularsecalcularse aa partirpartir dede lala expresiónexpresión::
Tema 3: Estadística Descriptivastadística Descriptiva
Intervalo M.C. n i c i h i
o,o, alternativamente,alternativamente, calcularsecalcularse aa partirpartir dede lala expresiónexpresión::
ElEl subíndicesubíndice ii correspondecorresponde alal intervalointervalo concon mayormayor alturaaltura enen elel histogramahistograma..
( ) ( )11
1
+−
−
−+−−+=
iiii
iiii hhhh
hhcLModa
Intervalo M.C. n i c i h i
[0; 3[ 1,50 10 3,0 3,333[3; 5[ 4,00 15 2,0 7,5[5; 7[ 6,00 20 2,0 10
[7; 8,5[ 7,75 10 1,5 6,667[8,5; 10] 9,25 5 1,5 3,333
60
( ) ( )86,5
667,6105,710
5,71025
=−+−
−+=Moda
DeDe haberhaber tomadotomado lala marcamarca dede claseclase deldel intervalointervalo
modalmodal elel resultadoresultado habríahabría sidosido ModaModa == 66..
BIOESTADISTICA
Medidas de tendencia central:Medidas de tendencia central: La medianaLa mediana
LaLa medianamediana eses elel puntopunto enen queque lala Dada una muestrade n
Tema 3: Estadística Descriptivastadística Descriptiva
LaLa medianamediana eses elel puntopunto enen queque lala
muestra,muestra, ordenada,ordenada, sese dividedivide enen dosdos
partespartes dede igualigual tamañotamaño..
ElEl 5050%% dede loslos datosdatos estáestá porpor encimaencima
dede lala medianamediana yy elel otrootro 5050%% estáestá porpor
debajodebajo..
SiSi hayhay unun númeronúmero parpar dede datosdatos lala
medianamediana eses lala mediamedia aritméticaaritmética dede
No
Dada una muestrade nelementos, la ordenamosde menor a mayor.
¿ n par ?medianamediana eses lala mediamedia aritméticaaritmética dede
loslos dosdos datosdatos centralescentrales..
SiSi hayhay unun númeronúmero imparimpar dede datosdatos lala
medianamediana eses elel datodato centralcentral..
Si
BIOESTADISTICA
Calculo de la medianaCalculo de la mediana
Ejemplo 1 (n par)
( ) ( )166
++
datodato
Tema 3: Estadística Descriptivastadística Descriptiva
{5,8,9,15,25,40}
n = 6 datos ordenados.
( ) ( )
122
1592
º4º3
2
126
26
~
=+=
+=
++
= datodatodatodato
X
Ejemplo 2 (n impar)
{5,8,9,15,25}
n = 5 datos ordenados. ( ) 9º32
15~ ==
+= datodatoX
BIOESTADISTICA
Calculo de la mediana con datos discretos repetidosCalculo de la mediana con datos discretos repetidos
Xi ni
0 2Ni
2 Los dos primeros datos son 0.
Tema 3: Estadística Descriptivastadística Descriptiva
1 52 103 124 65 1
36
717293536
En total hay 36 datos, con lo que la mediana es la media de los datos 18º y 19º.
Desde el dato 3º hasta el 7º son 1.
Desde el dato 8º hasta el 17º son 2.
Desde el dato 18º hasta el 29º son 3.
Desde el dato 30º hasta el 35º son 4.
El dato 36º es 5.
Tanto el dato 18º como el dato 19º son 3, con lo que la mediana vale 3.
BIOESTADISTICA
Comparación de la media y la mediana (I)Comparación de la media y la mediana (I)
La media emplea todos los datos y es por tanto preferible si los datos son La media emplea todos los datos y es por tanto preferible si los datos son
homogéneos.homogéneos.
Tema 3: Estadística Descriptivastadística Descriptiva
homogéneos.homogéneos.
La media es muy sensible a observaciones extremas, de manera que un error o un La media es muy sensible a observaciones extremas, de manera que un error o un
valor anormal puede modificarla totalmente.valor anormal puede modificarla totalmente.
La mediana utiliza menos información que la media, ya que sólo tiene en cuenta el La mediana utiliza menos información que la media, ya que sólo tiene en cuenta el
orden de los datos.orden de los datos.
En general la mediana no se ve afectada por una observación (o una pequeña En general la mediana no se ve afectada por una observación (o una pequeña
parte de las observaciones) contiene grandes errores de medida o de trascripción parte de las observaciones) contiene grandes errores de medida o de trascripción
(es más robusta que la media).(es más robusta que la media).
BIOESTADISTICA
Comparación de la media y la mediana (II)Comparación de la media y la mediana (II)
En general es recomendable calcular tanto la media como la mediana, ya que En general es recomendable calcular tanto la media como la mediana, ya que
ofrecen información complementaria.ofrecen información complementaria.
Tema 3: Estadística Descriptivastadística Descriptiva
ofrecen información complementaria.ofrecen información complementaria.
La media y la mediana diferirán mucho cuando la distribución sea muy asimétrica La media y la mediana diferirán mucho cuando la distribución sea muy asimétrica
y coincidirán si los datos son simétricos.y coincidirán si los datos son simétricos.
Media < Mediana sugiere asimetría negativa (cola a la izquierda).Media < Mediana sugiere asimetría negativa (cola a la izquierda).
Media > Mediana sugiere asimetría positiva (cola a la derecha).Media > Mediana sugiere asimetría positiva (cola a la derecha).
BIOESTADISTICA
Uso de medidas de tendencia centralUso de medidas de tendencia central
•• NoNo sese puedenpueden realizarrealizar operacionesoperaciones concon variablesvariables nominales,nominales, lala mediamedia
Tema 3: Estadística Descriptivastadística Descriptiva
•• NoNo sese puedenpueden realizarrealizar operacionesoperaciones concon variablesvariables nominales,nominales, lala mediamedia
sólosólo sese puedepuede calcularcalcular parapara variablesvariables numéricasnuméricas (escala(escala intervalointervalo oo
razón)razón)..
•• LaLa medianamediana nono requiererequiere sumasuma dede observaciones,observaciones, puedepuede serser utilizadautilizada
concon datosdatos numéricosnuméricos yy ordinales,ordinales, peropero nono concon datosdatos nominalesnominales..
•• LaLa modamoda puedepuede serser utilizadautilizada concon cualquiercualquier variablevariable..
•• LaLa mediamedia eses afectadaafectada porpor valoresvalores extremos,extremos, lala medianamediana nono..
•• ConCon datosdatos distribuidosdistribuidos dede formaforma simétrica,simétrica, lala mediamedia yy lala medianamediana•• ConCon datosdatos distribuidosdistribuidos dede formaforma simétrica,simétrica, lala mediamedia yy lala medianamediana
coincidencoinciden prácticamenteprácticamente..
BIOESTADISTICA
Medidas de posición: los PercentilesMedidas de posición: los Percentiles
•• La mediana divide los datos en La mediana divide los datos en dos partes igualesdos partes iguales (con el mismo (con el mismo
número de datos).número de datos).
Tema 3: Estadística Descriptivastadística Descriptiva
número de datos).número de datos).
•• También se puede dividir los datos en También se puede dividir los datos en másmás de dos partes.de dos partes.
•• Cuando se divide un conjunto ordenado de datos en Cuando se divide un conjunto ordenado de datos en cuatro partescuatro partes
iguales los 3 puntos de división se conocen como cuartiles (Q1, Q2 y iguales los 3 puntos de división se conocen como cuartiles (Q1, Q2 y
Q3).Q3).
•• El El primer cuartilprimer cuartil, o cuartil inferior, Q1, es un valor que tiene , o cuartil inferior, Q1, es un valor que tiene •• El El primer cuartilprimer cuartil, o cuartil inferior, Q1, es un valor que tiene , o cuartil inferior, Q1, es un valor que tiene
aproximadamente la cuarta parte de los datos (el 25%) por debajo de aproximadamente la cuarta parte de los datos (el 25%) por debajo de
él, y el 75% restante por encima.él, y el 75% restante por encima.
•• El El segundo cuartilsegundo cuartil, Q2, tiene por debajo aproximadamente la mitad , Q2, tiene por debajo aproximadamente la mitad
de los datos (coincide con la mediana).de los datos (coincide con la mediana).
BIOESTADISTICA
•• El El tercer cuartiltercer cuartil, o cuartil superior, Q3, es un valor que tiene , o cuartil superior, Q3, es un valor que tiene
aproximadamente el 75% de los datos por debajo de él, y el 25% aproximadamente el 75% de los datos por debajo de él, y el 25%
Medidas de posición: los Percentiles (continuación)Medidas de posición: los Percentiles (continuación)
Tema 3: Estadística Descriptivastadística Descriptiva
aproximadamente el 75% de los datos por debajo de él, y el 25% aproximadamente el 75% de los datos por debajo de él, y el 25%
restante por encima.restante por encima.
•• Si en lugar de dividir el conjunto de datos en 2 ó en 4 partes del Si en lugar de dividir el conjunto de datos en 2 ó en 4 partes del
mismo tamaño se divide en mismo tamaño se divide en 100 partes100 partes los puntos de división se los puntos de división se
denominan denominan percentilespercentiles..
•• El percentil El percentil kk--ésimoésimo se denota Pk.se denota Pk.
•• Es evidente que tanto la mediana como los cuartiles son casos Es evidente que tanto la mediana como los cuartiles son casos
particulares de los percentiles, con lo que sólo necesitamos saber particulares de los percentiles, con lo que sólo necesitamos saber
como se calculan los percentiles.como se calculan los percentiles.
BIOESTADISTICA
Cálculo del percentil kCálculo del percentil k--ésimo para variables discretasésimo para variables discretas
1.1. CalcularCalcular lala posiciónposición:: PosPos == kk××nn // 100100..
2.2. SiSi PosPos eses unun númeronúmero enteroentero PkPk eses elel promediopromedio dede loslos datosdatos queque ocupanocupan laslas
Tema 3: Estadística Descriptivastadística Descriptiva
2.2. SiSi PosPos eses unun númeronúmero enteroentero PkPk eses elel promediopromedio dede loslos datosdatos queque ocupanocupan laslasposicionesposiciones PosPos yy Pos+Pos+11..
3.3. SiSi PosPos eses decimal,decimal, PkPk eses elel datodato queque ocupaocupa lala posiciónposición [Pos+[Pos+11],], concon [[ aa ]]indicandoindicando lala parteparte enteraentera dede aa..
Ejemplo Calcula los percentiles 5, 90 y 26 para los siguientes datos:
Xi ni Ni
0 2 2 Pos=5×40/100=2( ) ( )
5,010º3º2
5 =+=+= datodatoP0 2 2
1 6 82 10 183 13 314 6 375 3 40
40
Pos=5×40/100=2 5,0225 ===P
Pos=90×40/100=36( ) ( )
42
44
2
º37º3690 =+=+= datodato
P
Pos=26×40/100=10,4 ( ) 2º1126 == datoP
BIOESTADISTICA
Cálculo del percentil kCálculo del percentil k--ésimo para variables continuasésimo para variables continuas
Intervalo n i N i
[0; 3[ 10 10[3; 5[ 15 25
ParaPara calcularcalcular elel percentilpercentil kk--ésimo,ésimo, Pk,Pk,
seleccionamosseleccionamos elel intervalointervalo ii--ésimoésimo dede maneramanera
Tema 3: Estadística Descriptivastadística Descriptiva
[3; 5[ 15 25[5; 7[ 20 45
[7; 8,5[ 10 55[8,5; 10] 5 60
60
seleccionamosseleccionamos elel intervalointervalo ii--ésimoésimo dede maneramanera
queque eses elel primerprimer intervalointervalo parapara elel queque NiNi eses
mayormayor oo igualigual aa kk ×× nn // 100100..
Nº total de individuos.
Nº de datos acumulados antes del intervalo seleccionado.
Extremo inferior del intervalo seleccionado.
Ancho del intervalo seleccionado.Nº de datos en el intervalo seleccionado.
BIOESTADISTICA
Ejemplo de cálculo de percentiles con variables continuasEjemplo de cálculo de percentiles con variables continuasCalculaCalcula lala medianamediana,, elel primerprimer cuartilcuartil yy elel percentilpercentil
88 parapara loslos datosdatos deldel pesopeso dede 5757 niñosniños..i
i
iik n
Nk
ncLP
1100 −−+=
Tema 3: Estadística Descriptivastadística Descriptiva
Intervalo ni Ni
[10, 20[ 5 5[20, 30[ 19 24[30, 40[ 10 34[40, 50[ 13 47
in
Mediana: Pos =57×50/100 = 28,5. Intervalo: [30; 40[
5,3410
2410050
571030
~50 =
−+== PX
Q1: Pos= 57×25/100 = 14,25. Intervalo: [20; 30[
525
57 −[40, 50[ 13 47[50, 60[ 4 51[60, 70[ 4 55[70, 80] 2 57
57
9,2419
5100
571020251 =
−+== PQ
P8: Pos= 57×8/100 = 4,56. Intervalo: [10; 20[
12,195
01008
5710108 =
−+=P
BIOESTADISTICA
Medidas de DispersiónMedidas de Dispersión
ConsideramosConsideramos laslas calificacionescalificaciones dede unun examenexamen parapara dosdos gruposgrupos dede 1010 alumnosalumnos::
Grupo 1 5 3 5 6 4 6 6 5 6 4Grupo 1 5 3 5 6 4 6 6 5 6 4
Tema 3: Estadística Descriptivastadística Descriptiva
EsEs fácilfácil comprobarcomprobar queque enen ambosambos gruposgrupos lala calificacióncalificación mediamedia eses 55,, aunqueaunque sese
Grupo 10 1 2 3 4 5 6 7 8 9 10
Grupo 10 1 2 3 4 5 6 7 8 9 10
Grupo 20 1 2 3 4 5 6 7 8 910
Grupo 20 1 2 3 4 5 6 7 8 910
Grupo 1 5 3 5 6 4 6 6 5 6 4Grupo 2 1 2 9 1 8 7 7 2 9 4Grupo 1 5 3 5 6 4 6 6 5 6 4Grupo 2 1 2 9 1 8 7 7 2 9 4
EsEs fácilfácil comprobarcomprobar queque enen ambosambos gruposgrupos lala calificacióncalificación mediamedia eses 55,, aunqueaunque sese
distribuyendistribuyen dede formaforma muymuy diferente,diferente, yaya queque enen elel segundosegundo grupogrupo hayhay mayormayor
dispersión,dispersión, mientrasmientras queque enen elel primerprimer grupogrupo laslas calificacionescalificaciones estánestán másmás
concentradasconcentradas (alrededor(alrededor dede lala media)media)..
LasLas medidasmedidas dede dispersióndispersión sirvensirven parapara medirmedir lala variabilidadvariabilidad dede loslos datosdatos
alrededoralrededor dede susu “centro“centro dede masas”masas” (la(la media)media)..
BIOESTADISTICA
El RangoEl Rango
Tema 3: Estadística Descriptivastadística Descriptiva
Medidas de DispersiónMedidas de Dispersión
El RangoEl Rango
•• EsEs lala diferenciadiferencia entreentre lala mayormayor yy lala menormenor observaciónobservación::
•• EsEs fácilfácil dede calcular,calcular, peropero ignoraignora casicasi todatoda lala informacióninformación dede lala muestramuestra..
•• EsEs muymuy sensiblesensible aa valoresvalores extremosextremos..
MinMaxR −=
BIOESTADISTICA
El RangoEl Rango
Medidas de DispersiónMedidas de Dispersión
Tema 3: Estadística Descriptivastadística Descriptiva
DeficienciasDeficiencias::
IgnoraIgnora lala mayormayor parteparte dede observaciones,observaciones, sólosólo sese utilizanutilizan dosdos valoresvalores..
SeSe necesitanecesita unun estadísticoestadístico queque utiliceutilice másmás valoresvalores..
El RangoEl Rango
SuSu valorvalor dependedepende indirectamenteindirectamente deldel tamañotamaño dede lala muestramuestra..
NoNo debedebe dependerdepender deldel tamañotamaño dede lala muestramuestra
BIOESTADISTICA
El Rango IntercuartílicoEl Rango Intercuartílico
Tema 3: Estadística Descriptivastadística Descriptiva
Medidas de DispersiónMedidas de Dispersión
•• SuSu definicióndefinición eses análogaanáloga aa lala deldel Rango,Rango, peropero eliminandoeliminando lala cuartacuarta parteparte dede
loslos datosdatos dede cadacada extremo,extremo, despuésdespués dede ordenarordenar loslos datosdatos dede menormenor aa
mayormayor..
•• AA partirpartir dede lala definicióndefinición eses fácilfácil verver queque::
•• EsEs másmás difícildifícil dede calcularcalcular queque elel rango,rango, peropero eses menosmenos sensiblesensible aa valoresvalores
extremosextremos..extremosextremos..
13 QQRI −=
BIOESTADISTICA
Generalización del Rango IntercuartílicoGeneralización del Rango Intercuartílico
Tema 3: Estadística Descriptivastadística Descriptiva
Medidas de DispersiónMedidas de Dispersión
•• SeSe puedepuede generalizargeneralizar:: RangoRango interquintílico,interquintílico, interdecílico,interdecílico, ……,, o,o, enen
general,general, parapara cualquiercualquier kk enen ]]00,, 5050[,[, sese puedepuede definirdefinir::
PPR −=
Generalización del Rango IntercuartílicoGeneralización del Rango Intercuartílico
kkk PPR −= −100
BIOESTADISTICA
La VarianzaLa Varianza
Tema 3: Estadística Descriptivastadística Descriptiva
Medidas de DispersiónMedidas de Dispersión
DadoDado unun conjuntoconjunto formadoformado porpor nn datos,datos, lala varianzavarianza eses elel promediopromedio dede loslos
cuadradoscuadrados dede laslas distanciasdistancias dede loslos datosdatos aa lala mediamedia::
BIOESTADISTICA
La Desviación TípicaLa Desviación Típica
Tema 3: Estadística Descriptivastadística Descriptiva
Medidas de DispersiónMedidas de Dispersión
LasLas unidadesunidades dede lala varianzavarianza coincidencoinciden concon laslas dede loslos datos,datos, peropero elevadaselevadas alal
cuadrado,cuadrado, porpor elloello eses másmás sencillosencillo emplearemplear lala raízraíz cuadradacuadrada dede lala varianza,varianza, aa lala
queque sese denominadenomina DesviaciónDesviación TípicaTípica..
LaLa desviacióndesviación típicatípica verificaverifica lala propiedadpropiedad dede queque enen elel intervalointervalo
sese encuentranencuentran alal menosmenos elel 7575%% dede loslos datosdatos..σ2±X
BIOESTADISTICA
Cálculo abreviado de la varianzaCálculo abreviado de la varianza
( ) ( ) nXXnXnXnXXnXnXXXnI
iii
I
ii
I
iii
I
iiiiii
I
iii ∑∑∑∑∑
=====
−+=
−+=
−= 11
2
1
2
1
22
1
2
2
22σ
Tema 3: Estadística Descriptivastadística Descriptiva
nnniiiii ===== === 11111σ
La varianza se puede calcular como la media delos cuadrados menos el cuadrado de la media.
Xi ni
0 21 62 10
Xini
0620
Xi2ni
0640
Varianza
2 103 134 65 3
40
203924151042,6
4011796753348,35
n X 2X
Desviacióntípica
Para variables continuas agrupadas enintervalos se hace lo mismo, pero empleandolas marcas de clase.
BIOESTADISTICA
Uso conjunto de la media y la desviación típicaUso conjunto de la media y la desviación típica
A los conjuntos de datos unimodales ysimétricos,o ligeramenteasimétricos,
Tema 3: Estadística Descriptivastadística Descriptiva
simétricos,o ligeramenteasimétricos,les llamaremos datosnormales (estolo matizaremos posteriormente).
μμ–σ μ+2σ μ+3σμ–2σμ–3σ μ+σ
68%95%
99%
Para los conjuntos de datos normalesse puede conocer, de maneraaproximada, el porcentaje de datosque hay en intervalos de la forma:
[ ]σµσµσµ kkk +−≡± ;
μ –3σ μμ –2σ μ +2σμ +σμ –σ μ +3σ
68%95%99%
–inf +inf······0,5%
······0,5% 13,5%2%
μ +σ μ +2σ μ +3σ34% 34% 13,5% 2%
μμ –σμ –2σμ –3σ
[ ]σµσµσµ kkk +−≡± ;
BIOESTADISTICA
El Coeficiente de VariaciónEl Coeficiente de Variación
AlAl estimarestimar “a“a ojo”ojo” unauna distanciadistancia cometemoscometemos unun errorerror dede 11 m,m, ¿es¿es unun errorerror muymuy
grande?grande?..
Tema 3: Estadística Descriptivastadística Descriptiva
grande?grande?..
ImaginemosImaginemos queque lala distanciadistancia queque estábamosestábamos estimandoestimando correspondecorresponde alal anchoancho
dede unauna habitaciónhabitación yy queque elel verdaderoverdadero valorvalor eses dede 44 mm..
¿Y¿Y sisi lala distanciadistancia aa estimarestimar eraera lala existenteexistente entreentre MadridMadrid yy Valencia?Valencia?..
ElEl mismomismo problemaproblema queque surgesurge alal compararcomparar erroreserrores parapara magnitudesmagnitudes diferentesdiferentes
surgesurge alal compararcomparar laslas desviacionesdesviaciones típicastípicas dede conjuntosconjuntos dede datosdatos
correspondientescorrespondientes aa datosdatos dede diferentediferente naturalezanaturaleza oo expresadosexpresados enen diferentesdiferentes
unidadesunidades..unidadesunidades..
UnaUna posibleposible soluciónsolución eses eliminareliminar lala dimensionalidaddimensionalidad dede lala desviacióndesviación típicatípica
dividiéndoladividiéndola porpor lala mediamedia dede loslos datos,datos, obteniendoobteniendo elel llamadollamado coeficientecoeficiente dede
variaciónvariación..
BIOESTADISTICA
Puntuaciones TípicasPuntuaciones Típicas
•• EnEn ocasionesocasiones queremosqueremos compararcomparar dosdos valoresvalores siendosiendo queque vienenvienen dede conjuntosconjuntos
dede datosdatos diferentesdiferentes.. EstoEsto sucede,sucede, porpor ejemplo,ejemplo, cuandocuando queremosqueremos compararcomparar lala
Tema 3: Estadística Descriptivastadística Descriptiva
dede datosdatos diferentesdiferentes.. EstoEsto sucede,sucede, porpor ejemplo,ejemplo, cuandocuando queremosqueremos compararcomparar lala
notanota queque hemoshemos obtenidoobtenido enen EstadísticaEstadística concon lala queque hemoshemos obtenidoobtenido enen
InformáticaInformática..
•• SupongamosSupongamos queque RemigioRemigio haha obtenidoobtenido unun 66 enen EstadísticaEstadística yy unun 88 enen Informática,Informática,
¿podemos¿podemos decirdecir queque tienetiene másmás méritomérito lala notanota dede InformáticaInformática queque lala dede
EstadísticaEstadística porpor serser mayor?mayor?..
•• EnEn realidadrealidad necesitamosnecesitamos medirmedir lala dificultaddificultad dede cadacada asignaturaasignatura parapara poderpoder
pronunciarnospronunciarnos..pronunciarnospronunciarnos..
•• SiSi lala notanota mediamedia enen EstadísticaEstadística parapara elel grupogrupo dede RemigioRemigio eses µµEstEst == 44 yy lala
desviacióndesviación típicatípica eses σσEstEst == 11 RemigioRemigio haha obtenidoobtenido unauna notanota enen EstadísticaEstadística queque
superasupera aa lala mediamedia enen dosdos desviacionesdesviaciones típicas,típicas, eses decir,decir, sisi loslos datosdatos sonson
“normales”“normales” RemigioRemigio supera,supera, aproximadamente,aproximadamente, alal 9797,,55%% dede sussus compañeroscompañeros.
BIOESTADISTICA
•• SiSi lala notanota mediamedia enen InformáticaInformática eses µµInfInf == 66 yy lala desviacióndesviación típicatípica eses σσInfInf == 22
RemigioRemigio haha obtenidoobtenido unauna notanota enen InformáticaInformática queque superasupera aa lala mediamedia enen unauna
Puntuaciones Típicas (continuación)Puntuaciones Típicas (continuación)
Tema 3: Estadística Descriptivastadística Descriptiva
RemigioRemigio haha obtenidoobtenido unauna notanota enen InformáticaInformática queque superasupera aa lala mediamedia enen unauna
desviacióndesviación típica,típica, eses decir,decir, sisi loslos datosdatos sonson “normales”“normales” RemigioRemigio supera,supera,
aproximadamente,aproximadamente, alal 8484%% dede sussus compañeroscompañeros..
•• EnEn resumen,resumen, RemigioRemigio destacadestaca másmás porpor susu notanota enen EstadísticaEstadística (supera(supera alal 9797,,55%%
dede sussus compañeros)compañeros) queque porpor susu notanota enen InformáticaInformática (supera(supera alal 8484%% dede sussus
compañeros),compañeros), pesepese aa serser menormenor lala primeraprimera queque lala segundasegunda..
•• UnaUna formaforma dede compararcomparar valoresvalores procedentesprocedentes dede diferentesdiferentes conjuntosconjuntos dede datosdatos eses
indicarindicar lala posiciónposición relativarelativa dede cadacada datodato enen relaciónrelación aa lala mediamedia deldel conjuntoconjunto deldelindicarindicar lala posiciónposición relativarelativa dede cadacada datodato enen relaciónrelación aa lala mediamedia deldel conjuntoconjunto deldel
queque procedeprocede yy medidamedida enen númeronúmero dede desviacionesdesviaciones típicastípicas.. AA estosestos valoresvalores lele
llamaremosllamaremos puntuacionespuntuaciones típicastípicas..
•• DadoDado unun conjuntoconjunto dede datosdatos concon mediamedia µµ yy desviacióndesviación típicatípica σσ,, parapara unun datodato deldel
conjunto,conjunto, x,x, definimosdefinimos susu puntuaciónpuntuación típica,típica, z,z, comocomo::
σµ−= x
z
BIOESTADISTICA
UnUn alumnoalumno sese haha examinadoexaminado dede MatemáticasMatemáticas yy Estadística,Estadística, dede maneramanera queque loslosresultadosresultados deldel alumno,alumno, juntojunto aa lala mediamedia yy lala desviacióndesviación típicatípica dede cadacada asignatura,asignatura,aparecenaparecen enen lala siguientesiguiente tablatabla::
Puntuaciones Típicas (ejemplo)Puntuaciones Típicas (ejemplo)
Tema 3: Estadística Descriptivastadística Descriptiva
aparecenaparecen enen lala siguientesiguiente tablatabla::
Nota Alumno
Media de la clase
Desviación Típica
Matemáticas 8 7,5 2Estadística 6 4,2 0,75
¿En cuál de las dos pruebas haobtenido el alumno mejor resultado,comparativamente con el resto de suscompañeros?
25,02
5,78 =−=Matz 40,275,0
2,46 =−=Estz
VemosVemos que,que, comparativamentecomparativamente concon elel restoresto dede sussus compañeros,compañeros, elel alumnoalumnoVemosVemos que,que, comparativamentecomparativamente concon elel restoresto dede sussus compañeros,compañeros, elel alumnoalumnopresentapresenta unun mayormayor rendimientorendimiento enen EstadísticaEstadística queque enen MatemáticasMatemáticas..
EnEn MatemáticasMatemáticas superasupera lala mediamedia enen 00,,2525 vecesveces lala desviacióndesviación típicatípica yy enen EstadísticaEstadísticalala superasupera enen 22,,4040 vecesveces lala desviacióndesviación típicatípica.. Matemáticas
0,25Estadística
2,4
-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3
BIOESTADISTICA
Medidas de AsimetríaMedidas de AsimetríaLaLa observaciónobservación dede unun histograma,histograma, unun diagramadiagrama dede barrasbarras oo unun diagramadiagrama dede cajacaja
sonson suficientessuficientes parapara apreciarapreciar lolo simétricossimétricos oo asimétricosasimétricos queque sonson unosunos datosdatos::
Tema 3: Estadística Descriptivastadística Descriptiva
UnaUna distribucióndistribución dede frecuenciasfrecuencias eses simétricasimétrica sisi elel ladolado derechoderecho dede lala gráficagráfica eses lala
imagenimagen especularespecular deldel ladolado izquierdoizquierdo..
Simétrica Asimetría Positiva Asimetría Negativa
imagenimagen especularespecular deldel ladolado izquierdoizquierdo..
SiSi laslas frecuenciasfrecuencias deldel ladolado izquierdoizquierdo sonson másmás altasaltas queque laslas deldel derechoderecho (cola(cola aa lala
derecha)derecha) diremosdiremos queque hayhay AsimetríaAsimetría PositivaPositiva.. EnEn elel casocaso opuestoopuesto (cola(cola aa lala
izquierda)izquierda) diremosdiremos queque hayhay AsimetríaAsimetría NegativaNegativa..
SiSi unauna distribucióndistribución eses simétricasimétrica:: existeexiste elel mismomismo númeronúmero dede valoresvalores aa lala derechaderecha
queque aa lala izquierdaizquierda dede lala media,media, concon lolo queque lala mediamedia coincidirácoincidirá concon lala medianamediana..
BIOESTADISTICA
LasLas distribucionesdistribuciones dede frecuenciasfrecuencias puedenpueden clasificarseclasificarse enen::
SimétricasSimétricas -->> valorvalor dede asimetría,asimetría, AsAs.. == 00
Medidas de AsimetríaMedidas de Asimetría
Tema 3: Estadística Descriptivastadística Descriptiva
SimétricasSimétricas -->> valorvalor dede asimetría,asimetría, AsAs.. == 00
AsimétricasAsimétricas positivaspositivas -->> valorvalor dede asimetría,asimetría, AsAs.. >> 00
AsimétricasAsimétricas negativasnegativas -->> valorvalor dede asimetría,asimetría, AsAs.. << 00
cola a la derechacola a la izquierda
Simétrica Asimetría Positiva Asimetría Negativa
31
3)(.
sn
xxnAs
n
imii
⋅
−=∑
= Cuando es mayor en valor absoluto que 0,20 Cuando es mayor en valor absoluto que 0,20
podemos decir que es asimétrica. podemos decir que es asimétrica.
BIOESTADISTICA
SiSi unauna distribucióndistribución eses simétricasimétrica:: CadaCada desviacióndesviación positivapositiva concon respectorespecto aa lala mediamedia
coincidirácoincidirá concon unauna desviacióndesviación negativanegativa dede lala mismamisma magnitudmagnitud..
Medidas de Asimetría (continuación)Medidas de Asimetría (continuación)
I
Tema 3: Estadística Descriptivastadística Descriptiva
( )n
nxxI
iii∑
=
−1
UnaUna primeraprimera ideaidea parapara medirmedir
lala asimetríaasimetría podríapodría serser::
ElevarElevar laslas diferenciasdiferencias aa unun exponenteexponente parpar tampocotampoco eses útil,útil,
porqueporque perdemosperdemos elel signo,signo, concon lolo queque lala soluciónsolución naturalnatural
eses elevarelevar alal cubocubo laslas diferencias,diferencias, obteniendoobteniendo elel llamadollamado
momentomomento centralcentral dede tercertercer ordenorden::
( )n
nxxm
I
iii∑
=
−= 1
3
3
PeroPero esteeste estadísticoestadístico siempresiempre valevale
cerocero (por(por lala definicióndefinición dede media)media)..
momentomomento centralcentral dede tercertercer ordenorden::
ParaPara elel momentomomento centralcentral dede ordenorden 33 sese compruebacomprueba facilmentefacilmente queque::
••SiSi mm33 == 00 →→ lala distribucióndistribución eses simétricasimétrica..
••SiSi mm33 >> 00 →→ lala distribucióndistribución tienetiene asimetríaasimetría positivapositiva..
••SiSi mm33 << 00 →→ lala distribucióndistribución tienetiene asimetríaasimetría negativanegativa..
BIOESTADISTICA
El coeficiente de Asimetría de FisherEl coeficiente de Asimetría de Fisher
LaLa medidamedida dede lala asimetríaasimetría definidadefinida comocomo mm33 tienetiene unun serioserio inconvenienteinconveniente:: estáestá
expresadaexpresada enen laslas mismasmismas unidadesunidades queque loslos datos,datos, peropero elevadaselevadas alal cubo,cubo, porpor lolo
Tema 3: Estadística Descriptivastadística Descriptiva
expresadaexpresada enen laslas mismasmismas unidadesunidades queque loslos datos,datos, peropero elevadaselevadas alal cubo,cubo, porpor lolo
queque seráserá dependientedependiente deldel cambiocambio dede escalaescala..
ParaPara conseguirconseguir unun coeficientecoeficiente adimensionaladimensional sese construyeconstruye elel coeficientecoeficiente dede
asimetríaasimetría dede FisherFisher queque denotamosdenotamos porpor gg11::
( )1
3−∑=
n
nxx
m
n
iii
( )323 23 xxxx +−
( )23
1
233
1
−==
∑=
n
nxx
nmg
n
iii
σ( )
( )( ) 2322
323
1
23
xx
xxxxg
−
+−=
BIOESTADISTICA
Cálculo del Índice de Asimetría de FisherCálculo del Índice de Asimetría de Fisher
X i n i
0 2
X i n i X i2 n i X i
3 n i
0 0 0
Tema 3: Estadística Descriptivastadística Descriptiva
1 62 103 134 65 3
40
0 0 06 6 620 40 8039 117 35124 96 38415 75 375104 334 1.196 Para datos continuos agrupadas en
intervalos se hace lo mismo, peroempleandolasmarcasdeclase.
2,6 8,35 29,90
x 2x 3x
( )( )( ) 2322
323
1
23
xx
xxxxg
−
+−= ( ) 0389,06,235,8
6,226,235,839,29232
3
−=−
×+××−=
empleandolasmarcasdeclase.x 2x 3x
BIOESTADISTICA
Otras medidas de AsimetríaOtras medidas de Asimetría
CoeficienteCoeficiente dede KarlKarl PearsonPearson
Tema 3: Estadística Descriptivastadística Descriptiva
ParaPara distribucionesdistribuciones campaniformes,campaniformes, unimodalesunimodales yy moderadamentemoderadamente asimétricasasimétricas..
SeSe empleanemplean dosdos medidasmedidas alternativasalternativas queque sonson aproximadamenteaproximadamente igualesiguales::
σModax
Ap
−= ( )σ
xxAp
~3 −=
Coeficiente de Yule Bowley Coeficiente absoluto de asimetríaCoeficiente de Yule Bowley
( ) ( )( )13
1223
QQQQAs −
−−−=
Coeficiente absoluto de asimetría
σ213 2QQQ
AB
−+=
BIOESTADISTICA
Medida del ApuntamientoMedida del Apuntamiento
UnaUna vezvez determinadadeterminada lala simetríasimetría tienetiene interésinterés sabersaber sisi lala distribucióndistribución dede
frecuenciasfrecuencias eses “muy“muy apuntada”apuntada” oo sisi eses “muy“muy aplastada”aplastada” o,o, porpor sisi nono sese dada ningunaninguna
Tema 3: Estadística Descriptivastadística Descriptiva
frecuenciasfrecuencias eses “muy“muy apuntada”apuntada” oo sisi eses “muy“muy aplastada”aplastada” o,o, porpor sisi nono sese dada ningunaninguna
dede laslas dosdos situacionessituaciones..
ElEl patrónpatrón dede referenciareferencia parapara discernirdiscernir entreentre laslas dosdos situacionessituaciones mencionadasmencionadas lolo
constituyeconstituye lala “distribución“distribución normal”normal” (más(más adelanteadelante sese tratarátratará enen detalledetalle lala
distribucióndistribución normal)normal)..
NormalAplastada Apuntada
BIOESTADISTICA
Medida del Apuntamiento: La curtosisMedida del Apuntamiento: La curtosis
Para medir el apuntamiento emplearemos elcoeficiente de aplastamiento de Fisher ocurtosis, quesedefineapartirdela expresión:
Tema 3: Estadística Descriptivastadística Descriptiva
curtosis, quesedefineapartirdela expresión:
( )n
nxxm
I
iii∑
=
−= 1
4
4
m4 es el momentocentral de cuarto orden:
A partir del valor deγ2 se clasifican las distribuciones de frecuencias como:
02 <γ Platicúrtica : menos apuntada que la normal.02 <γ
02 =γ
02 >γ Leptocúrtica: más apuntada que la normal.
Mesocúrtica: tan apuntada como normal.
Platicúrtica : menos apuntada que la normal.
Sólo se calculará la curtosis para distribuciones cuya simetría se haya constatado.
BIOESTADISTICA
Curtosis o apuntamiento
Las distribuciones de frecuencias pueden clasificarse por su
Tema 3: Estadística Descriptivastadística Descriptiva
altura en:– Platicúrticas -> valor de curtosis, K < 0– Mesocúrticas-> valor de curtosis, K = 0– Leptocúrticas-> valor de curtosis, K > 0
3)(
41
4
−⋅
−=∑
=
sn
xxnK
n
imii Cuando es mayor en valor absoluto que 0,20 podemos
decir que es asimétrica.
NormalAplastada Apuntada
BIOESTADISTICADepartamento de Epidemiología, Departamento de Epidemiología,
Análisis critico y Metodología de la investigaciónAnálisis critico y Metodología de la investigación
� Tema 3: Estadística Descriptiva
Guión:Guión:
1.1. Introducción a la estadística descriptiva.Introducción a la estadística descriptiva.
2.2. Organización de los datos: Tablas de Frecuencias.Organización de los datos: Tablas de Frecuencias.
3.3. Representación Grafica de Variables Categóricas.Representación Grafica de Variables Categóricas.
4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.4.4. Estadísticos descriptivos de Variables Continuas.Estadísticos descriptivos de Variables Continuas.
5.5. Representación Grafica de Variables Continuas.Representación Grafica de Variables Continuas.
BIOESTADISTICA
Diagrama de tallo y hojasDiagrama de tallo y hojas
El diagrama de Tallo y Hojas es una representación útil para El diagrama de Tallo y Hojas es una representación útil para variables variables
discretasdiscretas con un número elevado de observaciones.con un número elevado de observaciones.
Tema 3: Estadística Descriptivastadística Descriptiva
68 63 42 27 30 36 28 32 79 2722 23 24 25 44 65 43 25 74 5136 42 28 31 28 25 45 12 57 5112 32 49 38 42 27 31 50 38 2116 24 69 47 23 22 43 27 49 2823 19 46 30 43 49 12
EnEn lala siguientesiguiente tablatabla apareceaparece elel peso,peso,
enen libras,libras, dede 5757 niños,niños, concon unun pesopeso
mínimomínimo dede 1212 libraslibras yy unun máximomáximo dede
7979 libraslibras::
LosLos datosdatos aparecenaparecen segúnsegún hanhan sidosido recogidos,recogidos, eses decir,decir, nono estánestán ordenadosordenados
(el(el procesoproceso seríasería unun pocopoco másmás sencillosencillo sisi lolo estuvieran)estuvieran)..
ElEl primerprimer pasopaso eses decidirdecidir laslas ramasramas queque sese vava aa incluir,incluir, lolo cual,cual, enen esteeste casocaso eses
sencillo,sencillo, yaya queque alal serser númerosnúmeros dede dosdos cifrascifras sese vava aa emplearemplear lala cifracifra dede laslas
decenasdecenas comocomo ramarama yy lala dede laslas unidadesunidades comocomo hoja,hoja, concon oo queque tenemostenemos 77
ramasramas:: {{11,,22,,33,,44,,55,,66,,77}}..
BIOESTADISTICA
Diagrama de tallo y hojas (continuación)Diagrama de tallo y hojas (continuación)
68 63 42 27 30 36 28 32 79 27
1 :
2 :26922
2334487583572857718
Tema 3: Estadística Descriptivastadística Descriptiva
68 63 42 27 30 36 28 32 79 2722 23 24 25 44 65 43 25 74 5136 42 28 31 28 25 45 12 57 5112 32 49 38 42 27 31 50 38 2116 24 69 47 23 22 43 27 49 2823 19 46 30 43 49 12
2 :
3 :
4 :
5 :
6 :
7 :
883
2
83
2334487583572857718
6218006128
2296742393539
0711
8395
94
ram
as1 : 222691 : 22269
ParaPara facilitarfacilitar lala legibilidadlegibilidad deldel
diagramadiagrama sese aconsejaaconseja reordenarreordenar
laslas hojashojas..
2 : 1223334455577778888
3 : 0011226688
4 : 2223334567999
5 : 0117
6 : 3589
7 : 49
2 : 1223334455577778888
3 : 0011226688
4 : 2223334567999
5 : 0117
6 : 3589
7 : 49
BIOESTADISTICA
Diagrama de tallo y hojas (continuación)Diagrama de tallo y hojas (continuación)
222
69:1222
69:1
AA vecesveces sese apreciaaprecia mejormejor comocomo sese distribuyendistribuyen
loslos datosdatos sisi sese dividedivide cadacada ramarama enen dos,dos, concon laslas
Tema 3: Estadística Descriptivastadística Descriptiva
1 : 22269
2 : 1223334455577778888
3 : 0011226688
4 : 2223334567999
5 : 0117
69
12233344
55577778888
001122
6688
2223334
567999
011
:
:
:
:
2
3
4
69
12233344
55577778888
001122
6688
2223334
567999
011
:
:
:
:
2
3
4
hojashojas {{00,, ……,, 44}} yy {{55,, ……,, 99},}, respectivamenterespectivamente..
5 : 0117
6 : 3589
7 : 49
011
7
3
589
4
9
5
6
7
:
:
:
011
7
3
589
4
9
5
6
7
:
:
:
EsteEste diagramadiagrama combinacombina laslas característicascaracterísticas dede unun
gráficográfico yy loslos dede unauna tabla,tabla, permitiendopermitiendo recuperarrecuperar loslos
datosdatos originalesoriginales..
BIOESTADISTICA
Gráficos para variables continuas: HistogramaGráficos para variables continuas: Histograma
AgrupamosAgrupamos loslos datosdatos enen intervalosintervalos [Li,[Li, Ui[Ui[ yy construimosconstruimos unun diagramadiagrama formadoformado
unun rectángulorectángulo parapara cadacada intervalo,intervalo, cuyacuya basebase eses elel intervalointervalo (en(en elel ejeeje dede
abcisas)abcisas) yy cuyacuya áreaárea eses proporcionalproporcional aa lala frecuenciafrecuencia deldel intervalointervalo..
Tema 3: Estadística Descriptivastadística Descriptiva
abcisas)abcisas) yy cuyacuya áreaárea eses proporcionalproporcional aa lala frecuenciafrecuencia deldel intervalointervalo..
SiSi necesitamosnecesitamos unun valorvalor representativorepresentativo parapara cadacada intervalointervalo recurrimosrecurrimos aa lala
MarcaMarca dede ClaseClase queque eses elel valorvalor centralcentral deldel intervalointervalo:: xixi == (Li(Li ++ Ui)/Ui)/22
LaLa basebase dede cadacada rectángulorectángulo eses lala longitudlongitud deldel intervalointervalo:: cici == UiUi –– LiLi..
AlAl serser elel áreaárea proporcionalproporcional aa lala frecuenciafrecuencia dede lala clase,clase, podemospodemos calcularcalcular lala alturaaltura
concon lala expresiónexpresión:: hihi == ni/cini/ci..
Intervalo M.C. ni
[0; 3[ 1,50 12[3; 5[ 4,00 15[5; 7[ 6,00 20
[7; 8,5[ 7,75 9[8,5; 10] 9,25 12
c i
322
1,51,5
h i
4,07,5
10,06,08,0
iii LUc −=
i
ii c
nh =
BIOESTADISTICA
Intervalo M.C. ni c i h i
[0; 3[ 1,50 12 3 4,0[3; 5[ 4,00 15 2 7,5
Tema 3: Estadística Descriptivastadística Descriptiva
Gráficos para variables continuas: Histograma (II)Gráficos para variables continuas: Histograma (II)
[3; 5[ 4,00 15 2 7,5[5; 7[ 6,00 20 2 10,0
[7; 8,5[ 7,75 9 1,5 6,0[8,5; 10] 9,25 12 1,5 8,0
81012
0246
0 1 2 3 4 5 6 7 8 9 10
BIOESTADISTICA
SeSe unenunen concon líneaslíneas rectas,rectas, enen elel histograma,histograma, loslos puntospuntos
correspondientescorrespondientes aa laslas marcasmarcas dede claseclase.. ParaPara completarcompletar cadacada
Tema 3: Estadística Descriptivastadística Descriptiva
Polígono Frecuencias AbsolutasPolígono Frecuencias Absolutas
correspondientescorrespondientes aa laslas marcasmarcas dede claseclase.. ParaPara completarcompletar cadacada
extremoextremo sese añadeañade unun intervalointervalo exterior,exterior, dede lala mismamisma amplitudamplitud queque
elel extremo,extremo, yy dede alturaaltura nulanula..
6
8
10
0
2
4
6
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12
BIOESTADISTICA
EsEs lala poligonalpoligonal definidadefinida enen abcisasabcisas aa partirpartir dede loslos extremosextremos dede loslos
intervalosintervalos yy enen ordenadasordenadas porpor alturasalturas proporcionalesproporcionales aa laslas
Tema 3: Estadística Descriptivastadística Descriptiva
Polígono Frecuencias AcumuladasPolígono Frecuencias Acumuladas
intervalosintervalos yy enen ordenadasordenadas porpor alturasalturas proporcionalesproporcionales aa laslas
frecuenciasfrecuencias absolutasabsolutas acumuladasacumuladas..
Intervalo M.C. ni N i
[0; 3[ 1,50 12 12[3; 5[ 4,00 15 27[5; 7[ 6,00 20 47
[7; 8,5[ 7,75 9 56[8,5; 10] 9,25 12 68
27
4756
68
40506070
0
12
27
010203040
0,0 2,0 4,0 6,0 8,0 10,0
BIOESTADISTICA
Uso del histograma con variables discretasUso del histograma con variables discretas
ElEl histogramahistograma puedepuede emplearse,emplearse, dede maneramanera aproximada,aproximada, parapara
variablesvariables discretasdiscretas concon unun númeronúmero elevadoelevado dede observacionesobservaciones..
Tema 3: Estadística Descriptivastadística Descriptiva
variablesvariables discretasdiscretas concon unun númeronúmero elevadoelevado dede observacionesobservaciones..
LoLo ilustraremosilustraremos concon elel ejemploejemplo deldel pesopeso dede 5757 niñosniños..
Intervalo x i n i c i h i N i
[10, 20[ 15 5 10 0,5 5[20, 30[ 25 19 10 1,9 24[30, 40[ 35 10 10 1,0 34[40, 50[ 45 13 10 1,3 47 5
10
15
20
[40, 50[ 45 13 10 1,3 47[50, 60[ 55 4 10 0,4 51[60, 70[ 65 4 10 0,4 55[70, 80] 75 2 10 0,2 57
57
0
5
0 10 20 30 40 50 60 70 80 90
BIOESTADISTICA
Comparativa Tallo y Hojas vs HistogramaComparativa Tallo y Hojas vs Histograma
EnEn laslas figurasfiguras sese muestranmuestran juntasjuntas laslas dosdos representacionesrepresentaciones
gráficasgráficas parapara loslos datosdatos deldel pesopeso dede 5757 niñosniños..
Tema 3: Estadística Descriptivastadística Descriptiva
1 : 22269
2 : 1223334455577778888
3 : 0011226688
1 : 22269
2 : 1223334455577778888
3 : 001122668810
15
20
10
15
20
gráficasgráficas parapara loslos datosdatos deldel pesopeso dede 5757 niñosniños..
Diagrama de Tallo y hojas Histograma
4 : 2223334567999
5 : 0117
6 : 3589
7 : 49
4 : 2223334567999
5 : 0117
6 : 3589
7 : 49
0
5
10
0 10 20 30 40 50 60 70 80 90
0
5
10
0 10 20 30 40 50 60 70 80 90
BIOESTADISTICA
Gráficos para variables continuas:Gráficos para variables continuas: El Diagrama de CajaEl Diagrama de Caja
ElEl diagramadiagrama dede cajacaja (Box(Box--Whisker)Whisker) eses unauna representaciónrepresentación gráficagráfica
queque permitepermite apreciarapreciar laslas principalesprincipales característicascaracterísticas dede unun conjuntoconjunto
Tema 3: Estadística Descriptivastadística Descriptiva
queque permitepermite apreciarapreciar laslas principalesprincipales característicascaracterísticas dede unun conjuntoconjunto
dede datos,datos, señalandoseñalando loslos datosdatos anómalosanómalos..
( )135,1 QQ −×( )135,1 QQ −×
25%25% 25%
25%
Q1 Q2 Q3
13 QQRI −=
Datos anómalos
Mayor dato no anómaloMenor dato no anómaloLI LS
BIOESTADISTICA
Construcción de un Diagrama de Caja (I)Construcción de un Diagrama de Caja (I)
Tema 3: Estadística Descriptivastadística Descriptiva
ParaPara construirconstruir unun diagramadiagrama dede cajacaja seguiremosseguiremos loslos siguientessiguientes pasospasos::
1.1. OrdenarOrdenar loslos datosdatos dede menormenor aa mayor,mayor, calculandocalculando elel mínimomínimo
(Min),(Min), elel máximomáximo (Max),(Max), loslos cuartilescuartiles (Q(Q11,, QQ22 yy QQ33)) yy elel rangorango
intercuartílicointercuartílico,, medidomedido concon lala expresiónexpresión RIRI == QQ33 –– QQ11..
2.2. DibujarDibujar unun rectángulorectángulo cuyoscuyos extremosextremos sonson QQ11 yy QQ33 partidopartido enen
dosdos trozostrozos porpor lala medianamediana QQ22..
BIOESTADISTICA
Construcción de un Diagrama de Caja (II)Construcción de un Diagrama de Caja (II)
3.3. CalcularCalcular loslos límiteslímites admisiblesadmisibles superiorsuperior ee inferiorinferior (LS(LS yy LI)LI) queque serviránservirán parapara
Tema 3: Estadística Descriptivastadística Descriptiva
ParaPara construirconstruir unun diagramadiagrama dede cajacaja seguiremosseguiremos loslos siguientessiguientes pasospasos::
3.3. CalcularCalcular loslos límiteslímites admisiblesadmisibles superiorsuperior ee inferiorinferior (LS(LS yy LI)LI) queque serviránservirán parapara
identificaridentificar loslos posiblesposibles datosdatos anómalosanómalos..
LI = Q1 LI = Q1 –– 1,5RI1,5RI LS = Q3 + 1,5RILS = Q3 + 1,5RI
4.4. ConsiderarConsiderar comocomo datosdatos anómalosanómalos loslos situadossituados fuerafuera deldel intervalointervalo [LI,[LI, LS]LS]..
5.5. DibujarDibujar unauna línealínea ((whiskerwhisker oo bigotebigote)) queque vayavaya desdedesde cadacada extremoextremo deldel5.5. DibujarDibujar unauna línealínea ((whiskerwhisker oo bigotebigote)) queque vayavaya desdedesde cadacada extremoextremo deldel
rectángulorectángulo centralcentral hastahasta elel valorvalor másmás alejadoalejado nono anómaloanómalo..
6.6. IdentificarIdentificar todostodos loslos datosdatos anómalos,anómalos, queque sonson loslos queque estánestán fuerafuera deldel
intervalointervalo [LI,[LI, LS]LS]..
BIOESTADISTICA
Ejemplo de construcción de un Diagrama de CajaEjemplo de construcción de un Diagrama de CajaSegúnSegún elel CentroCentro EuropeoEuropeo parapara lala VigilanciaVigilancia EpidemiológicaEpidemiológica deldel SIDA,SIDA, laslas TasasTasas dede
SIDASIDA enen 3131 paísespaíses europeoseuropeos (nuevos(nuevos casoscasos porpor millónmillón dede habitantes)habitantes) enen elel añoaño
20032003,, sonson laslas queque aparecenaparecen enen lala siguientesiguiente tablatabla::
Tema 3: Estadística Descriptivastadística Descriptiva
Eslovaquia 0,4 Islandia 3,5 Noruega 8,6 Luxemburgo 17,7Turquia 0,6 Polonia 3,8 Grecia 8,7 Francia 24,3República Checa 0,8 Finlandia 4,8 Alemania 9,2 Italia 29,7Bulgaria 1,7 Malta 5,1 Irlanda 9,7 Letonia 31,5Croacia 2,1 Suecia 5,8 Bélgica 11,8 Suiza 32,1Lituania 2,5 Austria 6,8 Reino Unido 15,5 España 55,5Hungría 2,6 Dinamarca 7,1 Rumanía 15,7 Portugal 88,8Eslovenia 3,0 Estonia 7,4 Países Bajos 16,9
Eslovaquia 0,4 Islandia 3,5 Noruega 8,6 Luxemburgo 17,7Turquia 0,6 Polonia 3,8 Grecia 8,7 Francia 24,3República Checa 0,8 Finlandia 4,8 Alemania 9,2 Italia 29,7Bulgaria 1,7 Malta 5,1 Irlanda 9,7 Letonia 31,5Croacia 2,1 Suecia 5,8 Bélgica 11,8 Suiza 32,1Lituania 2,5 Austria 6,8 Reino Unido 15,5 España 55,5Hungría 2,6 Dinamarca 7,1 Rumanía 15,7 Portugal 88,8Eslovenia 3,0 Estonia 7,4 Países Bajos 16,9
20032003,, sonson laslas queque aparecenaparecen enen lala siguientesiguiente tablatabla::
0,31 =Q
4,72 =Q
9,163 =Q
… …
España Portugal
3,0 7,4 16,9 37,75
0,4 32,1
55,5 88,8
14=X
NotaNota:: LosLos extremosextremos deldel “bigote”“bigote” siempresiempre debendeben contenercontener unun dato,dato, nono
confundirconfundir concon loslos límiteslímites inferiorinferior yy superiorsuperior..
BIOESTADISTICA
Ejemplo del uso de Diagramas de CajaEjemplo del uso de Diagramas de CajaEnEn unun hospitalhospital sese haha medidomedido elel tiempotiempo mediomedio dede espera,espera, enen meses,meses, enen diferentesdiferentesserviciosservicios deldel áreaárea médicamédica yy deldel áreaárea quirúrgica,quirúrgica, obteniéndoseobteniéndose lala siguientesiguiente tablatabla::
Tema 3: Estadística Descriptivastadística Descriptiva
Medica MPR 0,5 Medica REH 16,9 Medica UEI 26,3
Medica ONC 8,0 Medica PSQ 17,9 Quirurgica AO 27,9
Quirurgica CGI 9,5 Medica HTA 18,9 Quirurgica CMX 29,1
Quirurgica CTO 9,7 Medica UDC 19,2 Quirurgica ORL 29,5
Quirurgica CIR 10,5 Quirurgica GIN 19,4 Quirurgica USSR 30,7
Medica HEM 11,0 Medica MIN 19,6 Quirurgica COT 31,0
Medica UAT 12,0 Medica MDI 20,5 Quirurgica DER 32,4Medica UAT 12,0 Medica MDI 20,5 Quirurgica DER 32,4
Medica ECR 12,4 Quirurgica CCA 21,7 Medica CAR 33,7
Quirurgica ODO 13,4 Quirurgica URO 21,8 Medica NER 35,0
Medica UMI 13,9 Quirurgica NCG 22,7 Medica NEM 39,7
Quirurgica CPL 14,4 Medica GER 24,6 Medica ALG 42,9
Medica REU 15,0 Medica PED 24,8 Quirurgica ACV 43,2
Medica DIE 15,5 Medica NEF 25,2 Quirurgica OFT 49,2
BIOESTADISTICA
Ejemplo del uso de Diagramas de Caja (solución)Ejemplo del uso de Diagramas de Caja (solución)
Tema 3: Estadística Descriptivastadística Descriptiva
Médica (22)
Todas (39)
13,9
13,9
20,5 29,5
19,1 25,2
0,5 49,2
0,5 39,7
ALG42,9
Quirúrgica (17)
13,9 19,1 25,2
14,4 22,7 30,7
9,5 49,2
BIOESTADISTICA
Uso comparativo del Diagramas de CajaUso comparativo del Diagramas de Caja
Tema 3: Estadística Descriptivastadística Descriptiva
BIOESTADISTICA
Universidad Católica de Valencia San Vicente Mártir
Facultad de Medicina
Departamento de Epidemiología, Departamento de Epidemiología,
Análisis critico y Metodología de la investigaciónAnálisis critico y Metodología de la investigación
Departamento de Epidemiología, Medicina
BIOESTADÍSTICA APLICADAMedicina
Epidemiología, Medicina Preventiva, Análisis crítico y
Metodología de la investigación