capÍtulo 2 – descriÇÃo de dados – …tulo 2 – descriÇÃo de dados – estatÍstica...
TRANSCRIPT
CAPÍTULO 2 – DESCRIÇÃO DE DADOS – ESTATÍSTICA DESCRITIVA
2.1 – A MÉDIA ARITMÉTICA OU PROMÉDIO
♦ Definição: é igual a soma dos valores do grupo de
dados dividida pelo número de valores.
nxX ∑==
sobservaçõe de número xde valoresdos Soma
2.2 – MÉDIA ARITMÉTICA PARA DADOS
AGRUPADOS
♦ Quando os valores de xi estão agrupados com suas
respectivas freqüências absolutas Fi, a média
aritmética ou média amostral é expressa por:
niFixX
∑=
2.3 – MEDIANA
X~
♦ Quando colocados em ordem crescente, é o valor que
divide a amostra ou população, em duas partes iguais.
2.3.1 – CÁLCULO DA MEDIANA – VARIÁVEL
DISCRETA
♦ Determinação da ordem do elemento central que
caracteriza a mediana:
♦ Se n for ímpar o elemento central será de ordem 2
1+n
♦ Se n for par, a mediana será a média entre os
elementos centrais de ordem 2n e 1
2+n
2.3.2 – CÁLCULO DA MEDIANA – VARIÁVEL
CONTÍNUA
♦ 1 – Calcula-se a ordem da mediana como sendo 2n ,
independente de n ser par ou ímpar.
♦ 2 – Pela Fac, identifica-se a classe que contém a
mediana (classe Md)
♦ 3 – Utiliza-se a fórmula: Md
F
hfn
MdlX
∑−
+= 2~
0 50% 100%
X~
♦ Onde:
===∑
==
Md classe da frequência Md classe da amplitude
Md classe à anteriores sfrequência das soma elementos de númeroou amostra da tamanho
Md classe dainferior limite
MdFh
fnMd
l
2.4 – QUARTIS
♦ Dividem um conjunto de dados em quatro partes
iguais.
♦ Q1 = 1o Quartil ⇒ deixa 25% dos elementos.
♦ Q2 = 2o Quartil ≡ Mediana ⇒ deixa 50% dos
elementos.
♦ Q3 = 3o Quartil ⇒ deixa 75% dos elementos.
2.4.1 – Como determinar o 1o e o 3o Quartis.
0 Q1 Q2 = Md Q3
0% 25% 50% 75% 100%
♦ Para o 1o Quartil, calcula-se a ordem 4n e para o 3o
Quartil a ordem será 43n
♦ Identifica-se as classes dos quartis pelas Fac.
♦ Fórmulas para determinação dos 1o e 3o Quartis,
respectivamente:
∑−
+=
∑−
+=
3
43
33
1
4
11
QF
hfn
QlQ
QF
hfn
QlQ
2.4.2 – EXEMPLO – Dada a distribuição, determinar os
quartis Q1 e Q3 e a mediana ( )2~
QX =
Classes Fi Fac
7 a 17 6 6
17 a 27 15 21 ← Classe Q1 (contém o 14o elemento)
27 a 37 20 41 ← Classe Md (contém o 28o elemento)
37 a 47 10 51 ← Classe Q3 (contém o 42o elemento)
47 a 57 5 56
Σ 56
� Passo 1 ⇒ 56=n
( ) ooo nnn
QXQ
424563
43
28256
2 14
456
4
? ?~
? 31
======
===
� Passo 2 ⇒ Determinado os elementos, as classes são
identificadas pelas Fac, como mostrado na tabela
anterior.
♦ Passo 3 ⇒ Uso das fórmulas para a determinação de
Q1 e Q3 e ( )2~
QX = :
♦ Para Q1 temos:
15;10;6;56;1711
===∑== QQ Fhfnl
♦ Para ( )2~
QX = temos:
20;10;21;56;271
===∑== QMd Fhfnl
♦ Para Q3 temos:
10;10;41;56;3713
===∑== QQ Fhfnl
♦ Portanto:
3810
10414563
37
5,3020
1021256
27~
33,2215
106456
17
3
1
=
−×
+=
=
−+=
=
−+=
Q
X
Q
2.5 – DECIS E PERCENTIS
♦ Dividem, respectivamente, a série em 10 (Decil) e
100 (Percentil) partes iguais.
2.5.1 – Cálculo para um decil (Di)
♦ Passo 1 – Calcula-se a ordem 10in
, onde i =
1,2,3,4,5,6,7,8 e 9
♦ Passo 2 – Identifica-se a classe Di pela Fac
♦ Passo 3 – Aplica-se a fórmula:
Conclusão: 25% das observações
estão entre 7 e 22,33.
25% das observações
estão entre 22,33 e 30,5.
25% das observações
estão entre 30,5 e 38.
25% das observações
estão entre 38 e 57.
D1 D2 D3 D4 D5 D6 D7 D8 D9
0% 10% 20% 30%40%50%60%70%80%90%100%
i
iD
Di F
hfin
lD
∑−
+= 10
2.5.2 – Cálculo de um percentil (Pi)
♦ Passo 1 – Calcula-se a ordem 100in
, onde i =
1,2,3,....98,99
♦ Passo 2 – Identifica-se a classe Pi pela Fac
♦ Passo 3 – Aplica-se a fórmula:
i
iP
Pi F
hfin
lP
∑−
+= 100
2.6 – MODA
♦ É o valor mais freqüente da distribuição.
2.6.1 – Moda de uma distribuição simples, ou seja, sem
agrupamento em classes.
P1 P2 P3 P50 P97 P98 P99
0% 1% 2% 3%...........50%.......97%98% 99%100%
♦ Identifica-se facilmente observando-se qual o
elemento que apresenta maior freqüência. Por
exemplo:
Xi 243 245 248 251 307
Fi 7 17 23 20 8
⇑ A moda será o elemento 248. Indica-se como: Mo = 248 2.6.2 – Moda para dados agrupados em classes, ou seja,
variáveis contínuas.
♦ Passo 1 – Identificar a classe moda (aquela de maior
freqüência)
♦ Aplica-se a fórmula (de Czuber)
hlM Moo21
1
∆+∆∆+=
♦ Onde:
=
=∆
=∆
=
modal. classe da amplitude
posterior. nteimediatame classe da frequência
a e modal classe da frequência a entre diferença
anterior. nteimediatame classe da frequência
a e modal classe da frequência a entre diferença
modal classe dainferior limite
2
1
h
loM
2.7 – Um exemplo completo – A tabela a seguir mostra as
notas de 50 alunos.
60 85 33 52 65 77 84 65 74 57
71 35 81 50 35 64 74 47 54 68
80 61 41 91 55 73 59 53 77 45
41 55 78 48 69 85 67 39 60 76
94 98 66 66 73 42 65 94 88 89
(a) Determine a amplitude total da amostra.
♦ O trabalho ficará mais fácil se construirmos uma
tabela, colocando os dados em ordem decrescente.
♦ Utilizando-se o excel, isto não será necessário.
♦ A amplitude total, R, é definida como:
valormenorvalormaiorR −=
♦ O maior valor será igual a 98, enquanto o menor
valor será 33. Assim,
653398 =∴−= RR
(b) Número de classes pela fórmula de Sturges.
♦ Para determinarmos o número de classes, K,
usaremos a fórmula de Sturges, ou seja:
( )nK log22,31 ×+= .
♦ No nosso caso n = 50. Substituindo na fórmula
acima, temos que K = 6,47.
♦ Devemos “arredondar” este valor para o inteiro
imediatamente superior. Portanto o número de
classes será K = 7
(c) Amplitude das classes.
♦ A amplitude das classes, h, é dado por: K
Rh ≅
♦ O resultado acima não é um número inteiro e,
portanto, devemos “arredondá-lo”. No caso,
encontramos h = 10.
♦ Apresentaremos os itens (d); (e); (f); (g) e (h) através de uma tabela.
(d) Quais as classes? (Inicie pelo 30). (e) Freqüências absolutas das classes. (f) Freqüências relativas. (g) Pontos médios das classes.
(h) Freqüências acumuladas crescentes.
classes Intervalos de
Classes Fi f xi Fac xiFi 1 30 a 40 4 0,08 35 4 140 2 40 a 50 6 0,12 45 10 270 3 50 a 60 8 0,16 55 18 440 4 60 a 70 12 0,24 65 30 780 5 70 a 80 9 0,18 75 39 675 6 80 a 90 7 0,14 85 46 595 7 90 a 100 4 0,08 95 50 380
Σ 50 3280 (i) Histograma das freqüências absolutas.
♦ O histograma apresentado abaixo foi construído com
o excel.
Histograma
02468
101214
1 2 3 4 5 6 7
Classes
Fre
quên
cias
Abs
olut
as
(j) Calcular a média amostral.
♦ Para determinarmos a média amostral, foi necessário
acrescentar mais uma coluna à tabela acima,
contendo o produto ii Fx e no final desta coluna,
obter a soma, ou seja:
∑ ii Fx
♦ A média amostral será dada por:
⇒=∴∑=50
3280X
n
FxX ii
6,65=X
(k) Calcular e interpretar a moda.
♦ A fim de determinarmos a Moda, usaremos a
equação:
hlM Moo21
1
∆+∆∆+=
♦ Da tabela, vemos que a classe moda, ou seja, a classe
de maior freqüência absoluta é a 4a e 60=Mol .
48121 =−=∆ ; 39121 =−=∆ e h = 10. Portanto,
a moda será:
66740
601034
460 =∴+=×
++= oo MM
♦ Concluímos pois, que 66 foi a nota mais freqüente do
grupo.
(l) Calcular e interpretar a mediana.
♦ Como visto na seção 2.3.2, a ordem da mediana é
igual 25, ou seja, 50/2. Da tabela, concluímos que a
classe da mediana é a 4a.
♦ Usando a fórmula: Md
F
hfn
MdlX
∑−
+= 2~
♦ Onde da tabela vemos que:
( )65,83~
12101825
60~ =∴−+= XX
♦ Este resultado nos diz que 50% da amostra têm nota
inferior a 65,83
(m) Determinar e interpretar o 1o quartil.
♦ A classe a qual pertence o 1o quartil será 5,12450 = e
procurando na coluna da Fac da tabela, vemos que
este elemento pertence à 3a classe.
♦ Calcula-se Q1 usando a fórmula:
1
4
11QF
hfn
QlQ
∑−
+=
♦ ( )
125,538
10105,1250 11 =∴−+= QQ
♦ Este resultado nos diz que 25% dos alunos têm nota
inferior a 53,125.
(n) Calcular e interpretar o 55o percentil.
♦ A classe a qual pertence o 55o percentil será
5,27100
5055 =× e da coluna Fac da tabela vemos este
elemento pertence à 4 classe.
♦ Usando a fórmula i
iP
Pi F
hfin
lP
∑−
+= 100, temos
que:
♦ ( )
92,6712
10185,2760 5555 =∴−+= PP
♦ Isto significa que 45% do grupo tirou nota superior a este valor.
2.8 – MEDIDAS DE DISPERSÃO
♦ São medidas que avaliam a dispersão em torno da
média, verificando a representatividade da média.
2.8.1 – AMPLITUDE TOTAL
♦ É uma medida de dispersão dada pela diferença entre
o maior e o menor valor da série.
minmax XXR −=
♦ É de utilização limitada, pois, sendo uma medida que depende apenas dos valores extremos, não capta as possíveis variações entre esses limites.
2.8.2 – VARIÂNCIA AMOSTRAL
♦ Desvio: mede quanto cada valor Xi se afasta em
relação à X e é dado por:
XXd ii −=
♦ É fácil verificar que 0=∑ id .
♦ A fim de determinar a variância, devemos considerar
os quadrados dos desvios, ou seja, 2id
2.8.2.1 – CÁLCULOS DA VARIÂNCIA
X
Dispersão
♦ A variância, 2S , de uma amostra de n medidas é
igual à soma dos quadrados dos desvios, dividida por
(n – 1), portanto:
( )11
222
−∑ −=
−∑=
n
XX
n
dS ii
♦ Para dados agrupados, a variância será dada por:
( )11
222
−∑ −=
−∑=
n
FXX
n
FdS iiii
2.8.2.2 – Fórmulas práticas para o cálculo da variância
amostral.
( )
∑
∑−−
=n
XX
nS i
i
222
11
♦ Para dados agrupados temos que:
( )
∑
∑−−
=n
FXFX
nS ii
ii
222
11
♦ Quanto maior o valor de S2, maior a dispersão dos
dados amostrais.
2.8.3 – DESVIO PADRÃO AMOSTRAL
2SS = 2.8.4 – INTERPRETAÇÃO DO DESVIO PADRÃO
� Regra Empírica
Para qualquer distribuição amostral com média X e
desvio padrão S, tem-se que:
♦ O intervalo SX ± contém entre 60% e 80% de todas
as observações amostrais. A porcentagem aproxima-
se de 70% para as distribuições aproximadamente
simétrica, chegando a 90% para distribuições
fortemente assimétricas.
♦ O intervalo SX 2± contém aproximadamente 95%
das observações amostrais para distribuições
simétricas e aproximadamente 100% para as de
assimetria elevada.
♦ O intervalo SX 3± contém aproximadamente 100%
das observações amostrais.
� Teorema de Tchebycheff
Para qualquer distribuição amostral com média X e
desvio padrão S, tem-se que:
♦ O intervalo SX 2± contém, no mínimo 75% de
todas as observações amostrais.
♦ O intervalo SX 3± contém, no mínimo 89% de
todas as observações amostrais.
2.8.5 –Exemplo – 1 Calcular a variância e o desvio padrão da seguinte distribuição amostral:
X i 5 7 8 9 11 Fi 2 3 5 4 2
♦ Construímos um nova tabela a fim de determinarmos
os valores de ii FX e ii FX 2
Xi Fi XiFi ii FX 2
5 2 10 50 7 3 21 147 8 5 40 320 9 4 36 324 11 2 22 242 Σ 16 129 1086
♦ Usando a fórmula prática para calcular a variância, temos que:
( )
∑
∑−−
=n
FXFX
nS ii
ii
222
11
( )86,2
16129
1086116
1 22 =
∑ −
−=S
♦ Cálculo do desvio padrão:
69,186,22 =∴== SSS
2.8.6 – Exemplo 2 – Consideremos a distribuição amostral das idades de 50 funcionários de uma empresa e determinemos a variância, o desvio padrão e constatemos as regras para interpretação do desvio padrão.
Intervalo das classes iF iX ii FX ii FX 2
18 a 25 6 21,5 129 2773,5
25 a 32 10 28,5 285 8122,50
32 a 39 13 35,5 461,5 16383,5
39 a 46 8 42,5 340 14450
46 a 53 6 49,5 297 14701,5
53 a 60 5 56,5 282,5 15961,25
60 a 67 2 63,5 127 8064,5
Σ 50 1922 80456,50
♦ Cálculo da média amostral:
44,3850
1922 =∴=∑= Xn
FXX ii anos
♦ Cálculo da variância amostral:
( )
∑
∑−−
=n
FXFX
nS ii
ii
222
11
18,13450
192250,80456
1501 2
2 =
−
−=S
♦ Cálculo do desvio padrão:
anos 58,1118,1342 === SS
♦ Verificação das regras para interpretação do desvio
padrão
( )02,50;86,2858,1144,38 =±=± SX
♦ Da tabela, concluímos que 60% das idades
observadas estão entre 27 e 50 anos, o que concorda
com a regra empírica que estabelece que o referido
intervalo deverá conter de 60% a 80% das
observações.
( )60,61;28,1558,11284,32 =×±=± SX
♦ Mais uma vez, consultando a tabela, vemos que 98%
das idades observadas estão entre 16 e 62 anos, o que
mais uma vez concorda com a regra empírica desde
que a distribuição estudada é altamente assimétrica.
Esse resultado também confirma o critério de
Tchebycheff que define no mínimo 75% da
observações para o intervalo SX 2± .
2.9 – COEFCIENTE DE VARIAÇÃO DE PEARSON
♦ A Amplitude total (R), Variância (S2) e o desvio
padrão (S), são medidas absolutas de dispersão.
Mostraremos agora uma medida relativa de
dispersão, denominada de Coeficiente de Variação
(C.V.), definida como:
100. ×=X
SVC
♦ Onde S = desvio padrão amostral x = média
amostral.
2.10 – REGRAS EMPÍRICAS PARA
INTERPRETAÇÕES DO C.V
♦ Se
≥<≤
<
dispersão elevada %30.
dispersão média se- têm%30%15
disperão baixa %15.
VC
CV
VC
2.11 – ESCORE PADRONIZADO (Z)
♦ Outra medida relativa de dispersão para uma medida
Xi.
S
XXZ i
i−=
♦ Um escore Zi negativo indica que a observação Xi
está à esquerda da média, enquanto um escore
positivo indica que a observação está á direita da
média.
♦ Exemplos: São dados, os médios e os desvios
padrões das avaliações de duas disciplinas:
Português Matemática
5,6=PX 0,5=MX
2,1=PS 9,0=MS
Relativamente às disciplinas Português e Matemática,
em qual delas obteve melhor performance um aluno
com 7,5 em Português e 6,0 em Matemática?
Determinando es escores padronizados para as notas obtidas temos que:
Português: 83,02,1
5,65,7 =−=PZ
Matemática 11,19,0
0,50,6 =−=MZ
Uma vez que o escore padronizado de Matemática é maior que o de Português, o aluno teve melhor performance na primeira. ♦ Os dados de uma pesquisa revelaram média 0,243 e
desvio padrão 0,052 para determinada variável.
Verificar se os dados 0,380 e 0,455 podem ser
considerados observações da referida variável.
Para Xi = 0,380
63,2052,0
243,0380,0 =−=iZ
Para Xi = 0,455
08,4052,0
243,0455,0 =−=iZ
Como podemos observar, o dado 0,455 tem escore
padronizado maior que 3, isto significa dizer que esta
observação foge da dimensão esperada (denominada de
outliers) e portanto pode ser descartada. Por outro lado,
o dado 0,38, cujo escore padronizado foi igual a 2,63
pode ser considerado um dado normal.
2.12 – MEDIDAS DE ASSIMETRIA
♦ Mede o grau de afastamento de uma distribuição da
unidade de simetria, a mediana.
♦ Em uma distribuição simétrica, a média, a mediana e
a moda têm os mesmos valores.
A figura acima representa o gráfico de uma distribuição
simétrica.
♦ Em uma distribuição assimétrica positiva ou
assimétrica à direita, tem-se:
XXM o << ~
♦ Como ilustra o gráfico abaixo.
♦ Já para uma distribuição assimétrica negativa, ou
assimétrica à esquerda, tem-se:
oMXX << ~
♦ Segundo a ilustração abaixo
♦ Entre as diversas fórmulas para a determinação do
coeficiente de assimetria, podemos citar como úteis
as duas seguintes:
10 Coeficiente de Pearson:
S
MXAS 0−=
20 Coeficiente de Pearson:
13
31~2
XQQAS
−−+=
♦ Se:
<>=
negativa aassimétric é ãodistribuiç a que se-diz ,0
positiva aassimétric é ãodistribuiç a que se-diz ,0
simétrica é ãodistribuiç a que se-diz ,0
AS
AS
AS
2.13 – Exemplo: Dada a distribuição amostral, calcular os
dois coeficientes de assimetria de Pearson.
Salário ($1000) 30 a 50 50 a 100 100 a 150
Empregados 80 50 30
Para determinar os dois coeficientes de Pearson, necessitamos calcular a média, a moda, o desvio padrão, os 10 e 30 quartis e a mediana. Assim, temos que: Classes
iF iX ii FX ii FX 2 hFi ÷ acF
30 a 50 80 40 3200 128000 42080 =÷ 82
50 a 100 50 75 3750 281250 15050 =÷ 130
100 a 150 30 125 3750 468750 6,05030 =÷ 160
Σ 160 10700 878000 ♦ Média:
875,66160
10700 =∴=∑= Xn
FXX ii
♦ Moda:
429,412034
430
21
1 =×+
+=∆+∆
∆+= hlM Moo
♦ Observe que não sendo as classes de mesma amplitude, foi necessário determinar-se a amplitude relativa, ou seja, hFi ÷ . Assim a amplitude relativa
da classe modal é igual a 4 de modo que 41 =∆ e 3142 =−=∆ .
♦ Cálculo da variância:
( )
( )62,1021
16010700
8780001591
11
22
222
=
−=
=
∑
∑−−
=
S
n
FXFX
nS ii
ii
♦ Cálculo do Desvio Padrão:
96,3162,10212 === SS
♦ Cálculo de XQQ~ e , 31 :
402080
04030
1
4
11 =−+=
∑−
+=QF
hfn
QlQ
905050
8012050
3
43
33 =−+=
∑−
+=QF
hfn
QlQ
502080
08030
2~ =−+=∑−
+=
MdF
hfn
MdlX
♦ Cálculo dos Coeficientes de Assimetria
796,096,31
429,41875,660 =−=−=S
MXAS
6,04090
5029040~
2
13
31 =−
×−+=−
XQQAS