medidas de tendÊncia central, dispersÃo, posiÇÃo...
TRANSCRIPT
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
MEDIDAS DE TENDENCIA CENTRAL,DISPERSAO, POSICAO, ASSOCIACAO,BOX-PLOT e TRABALHO COM DADOS
AGRUPADOS
Prof. Dr. Ivan Bezerra Allaman
Universidade Estadual de Santa Cruz - UESC
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
Cronograma
1 Medidas de Tendencia Central
2 Medidas de Dispersao
3 Medidas de Posicao
4 Medidas de Associacao
5 Box-plot
6 Trabalho com dados agrupados
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
MedianaModaMedia
� E o valor que divide os dados ao meio, ou seja, 50% dosvalores estarao a esquerda e 50% dos valores estarao a direitada mediana.
� Para n par, a mediana e calculada como a media dos doisvalores centrais,
� Para n ımpar, a media e o valor central.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
MedianaModaMedia
� E o valor que ocorre com maior frequencia.
� E possıvel que os dados nao apresentem moda (denominandoamodal), apresentem uma moda (modal), duas modas(bimodal) e assim por diante.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
MedianaModaMedia
� E a medida de posicao mais importante.
Definicao: Se n observacoes em uma amostra sao denotadas porx1, x2, · · · , xn a media amostral e
x = x1+x2+···+xnn =
∑ni=1 xin
Definicao: Se N observacoes em uma populacao finita saodenotadas por x1, x2, · · · , xn a media populacional e
µ = x1+x2+···+xnN =
∑ni=1 xiN
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
MedianaModaMedia
Exemplo 1: Considerem os salarios, em reais, dos funcionarios deuma empresa: x1 = 400;x2 = 350;x3 = 480;x4 = 1800;x5 =720;x6 = 130 e x7 = 420. A media amostral e:
x = x1+x2+···+xnn =
∑7i=17 = 400+350+···+420
7 = 614,29
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
MedianaModaMedia
Importante: A media e influenciada por valores extremos, sejameles muito baixos ou muito altos
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
AmplitudeVarianciaDesvio PadraoCoeficiente de Variacao
� Sao medidas estatısticas usadas para avaliar o grau devariabilidade ou dispersao dos valores em torno da media.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
AmplitudeVarianciaDesvio PadraoCoeficiente de Variacao
� E a medida mais simples de dispersao
� O calculo e efetuado quando os dados estao ordenados emordem crescente.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
AmplitudeVarianciaDesvio PadraoCoeficiente de Variacao
Definicao: Se n observacoes em uma amostra estao em ordemcrescente, a amplitude e dada por:
A = xn − x1
Exemplo 2: Considerando os dados do exemplo 1, tem-se osseguintes valores ordenados: 130; 350; 400; 420; 480; 720; 1800.Logo a amplitude dos valores sera:
A = x7 − x1 = 1800− 130 = 1670
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
AmplitudeVarianciaDesvio PadraoCoeficiente de Variacao
� E a medida mais utilizada dentre as medidas de dispersao,pois dentre varios aspectos positivos, esta o fato decontemplar todos os valores da amostra.
� A variancia e uma distancia media de cada observacao emrelacao a media. No entanto, por motivos que fogem aoescopo desta disciplina, esta distancia precisa ser elevada aoquadrado e dividida pelo o que nos chamamos de graus deliberdade da amostra, de acordo com a seguinte definicao:
Definicao: Sejam x1, x2, · · · , xn observacoes provenientes de umaamostra, a variancia e dada por:
S2 =∑n
i=1(xi−x)2
n−1no caso de uma populacao
σ2 =∑n
i=1(xi−µ)2
N
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
AmplitudeVarianciaDesvio PadraoCoeficiente de Variacao
Exemplo 3: Considerando ainda os dados do exemplo 1, tem-se oseguinte calculo da variancia.
S2 = (400−614,29)2+(350−614,29)2+···+(420−614,29)2
7−1 ≈ 303861,9 R$2
Observacao!!!
Percebam que a unidade de medida esta elevada ao quadrado, oque dificulta a interpretacao. Conseguem imaginar uma populacaocuja a variabilidade do salario e de 303861,9R$2?
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
AmplitudeVarianciaDesvio PadraoCoeficiente de Variacao
� O desvio padrao e uma medida utilizada para contornar oinconveniente de unidade de medida apresentada pelavariancia.
� A unidade de medida do desvio padrao e igual a unidade demedida mensurada na variavel.
Definicao: Sejam x1, x2, · · · , xn observacoes provenientes de umaamostra, o desvio padrao e dada por:
S =√∑n
i=1(xi−x)2
n−1 =√S2
no caso de uma populacao
σ =
√∑ni=1(xi−µ)2
N =√σ2
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
AmplitudeVarianciaDesvio PadraoCoeficiente de Variacao
� Tanto a variancia como o desvio padrao sao medidasdependentes da grandeza, escala ou unidade de medida davariavel.
� Conjunto de dados com diferentes unidades de medida naopodem ter suas dispersoes comparadas pela variancia ou pelodesvio padrao, e ate mesmo dados com uma mesma unidadenao podem ser comparados se possuem medias de diferentesmagnitudes.
� Logo, um estimador que nao seja dependente desses fatores sefaz necessario.
Definicao: Sejam x1, x2, · · · , xn observacoes provenientes de umaamostra, o coeficiente de variacao e dado por:
CV = Sx ∗ 100
no caso de uma populacaoCV = σ
µ ∗ 100Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
AmplitudeVarianciaDesvio PadraoCoeficiente de Variacao
Exemplo 4: Considere os seguintes dados sobre a renda familiarmensal (em quantidade de salarios mınimos) em duas localidadesde Florianopolis - SC.
� Conjunto Residencial Monte Verde,10,3 15,4 9,6 5,5 9,0 2,4 4,1 8,4 10,3 4,6
� Conjunto Residencial Parque da Figueira,5,4 6,4 4,4 2,5 5,5 14,0 8,5 7,7 5,8 5,0
Em media, a renda familiar mensal e mais homogenea em quallocalidade?
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
PercentilQuartil
� Sao medidas utilizadas para dividir os dados em partes iguaise orientar quanto a posicao da observacao nos dados.
� Dentre as medidas utilizadas sera abordado os percentis e osquartis.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
PercentilQuartil
� O p-esimo percentil e um valor tal que pelo menos p porcento das observacoes sao menores ou iguais a esse valor epelo menos (100-p) por cento das observacoes sao maiores ouiguais a esse valor.
� Para calcular o p-esimo percentil tem-se os seguintes passos:� Organize os dados em ordem crescente,� Calcule um ındice i,
i =(
p100
)n
em que p e o percentil procurado e n, o numero deobservacoes.
� a)Se i nao for um numero inteiro, arredonde-o para cima. Onumero inteiro seguinte maior que i denota a posicao dop-esimo percentil.
� b)Se i for um numero inteiro, o p-esimo percentil sera a mediados valores nas posicoes i e i+1.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
PercentilQuartil
Exemplo 5: Considere os dados do exemplo 4:
Qual o 65º percentil?
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
PercentilQuartil
� Muitas vezes e desejavel dividir os dados em quatro partes,tendo cada parte aproximadamente um quarto, ou 25% dasobservacoes.
� Os quartis sao muito utilizados para elaboracao do box-plot.
� Tem-se os seguintes quartis:� 1º Quartil - corresponde ao 25º percentil.� 2º Quartil - corresponde ao 50º percentil. Coincide com a
mediana.� 3º Quartil - corresponde ao 75º percentil.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
CovarianciaCoeficiente de Correlacao de Pearson
� Sao medidas utilizadas para avaliar a relacao entre duasvariaveis.
� Serao abordados duas medidas: a covariancia e a correlacao.
� E importante ter em mente que as medidas que seraoabordadas empressam a relacao linear entre duas variaveis.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
CovarianciaCoeficiente de Correlacao de Pearson
� Mede a associacao linear entre duas variaveis.
� No entanto, e impossıvel saber qual o grau de associacaoentre as variaveis pois os valores podem variar de menosinfinito a mais infinito. Sua formula e dada por:
cov =∑n
i=1(xi−x)(yi−y)n−1
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
CovarianciaCoeficiente de Correlacao de Pearson
Exemplo 6: Considerem os seguintes dados sobre a renda familiar (Renda) enumero de pessoas residentes no domicılio (Tam.).
Nº Tam. Renda
1 4 10,32 4 15,43 4 9,64 5 5,55 4 9,06 1 2,47 2 4,18 3 8,49 6 10,3
10 4 4,611 6 18,612 4 7,113 4 12,914 6 8,415 3 19,3
Qual a relacao entre as variaveis Tam. e Renda?
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
CovarianciaCoeficiente de Correlacao de Pearson
� Tambem mede a associacao linear entre duas variaveis, mais epreferida por que os resultados ficam entre -1 e 1, valoresestes que nos permite avaliar qual o grau de associacao entreas variaveis estudadas.
rxy =covxysxsy
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
CovarianciaCoeficiente de Correlacao de Pearson
� Existem as seguintes possibilidades de relacao entre duasvariaveis:
●●●●●●●●
●●●●●●●●●●●●
●●●●●●
●●●
●●●●●
●●●●●●
●●●
●●●●●●●●●●●●●●●●●●
●●
●●●●
●●●●●●●●●●●●
●●●●●●
●●●●●●●
●●●●
●
●●●
0 20 40 60 80 100
5010
015
020
0
Relação positiva
x
y
●●●●●
●
●●●●●●●
●●●●●●
●●●
●
●●●●●●
●
●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●
●●●●●●
●●●●●
●
●●●
●●●●
●●●●●
●
●
●●●●●●●●●●●●
●
●
●
0 20 40 60 80 100
−20
0−
150
−10
0−
500
Relação negativa
x
y
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
● ●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●●
●●●
−2 −1 0 1 2
−3
−2
−1
01
2
Relação nula
x
y
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
� O box-plot ou grafico de caixa e um desenho esquematicoutilizado para descrever as caracterısticas mais proeminentesde conjuntos de dados. Essas caracterısticas incluem:
1 centro
2 dispersao
3 extensao e a natureza de qualquer desvio em relacao a simetria
4 identificacao de outliers.
� Logo, tem-se o seguinte box-plot:
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
IntroducaoMedia e variancia ponderada
� Quando nao se tem acesso ao rol de dados, e sim, apenasuma tabela de distribuicao de frequencia com estes dadosagrupados em classes, de que forma poderemos obter a mediae o desvio padrao dos dados?
� Ha casos tambem em que e preciso dar mais importancia aum caso do que outro.
� Logo, a ponderacao e uma tecnica util para resolver os tiposde problemas colocado em questao.
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
IntroducaoMedia e variancia ponderada
Media ponderada:
m =∑k
i=1mi fin ou x =
∑ki=1 xi pi∑ni=1 pi
em que:mi = e o ponto media da classe ifi = e a frequencia absoluta da classe in = e o tamanho da amostrapi = e um fator de ponderacao da classe i
Variancia ponderada:
S2 =∑k
i=1 (m2i fi)−n m2
n−1
em que:m = e a media ponderada
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
IntroducaoMedia e variancia ponderada
Exemplo 5: Considere os seguintes dados agrupados relativo auma amostra aleatoria de municıpios brasileiros no ano de 2000relativo a taxa de alfabetizacao.
Classes da taxa de alfabetizacao Frequencia absoluta
40 ` 50 150 ` 60 560 ` 70 870 ` 80 680 ` 90 12
90 ` 100 8
Qual foi a media e a dispersao da taxa de alfabetizacao?
Allaman, I.B. Medidas estatısticas
Medidas de Tendencia CentralMedidas de Dispersao
Medidas de PosicaoMedidas de Associacao
Box-plotTrabalho com dados agrupados
IntroducaoMedia e variancia ponderada
Exemplo 6: Os dados a seguir sao referentes ao Indice de DesenvolvimentoHumano (IDH) dos municıpios da Microrregiao da Grande Florianopolis.
Municıpio Populacao IDH
Antonio Carlos 6.434 0,83Biguacu 48.077 0,82
Florianopolis 342.315 0,88Governador Celso Ramos 11.598 0,79
Palhoca 102.742 0,82Paulo Lopes 5.924 0,76
Santo Amaro da Imperatriz 15.708 0,84Sao Jose 173.559 0,85
Sao Pedro de Alcantara 3.584 0,80
soma 709,941 7,37
Compare a media simples e a media ponderada do IDH.Allaman, I.B. Medidas estatısticas