estatística descritiva básica: medidas de tendência central · estatística descritiva básica:...
TRANSCRIPT
Estatística descritiva básica: Medidas de tendência central
ACH2021 – Tratamento e
Análise de Dados e Informações
Marcelo de Souza Lauretto
www.each.usp.br/lauretto
*Parte do conteúdo desta apresentação é baseada nos slides da Profa. Patrícia Rufino Oliveira
Introdução
• Tabelas e gráficos são formas convenientes de sumarizar a forma geral de uma distribuição de valores de uma forma facilmente compreensível.
• Contudo, frequentemente se necessita sumarizar a distribuição de forma mais condensada.
• Duas estatística adicionais extremamente úteis: 1. Medidas de tendência central: fornecem uma ideia do caso médio
típico na distribuição. • Ex: "O salário inicial médio para programadores em São Paulo é de R$
3.800,00 mensais."
2. Medidas de dispersão: fornecem uma ideia da variabilidade ou heterogeneidade na distribuição. • Ex: "O salário inicial para programadores em São Paulo varia de R$
3.000,00 a R$ 4.500,00."
• (próximas aulas)
Moda
• A moda de uma distribuição de escores é o valor que ocorre mais frequentemente. – Ex: no conjunto de escores 58, 82, 82, 90, 98, a moda é 82 porque
ocorre duas vezes, enquanto os demais escores ocorrem apenas uma vez.
• Útil para sumarizar variáveis qualitativas. – Ex: preferências de religiões (dados fictícios)
Moda da distribuição: Protestante
• Limitações da moda: – Algumas distribuições não possuem moda;
• Ex:
• Limitações da moda: – Algumas distribuições possuem tantas modas que a estatística deixa
de ter significado.
– Ex: distribuição de escores de testes.
• Modas: 55,66,78,82,90,97. Qual dessas representa um valor "típico"?
• Limitações da moda: – Em variáveis quantitativas ou qualitativas ordinais, a moda pode não
ser central na distribuição como um todo.
– Ex: distribuição de escores de testes.
• Moda: 93; esse valor é um bom representante da distribuição?
Mediana
• A mediana é o valor situado exatamente no centro de uma distribuição de escores.
• Mais precisamente, a mediana é o escore do caso que está exatamente no meio da distribuição: – Metade dos casos têm escores maiores do que a mediana e metade
dos casos têm escores mais baixos do que a mediana.
– Exemplo: Se a mediana da renda familiar anual de uma comunidade é $ 45.000, então metade das famílias ganha mais do que R$ 45.000 e metade ganha menos.
• Cálculo da mediana: – Ordene os escores em ordem crescente (ou decrescente)
– Se o número de elementos (n) for ímpar:
• A mediana será o elemento localizado exatamente no centro.
• O índice do elemento central é dado por (n+1) / 2.
– Se o número de elementos (n) for par:
• A mediana será exatamente o valor central dos dois casos do meio da distribuição.
• Os índices do primeiro e do segundo casos centrais são dados por n/2 e n/2 + 1.
• Por exemplo, se n=14, a mediana é o escore situado no centro dos escores do sétimo e oitavo casos.
• Cálculo da mediana - exemplos:
Cálculo da mediana com sete casos (n ímpar)
Cálculo da mediana com oito casos (n par)
• Cálculo da mediana para dados organizados em tabelas de frequências: a) Calcula-se inicialmente a posição do elemento original dos dados
correspondente à mediana;
b) Determinada a posição da mediana, localiza-se na tabela de frequências a linha que contém essa posição.
• Ex: em um grupo de 36 turmas, as frequências de turmas por número de alunos reprovados foi a observada abaixo. Qual a mediana das reprovações?
Número de alunos reprovados por turma
Frequência Frequência acumulada
0 1 1
1 5 6
2 8 14
3 13 27
4 7 34
5 0 34
6 2 36
• Como n=36 é par, a mediana é a média dos elementos de ordem (36/2)=18 e (36/2)+1=19.
• Analisando as frequências acu- muladas na tabela ao lado, conclui-se que a mediana tem valor 3.
Contém o 18º e o 19º elementos
• Cálculo da mediana para dados agrupados em classes: – Determina-se a linha da tabela que contém a mediana na tabela de
forma similar àquela mostrada no slide anterior (cálculo da mediana para dados organizados em tabelas de frequências);
– Uma vez determinada a classe, deve-se calcular o valor da mediana por método de interpolação.
• Ex: distribuição das notas obtidas por candidatos em um vestibular.
• Após calcular a posição da mediana, localiza-se, a partir das frequências acumuladas na tabela, a classe na qual a mesma se encontra.
• O valor da mediana é obtido aplicando-se a fórmula:
𝑀𝑑 = 𝐿ℎ +𝑎
𝑓ℎ
𝑛
2− 𝐹ℎ−1
onde:
– ℎ = linha da tabela que contém a mediana;
– 𝐿ℎ = limite inferior da classe que contém a mediana;
– a = amplitude do intervalo de classe;
– 𝑓ℎ = frequência da classe que contém a mediana;
– 𝑛 = quantidade total de elementos;
– 𝐹ℎ−1 = Frequência acumulada até a classe anterior à classe que contém a mediana.
Outras medidas de posição: percentis, decis, quartis
• A mediana pertence a uma classe de estatísticas que medem posição ou locação.
• Frequentemente, é útil localizar outros pontos também: – Podemos querer, por exemplo, encontrar os escores que dividem a
distribuição em quatro partes, ou o ponto abaixo do qual um certo percentual dos casos se encontram.
– Uma aplicação típica dessas medidas são os escores em testes padronizados.
• "Um escore de 476 é maior do que 46% dos escores."
Percentis
• Uma estatística comumente utilizada para reportar posições é o percentil, que identifica o ponto abaixo do qual uma porcentagem específica dos casos se encontram. – Ex: Se um escore de 476 é reportado como o 46º percentil, isso
significa que 46% dos casos têm escores abaixo desse valor.
– Percentis comuns: 5%, 10%, 25%, 50% (mediana), 75%, 90%, 95%.
• Cálculo do k-ésimo percentil: 1. Ordene os escores em ordem.
2. Em seguida, multiplique k por cento pelo número total de casos mais um (n+1):
3. Se o valor resultante for um número inteiro:
• Então o k-ésimo percentil será o R-ésimo elemento do rol de escores.
Se o valor resultante não for um número inteiro o k-ésimo percentil é obtido por interpolação:
• Denote por IR a porção inteira de R, e por FR a porção fracionária de R. Por exemplo, se R=2.25, então IR=2 e FR=0.25.
• Denote por XIR e XIR+1 os escores das posições IR e IR+1, respectivamente.
• O k-ésimo percentil será computado como:
OBS: O 100º percentil corresponderá ao maior escore.
)1(100
nk
R
) (percentil ésimo 1 IRIRIR XXFRXk
• Exemplo 1: Calcular o 37º percentil de uma amostra de 78 elementos: – Ordenamos a amostra em ordem crescente;
– Calculamos R:
– IR = 29, FR=0.23
– O 37º percentil corresponderá a 23/100 da distância entre o 29º e o 30º casos:
23.29)178(100
37)1(
100 n
kR
) (23.0 29302937 XXXP
• Exemplo 2: Calcular o 25º percentil da amostra representada na tabela ao lado (já em ordem crescente): – Calculamos R:
– IR = 2, FR=0.25
– O 25º percentil corresponderá a 25/100 da distância entre o 2º e o 3º casos:
• OBS: Pela definição acima, o cálculo da mediana é um caso particular. Por exemplo, a mediana da tabela ao lado é dada por:
25.2)18(100
25)1(
100 n
kR
P25 = X2 + 0.25 (X3 - X2 )
= 5+ 0.25(7- 5) = 5.5
R=50
100(8+1) = 4.5
P50 = X4 + 0.5 (X5 - X4 )
= 8+ 0.5(9 -8) = 8.5
Percentis especiais: decis, quartis, quintis
• Pela definição, percentis dividem a distribuição de escores em centésimos. Alguns tipos especiais de percentis são descritos abaixo.
• Os quartis são bastante populares, e dividem a distribuição de escores em 4 partes (ver figura abaixo). – O 1º, 2º e 3º quartis correspondem ao 25º, 50º e 75º percentis,
respectivamente. São denotados usualmente por Q1, Q2 e Q3.
• Os Decis dividem a distribuição de escores em décimos. – Assim, o 1º decil é o ponto abaixo do qual 10% dos casos se situam, e
é equivalente ao 1º percentil, ou seja, P10.
– Raciocínio análogo serve para o 2º, 3º, ..., 10º decil.
• Os Quintis dividem a população em cinco partes: – O 1º, 2º, 3º e 4º quintis correspondem ao 20º, 40º, 60º e 80º percentis,
respectivamente.
• OBS: Os percentis (incluindo seus casos particulares: mediana, quartis, etc) podem ser aplicados sobre variáveis quantitativas ou qualitativas ordinais.
• Alguns exemplos de aplicação de percentis, quintis e decis são encontrados nos relatórios – Estatísticas de renda no repositório do IPEA:
www.ipeadata.gov.br social Temas Renda:
– Exemplos:
• Renda - razão entre a renda dos 20% mais ricos e a renda dos 20% mais pobres
• Renda domiciliar - participação dos 40% mais pobres
• Renda domiciliar - participação por décimo da população - 1º
• Renda domiciliar - participação por quintil - 1º
– Discuta como os indicadores exemplificados acima são calculados.
Média
• A média é a medida de tendência central mais comumente utilizada para descrever resumidamente uma distribuição de frequência.
• Esta estatística representa o escore médio de uma distribuição observada.
• É usualmente denotada por 𝑋 .
Média aritmética simples
• É dada pela divisão entre a soma dos escores observados (x1, x2, ... , xn) e o número total de observações (n):
𝑋 = 𝑥𝑖
𝑛𝑖=1
𝑛
• Este tipo de média é calculado quando os valores não estão tabulados, ou seja, quando os escores são conhecidos individualmente.
• Ex: Suponha uma mostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em Kg): – 23.0, 20.0, 22.0, 19.0, 25.0, 28.2, 24.0, 21.0, 27.0, 21.0.
– 𝑋 = 𝑥𝑖
𝑛𝑖=1
𝑛=
23+20+22+19+25+28.2+24+21+27+21
10≅ 23.0
Média aritmética ponderada
• É a média aritmética calculada quando os dados estão agrupados em distribuições de frequência.
• Os valores x1, x2, ... , xn são ponderados pelas respectivas frequências absolutas f1, f2, ... , fn:
𝑋 = 𝑓𝑖 𝑥𝑖
𝑛𝑖=1
𝑛
onde n é a soma das frequências: 𝑛 = 𝑓𝑗𝑛𝑗=1 .
• Exemplo 1 (dados não agrupados em classes):
• 𝑋 = 𝑓𝑖 𝑥𝑖
𝑛𝑖=1
𝑛=
0×3+2×1+4×2+2×3+1×4+1×5
13=
25
13= 1.92 ≅ 2.0
• Cada criança de 7 anos de idade da amostra observada tem, em média, 2 cáries.
No de dentes careados (xi) No de crianças (fi) fi xi
0 3 0
1 2 2
2 4 8
3 2 6
4 1 4
5 1 5
Total 13 25
Número de cáries em crianças de 7 anos de idade. Candeias, 1990.
Fonte: (dados hipotéticos)
• Exemplo 2 (tabela de distribuição de dados agrupados em classes):
• Qual era a idade média dos pacientes de Aids na Bahia em 1993?
𝑋 = 𝑓𝑖 𝑥𝑖𝑛𝑖=1
𝑛=
2500
80≅ 31.2 anos.
Casos de Aids segundo faixa etária. Bahia, 1993.
Fonte: (dados hipotéticos)
• Sensibilidade da média a valores extremos: – Quando uma distribuição possui alguns escores extremamente altos
(isso é denominado de assimetria positiva), o valor numérico da média aritmética será maior do que o da mediana;
– Quando uma distribuição possui alguns escores extremamente baixos (assimetria negativa), o valor numérico da média será menor do que o da mediana.
• Sensibilidade da média a valores extremos: – A média e a mediana somente terão os mesmos valores numéricos
quando a distribuição da população é simétrica.
• Sensibilidade da média a valores extremos: – Exemplo: considere a tabela abaixo, em que os escores nas colunas 1 e
3 são quase iguais, exceto o último.
– Para os escores da coluna 1, a média e a mediana são iguais (25);
– Para os escores da coluna 3, a mediana é 25, enquanto a média é 718.
Resumo: medidas de tendência central e aplicações
• As três medidas de tendência central apresentadas têm um objetivo comum. Cada uma retrata alguma informação sobre o valor mais típico ou representativo em uma distribuição.
• A moda reporta o escore mais comum e é adotada mais apropriadamente com variáveis qualitativas nominais.
• A mediana (Md) reporta o escore que está exatamente no centro da distribuição. É mais apropriado com: – variáveis qualitativas ordinais;
– variáveis quantitativas com distribuição assimétrica.
• A média (𝑋 ), a medida mais frequentemente usada, reporta o escore mais típico. É adotada mais apropriadamente com variáveis quantitativas (exceto quando sua distribuição é altamente assimétrica).
• Obs: – É usual adotar a média para variáveis qualitativas ordinais nas
situações as classes são representadas por números (p.ex. variáveis representando escalas de avaliação ou escalas de gravidade de doenças).
– A motivação é que a média é considerada mais flexível do que a mediana, e também porque muitos métodos estatísticos são baseados em médias.
– Todavia, a rigor, em uma variável ordinal nem sempre se pode considerar que as distâncias de escore para escore são iguais (p.ex. a distância do escore “1” para o escore “2” não é necessariamente igual à distância do escore “2” para “3”) e portanto as operações de soma e divisão utilizadas no cálculo da média não são conceitualmente indicadas.