estatística descritiva faculdade de odontologia são josé dos campos unesp ivan balducci
TRANSCRIPT
Estatística DescritivaEstatística Descritiva
Faculdade de Odontologia
São José dos Campos UNESP
Ivan Balducci
Estatística DescritivaEstatística Descritiva
Resume um número grande de observações
Termos que devem ser Termos que devem ser familiares:familiares:
Tendência Central Dispersão
Média Mediana
Moda
TabelaHistograma
Box-PlotDesvio PadrãoCoeficiente de
variação
Indicadores de tendência central (grandeza dos números)
Indicadores de dispersão (variabilidade dos números)
Estatística DescritivaEstatística Descritiva
Indicadores de Indicadores de tendência centraltendência central
MédiaMediana
Moda
Média aritméticaMédia aritmética
Obs n
Sigma = Soma de...
Número deobservações
Soma das observações
Número de observações
Tendência central: Exemplo 1
1,901,931,981,911,801,841,882,031,961,86
Média = Alturas n
= 19,09m 10
= 1,909m
Alturas de Homens (m)
A média indica uma altura representativa?
2.05
2.00
1.95
1.90
1.85
1.80
1.75
Média
A média indica uma altura que é
representativa do grupo.
Neste caso, a média é um indicator
satisfatório de tendência central.
Tendência central: Exemplo 2
3140495621470473543581014533
42526539058305828747392343256
5543156762183335446749293876
Média = Tempo n
= 3707 s 39
= 95,05 s
Tempo p/ crianças completarem um quebra-cabeças (s)
A média indica um tempo representativo?
600
500
400
300
200
100
0
Média
A média indica um tempo que não é típico. No caso, uma
criança que leva 95 s é de fato lenta.
Um pequeno número de outliers produziram efeito desproporcionado sobre a
média.
MedianaMediana
Um valor escolhido de tal forma que divide os dados em duas partes, com igual número de observações acima e abaixo do valor
escolhido
Tempo: 15 23 29 30 31 33 33 35 38 39 40 42 43posição: 1 2 3 4 5 6 7 8 9 10 11 12 13
Tempo: 43 43 45 47 47 49 49 52 54 55 56 58 58posição: 14 15 16 17 18 19 20 21 22 23 24 25 26
Tempo: 62 65 67 70 76 87 101 183 214 256 390 467 582posição: 27 28 29 30 31 32 33 34 35 36 37 38 39
Encontrando a mediana por ordenação
Há 19 crianças +rápidas e 19 - rápidas do que a criança indicada. A mediana é 49 s.
A mediana indica um tempo representativo?
Mediana
A mediana indica um tempo que é
razoavelmentetípico. Uma criança que
leva 49s não é especialmente rápida ou
lenta.
600
500
400
300
200
100
0
Tempo: 15 23 29 30 31 33 33 35 38 39 40 42 43 posição: 1 2 3 4 5 6 7 8 9 10 11 12 13
Tempo: 43 43 45 47 47 49 49 52 54 55 56 58 58 posição: 14 15 16 17 18 19 20 21 22 23 24 25 26
Tempo: 62 65 67 70 76 87 101 183 214 256 390 467 582 posição: 27 28 29 30 31 32 33 34 35 36 37 38 39
Efeito de extremos: valores discrepantesEfeito de extremos: valores discrepantes
Mediana é descrita como ‘Robusta’. Ela é resistente aos efeitos de alguns valores
discrepantes.
9000
Cálculo da mediana com um Cálculo da mediana com um número par de observaçõesnúmero par de observações
Valores: 2 4 6 6 7 9 12 2 0posições: 1 2 3 4 5 6 7 8
Localize o par central.Valores são 6 e 7
Mediana = 6,5
Md = [(n/2) + ((n/2) +1)] /2 = 4º e 5º
Moda
Valor que ocorre com um pico de freqüência
Não há fórmula para o cálculo da moda
Tendência central: Exemplo 3Número de dentes presentes em uma população de
idosos13121110 9 8 7 6 5 4 3 2 1 0
************************************************************************************************************************************************************
Média = 6,69Mediana = 8
Moda (Aprox. 9)
Moda (Aprox. 1)
Indicadores de tendência Indicadores de tendência centralcentral
Média
Mediana
Moda
O indicador padrão. OK para muitos conjuntos
de dados
Usada com frequência
Muito rara - apenas usada com dados polimodais
Indicadores de Indicadores de dispersãodispersão
Desvio-PadrãoCoeficiente de variação
Peso de camundongos (g)
17 23 21 20 19 26 19 17 21 23 18 20 22 10 23 13 20 30 20 18Total 200g Total 200g Média 20g Média 20g
Animais de laboratório ração
Animais selvagens alimentação natural
laboratório selvagens30
25
20
15
10
Peso de camundongos (g)
Desvio Padrão – camundongos de laboratório
Pesos Desvio Desvio da média ao quadrado 17 g -3 g 9 21 +1 1 19 -1 1 19 -1 1 21 +1 1 18 -2 4 22 +2 4 23 +3 9 20 0 0 20 0 0 30
(Soma)2 = 30
(Soma)2 = 30 = 3,33 n-1 9
3,33 = 1,83
Desvio Padrão – camundongos selvagens
Pesos Desvios Desvios da média ao quadrado 23 g +3 g 9 20 0 0 26 +6 36 17 -3 9 23 +3 9 20 0 0 10 -10 100 13 -7 49 30 +10 100 18 -2 4 316
(Soma)2 = 316
SS = 316 = 35,11n-1 9
35,11 = 5,93 g
Desvio-Padrão Comparação
Peso médio camundongo de laboratório
= 20 ± 1,83 g (± D.P.)
Peso médiocamundongo selvagem
= 20 ± 5,93 g (± D.P.)
Mesma tendência centralDiferente dispersão
Coeficiente de variaçãoCoeficiente de variação
C.V. = D.P. Média
Pode ser expresso em porcentagem.
C.V. (%) p/ camundongos de laboratório=(1,83/20)x100=9,15%
C.V. (%) p/ camundongos selvagens=(5,93/20)x100=29,65%
Tendência
Central
Fórmula Prós Contras
Média Σx/ N
* é precisa
* é apenas um valor para os
dados
*Assimetria produzida pelos
outliers
* Média pode não ser realista
MedianaValores
Ordenados, então (N+1)/2
* Não é influenciada
pelos outliers
* Não é boa se os dados não se aglomeram ao
redor da mediana
Moda Maior
Frequência
* Pode ser bimodal
* Não precisa estar perto da
metade
* Imprecisa
HISTOGRAMAHISTOGRAMA
Os retângulos são desenhados de modo que a área de cada retângulo seja
proporcional à freqüência
Se a base = 1 ...então a área = freqüência
xj-1 xj X
Histograma: conjunto de retângulos justapostos
Área retângulo= base x altura = bj * fj
(fj =frequência da classe)
Base retângulo= xj – xj-1 = bj = amplitude da classe
Exemplo: Notas de exame de uma classe de 80 alunos
72 71 39 63 83 32 65 52 91 60 54 70 29 73 75 65
38 65 42 49 89 28 72 63 49 40 52 61 36 40 93 70
43 59 58 81 60 39 81 73 67 58 58 39 49 38 53 79
81 90 56 56 52 49 58 69 76 52 77 74 62 59 57 37
79 83 72 60 62 48 45 75 72 68 88 68 31 60 61 46
Notas de exame de 80 alunos: Distribuição agrupada de freqüências
Notas 90-99 80-89 70-79 60-69 50-59 40-49 30-39 20-29
Nº
3 7 16 17 15 11 9 2
0
2
4
6
8
10
12
14
16
18
CLASSES (Categorias de Notas)
Nº
20-29
30-39
40-49
50-59
60-69
70-79
80-89
90-99
Notas de exame de 80 alunos dispostas em um gráfico de barras
Box Plot ou esquema dos Box Plot ou esquema dos 5 números5 números
•Mínimo
•1º quartil
•2º quartil (Mediana)
•3º quartil
•Máximo
Q1
25º Percentil
Q1
25º Percentil
Quartis
25%
Menor Valor
Maior Valor
Q3M
1º Quartil
50%
Menor Valor
Maior Valor
Q3Q1
2º Quartil
Q1
25º Percentil
Q1
25º Percentil
25%
1º Quartil
Mediana50º Percentil
Mediana50º Percentil
Quartis
75%
Menor Valor
Maior Valor
Q1
3º Quartil
Q1
25ºPercentil
Q1
25ºPercentil
25%
1º Quartil
Mediana50º Percentil
Mediana50º Percentil
50%
2º Quartil
Q3
75º Percentil
Q3
75º Percentil
Quartis
Faixa
Faixa = Maior Valor - Menor Valor
Menor Valor
Maior Valor
Q1 M Q3
Faixa
Faixa Interquartil
Faixa Interquartil = Q3 - Q1
Menor Valor
Maior Valor
Q1 M Q3
IQR
SimetriaOs valores dos dados se dispersam igualmente
ao redor de um valor central
Valores
SimetriaOs valores dos dados são Espelho-Imagem ao
redor de um ponto
Valores
Um lado é o Espelho - Imagem do outro
Simetria
Média = Mediana
Os valores se dispersam igualmente ao redor de um valor central
Assimetria-PositivaOs valores dos dados se dispersam para a Direita
Mediana < Média
Média situa-se à direita da mediana
Assimetria-PositivaOs valores dos dados se dispersam para a Direita
Assimetria-NegativaOs valores dos dados se dispersam para a Esquerda
Média < Mediana
Média situa-se à esquerda da mediana
Assimetria-NegativaOs valores dos dados se dispersam para a Esquerda
Box Plot
Q3
Q1
Metade dos dados
Metade dos dados
No
tas
100
95
90
85
80
75
70
Box Plot
Q3
Q1
Metade dos dados
Metade dos dadosM
No
tas
100
95
90
85
80
75
70
Box Plot
Q3
Q1
Dispersão dos Dados
Dispersão dos DadosM
Máximo
Mínimo
No
tas
100
95
90
85
80
75
70
Forma da Distribuição Box-Plots
Dir-Assim.Esq-Assim. Simétrica
Q1 Mediana Q3Q1 Mediana Q3 Q1
Mediana Q3
TabelasTabelas
Forma não discursiva de apresentar informações, nas quais o dado
numérico se destaca como informação central
Números não falam por si mesmos
Elementos da Tabela
TítuloCorpo
CabeçalhoColuna indicadora
Elementos da Tabela
Título: explica o que a tabela contémCorpo: formado pelas linhas e colunas
de dados (números)Cabeçalho: especifica o conteúdo das
colunasColuna Indicadora: especifica o
conteúdo das linhas
Casos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993.
Causa Freqüência
Acidente
Abuso
Suicídio
Profissional
Outras
Ignorada
29601
2604
7965
3735
1959
1103
Fonte: MS/FIOCRUZ/SINITOX
Título: Casos registrados...
Cabeçalho: Causa Freqüência
Coluna Indicadora: especificações Acidente, Abuso, Suicídio etc..
Corpo: 29601 2604 7965 3735 1959 1103
Estruturação
MÍNIMO de 3 TRAÇOS HORIZONTAIS PARALELOS
O 1º p/ separar o TOPO
O 2º p/ separar o CABEÇALHO
O 3º p/ separar o RODAPÉ (espaço inferior da tabela destinado à fonte, às notas,
chamadas...)
No nosso exº: Fonte: MS/FIOCRUZ?SINTOX
Tabela desnecessária !!!Tabela desnecessária !!!Grupo Nº de
ratosSexo Idade
Controle 20 M 20 a 30 dias
Tratado 20 M 20 a 30 dias
“Tanto o grupo controle como o grupo tratado foram constituídos por 20 ratos
machos com idades variando entre 20 e 30 dias”
Estatística descritiva dos pesos (g) adquiridos pelos camundongos selvagens e de laboratório
Estatística Laboratório Selvagens
n 10 10
Média 20,00 20,00
Desvio Padrão 1,83 5,93
C. V. (%) 9,15 29,65
Exemplos- Estatística Exemplos- Estatística Descritiva na Literatura Descritiva na Literatura
OdontológicaOdontológica
Avaliação Crítica da Aplicabilidade do Índice de O’LEARY em Relação
aos Índices de GREENE-VERMILLION e de LÖE & SILNESS
Rev Odontol Univ São Paulo
v.8, n.4, p.301-307, out.dez. 1994.
Cesário Antonio DUARTE
Índice Gengival
Períodos Média Desvio Padrão
0 1,43 0,41
1 1,19 0,39
2 1,10 0,45
3 0,98 0,52
4 0,80 0,43
5 0,63 0,42
TABELA 1. Médias e desvios padrões dos índices em seis períodos de avaliação.
Investment strength as a function of time and
temperatureC.L. Chew, M.F. Land, C.C. Thomas, R.D.
Norman
Journal of Dentistry 27 (1999) 297-302
Tabela 1. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. Temperatura ambiente.
Revestimento 2h 6h 12h 24h
Cerafina 4,23(0,20) 6,63(0,25) 6,14(0,43) 7,55(0,35)
Ceramigold 3,39(0,14) 5,31(1,19) 5,81(0,42) 8,79(0,38)
Novocast 4,03(0,21) 4,08(0,24) 3,95(0,24) 4,23(0,36)
Tabela 2. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. 700ºC.
Revestimento 2h 6h 12h 24h
Cerafina 16,24(1,76) 17,75(1,08) 16,80(1,81) 14,99(1,86)
Ceramigold 14,18(1,64) 15,35(1,01) 12,20(0,50) 10,13(0,56)
Novocast 4,9(0,42) 5,17(0,18) 5,29(0,25) 4,24(0,51)
Tabela 3. Média (DP) dos dados (MN/m2) de resistência, segundo o revestimento e tempo após a mistura. 872ºC.
Revestimento 2h 6h 12h 24h
Cerafina 22,39(1,78) 21,09(2,42) 20,15(1,98) 22,26(1,67)
Ceramigold 14,58(0,56) 13,60(1,11) 12,69(1,22) 11,23(1,05)
Tendência Central Média
Mediana Moda
TabelaHistograma
Box-Plot
DispersãoDesvio Padrão
FaixaFaixa Inter-
quartil