estatística descritiva e inferencial ce081 - people.ufpr.brpeople.ufpr.br/~jomarc/ce081.pdf ·...
TRANSCRIPT
EstatísticaDescritiva e Inferencial
CE081
Prof. Dr. Jomar Camarinha
CONTEÚDO
• Estatística Descritiva e Exploratória
• Teoria dos Conjuntos
• Análise Combinatória
• Noções de Probabilidade
• Noções de Amostragem
• Noções de Estimação de Parâmetros
• Introdução aos Testes de Hipóteses
• Introdução à Regressão e Correlação
EstatísticaDescritiva e Inferencial
Introdução
Alguns Conceitos
Distribuição Amostral
Função de Probabilidade
P-valor
Tomada de Decisões
Exemplos
Processo Científico
1. Introdução
ConhecimentoSuposiçãoHipótese
IdeiaIdeia PlanejamentoExperimental
Delineamentos
ExperimentosAnAnáálise de Dadoslise de DadosEstatística Descritiva eInferencial
Conclusões
Alguns Conceitos
– Experimento Aleatório (“provocar”↔ Condições)
– População e Amostra– Variável– Variável (Resposta) = Var. Independente + Var. Residual– Tipos de Variável:1. Qualitativa: Nominal (N) e Ordinal (O)
2. Quantitativa: Discreta (D) e Contínua (C)– Exemplos:• Raça (N); Produtividade de Leite (?); Dose Medicamento• Grau de Infestação (?); Escolaridade (?); Cor Olhos (?);• Número de Indivíduos Infectados (?); Quantidade de ...
– Fator (Variável Independente)
– Níveis do Fator– Tratamento
– ParcelaExemplo: Colesterol; Medicamento; Dose
– Testemunha (Grupo Controle, Placebo)– Bordadura
– Delineamento
Alguns Conceitos
ExperimentaExperimentaExperimentaExperimentaçççção ão ão ão • Distribuição Amostral
• Função de Probabilidade
(Parâmetros de um Modelo)
• P-valor
• Tomada de Decisões
Distribuição de Frequências
ESTATURAS DE 40 ALUNOS DA FACULDADE A
166 160 161 150 162 160 165 167 164 160
162 168 161 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
Tabela 1 - Primitiva:
Classe Estaturas
(cm) �� ��� �� ���
1 150|—154 4 0,1 4 0,1
2 154 |—158 9 0,225 13 0,325
3 158 |—162 11 0,275 24 0,6
4 162 |—166 8 0,2 32 0,8
5 166 |—170 5 0,125 37 0,925
6 170 |—174 3 0,075 40 1
∑ = 40 ∑ = 1,00
Tabela 5 – Distribuição de Frequências dos dados de Estatura:
Aspectos da mortalidade atribuível ao tabaco: revisão
sistemática
186 artigos:⇒⇒⇒⇒ 30 selecionados:
Risco atribuível na população (SAM).
Amostra final: 41 artigos
Comparações de medidas de qualidade de vida
entre mulheres e homens em hemodiálise
Escores:
- PCS: entre 14,6 e 60,7 (média=39,7±10,3; mediana=40,8)
- MCS entre 14,2 e 75,0 (média=47,7±12,4; mediana=48,6)
- Sintomas/problemas entre 12,5 e 100(média=76,4±17,8; mediana=81,2).
Conclusões:- Significantemente menores em mulheres
- As diferenças entre mulheres e homens foram:de 2,4 pontos para PCS (P=0,005); de 3,0 pontos para MCS (P=0,005);de 6,6 pontos para sintomas/problemas (P<0,001).
Exemplo 1
175 > 173?(DEPENDE!!!)
• n • Variabilidade• Comportamento dos Dados
(Função de Probabilidade)
Exemplo 2
• Experimento: 16 bolas
n = 2 (s/ rep.)
45
40
20
6
8
1
120
Função de Probabilidade
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
AA VV VA BA BV BB
Tomada de Decisões
Situações Ocorrência Implicação Decisão
A Afirmação Falsa Mentiu
B Afirmação Possível
C Afirmação Possível
Exemplo 1
180 > 173?
Depende!!!
X
Θ
N
n
n
n
n
. . . . . .
1θ̂
2θ̂
3θ̂
Kθ̂
3210-1-2-3 θ̂
2 1 02 0 01 9 01 8 01 7 01 6 01 5 01 4 01 3 0
0 ,0 3 5
0 ,0 3 0
0 ,0 2 5
0 ,0 2 0
0 ,0 1 5
0 ,0 1 0
0 ,0 0 5
0 ,0 0 0
X
Density
D is tr i bu t io n P lo tNo rm a l; M e a n= 1 7 3 ; S tDe v= 1 2
0 ,4
0 ,3
0 ,2
0 ,1
0 ,0
X
Density
1 7 5 ,4
0 ,0 0 8
1 7 3
N o rm a l; M e a n = 1 7 3 ; S tD e v= 1
D is t r ib u t io n P lo t n = 1 4 4
Intervalo de ConfiançaTeste de Hipóteses
• Interpretação
• Regra de Decisão
• P-Valor
X
Θ
N
n
n
n
n
. . . . . .
1θ̂
2θ̂
3θ̂
Kθ̂
3210-1-2-3 θ̂
ANOVA
Definição
• Decomposição da Variabilidade Total
Var. Total = Var. Tratamentos + Var. Residual
ANOVA
• Delineamentos: Inteiramente casualizado, blocos ao acaso, quadrado latino, parcelas subdivididas, delineamentos em faixas.
• Princípios Básicos da Experimentação
Repetição
Casualização
Controle Local
Princípios Básicos da Experimentação
EB Repetições
A A A A A A
B B B B B B
EB Repetições com Casualização
A A B A B A B B A
B B B A A B A A B
EB Repetições com casualização e controle local
A A B B A B A B B
B B A A B A B A A
Princípios Básicos da Experimentação
Pressupostos para Realização da ANOVA
• Normalidade (Histograma Res.; qqplot) (Shapiro-Wilk)
• Independência (Res. x Valores ajustados)
• Homocedasticidade (ResxTrat) (Bartlett)
Experimentos no Delineamento Inteiramente Casualizado
Características
• Homogeneidade: Material Experimental Condições Ambientais
• Alocação dos Tratamentos
• Vantagens e Desvantagens
ANOVA - DIC
• Modelo Probabilístico
ijiij ety ++= µ
);(~ 2σµNeij
iid
ii t+= µµ
Variabilidades EnvolvidasVariabilidades Envolvidas
.1y
..y
.2y
.Iy
Repetições
Tratamentos 1 2 ... J Média
1 y11 y12 ... y1J
2 y21 y22 ... y2J
... ... ... ... ... ...
I yI1 yI2 ... yIJ
Ho: µ1 = µ2 = µ3 = … = µT
Decomposição da Variabilidade
( ) ( ) ( )[ ]
( ) ( ) ( )( )..
2
..
2
2
..
2
..
..2..
..
yyyyyyyy
yyyyyy
iiijiiij
iiijij
−−+−+−
−+−=−
( ) ( ) ( )[ ].... .. yyyyyy iiijij −+−=−
( ) ( ) ( )∑ ∑∑∑∑= === =
−+−=−I
i
I
i
i
J
j
iij
I
i
J
j
ij yyJyyyy1
2
1
..
1
2
1 1
2
.. ..
Decomposição da Variabilidade
Distribuições
Funções de Densidade
( )2
1 1
2
..
σ
∑∑= =
−I
i
J
j
ij yy
( )2
1 1
2.
σ
∑ ∑= =
−I
i
J
j
iij yy
( )2
1
2
...
σ
∑=
−I
i
i yyJ
∑∑ −I
i
J
j
ij Cy 2
Fontes de Variação
Graus de Liberdade
Soma de Quadrados
Quadrado Médio
F
Tratamentos I - 1 SQtrat/(I-1) QMtrat/QMres
Resíduo I.(J – 1) Por diferença
SQres/I(J-1)
Total I.J - 1
∑ −I
i
i CyJ
2
.
1
SQHo Ho: µ1 = µ2 = µ3 = … = µT
Ha: pelo menos um par difere
Testes de Comparações Múltiplas e
Análise de Regressão
• Contrastes de Médias
– Tukey– Duncan– Dunnett
• Regressão Polinomial
TUKEY
r
QMq sRe.=∆
EXEMPLO
• Comparação:
• 88t/ha e 93t/ha
• ∆ = 7,6 t/ha
Variabilidades EnvolvidasObtenção das Variabilidades Envolvidas
Repetições
Tratamentos 1 2 ... J Total
1 y11 y12 ... y1J y1.
2 y21 y22 ... y2J y2.... ... ... ... ... ...I yI1 yI2 ... yIJ y3.
y..
Ho: µ1 = µ2 = µ3 = … = µT
Exemplo Linhagens Repetições Total I II III IV V VI
L1 385 323 417 370 437 340 2272 L2 406 385 444 443 474 437 2589 L3 354 292 389 312 432 299 2078 L4 271 208 347 302 370 264 1762 L5 344 292 354 354 401 306 2051 L6 354 354 410 453 448 417 2436 L7 167 115 194 130 240 139 985 L8 344 385 410 437 437 410 2423 L9 385 385 396 453 458 417 2494
Total 19090
Somas de Quadrados
• SQTotal =
• SQTrat =
1,918.3326.9
19090)2494...25892272(
6
1 2
222 =−+++=
∑ −I
i
i CyJ
2
.
1
∑∑ −I
i
J
j
ij Cy2
5,119.4206.9
19090417...323385
2
222 =−+++=
Fontes de Variação
Graus de Liberdade
Soma de Quadrados
Quadrado Médio
F
Tratamentos 9 - 1 332.918,1 332.918,1/8 21,48**
Resíduo 9.(6 – 1) Por diferença
87.201,4/45
Total 9.6 - 1 420.119,5
SQTrat Ho: µ1 = µ2 = µ3 = … = µT
Ha: pelo menos um par difere
ANOVA
TUKEY
• q = amplitude total estudentizada• I e g.l. do Resíduo.
r
QMq sRe.=∆
• ∆=4,64.√1938/6 = 83,39 micras /h;
• Diferença Significativa > ∆;
• Exemplo:
L6 x L4: 406,00 - 293,67 = 112,33
TUKEY
Tabela Resumo
Tratamento Média Diferenças
L2 431,50 A
L9 415,67 AB
L6 406,00 AB
L8 403,83 AB
L1 378,67 AB
L3 346,33 BC
L5 341,83 BC
L4 293,67 C
L7 164,17 D
Contrastes
• Contraste: Y= a1µ1 + a2 µ2 + ... + akµk
• Teste:
0=∑k
ii
a
)ˆ(
ˆ
YS
DYt
−=
k
k
k
kk
r
Sa
r
Sa
r
SaYV
VaVaYYVOCYV
2
2
2
2
22
2
1
2
12
1
2
1
2
1
...)ˆ(ˆ
)ˆ(ˆ...)ˆ(ˆ)ˆ;ˆ(ˆ)ˆ(ˆ
+++=
++== µµ
Contrastes
r
QMaaa
r
Sa
r
Sa
r
SaYV
s
k
k
k
k
Re22
2
2
1
2
2
2
2
22
2
1
2
12
1
)...(
...)ˆ(ˆ
+++=
=+++=
Tukey Aproximado
• Dados Desbalanceados
2
)ˆ(ˆ.'
YVq=∆
Contrastes
• Ortogonais: Covariância Nula
• I – 1 contrastes.
02 =∑ i
k
ii
ii Sr
ba
Exemplo• 4 Tratamentos:1- Abacaxi (0,9x0,3 m) -2 - Abacaxi (0,8x0,3 m) -3 - Abacaxi + Amendoim -4 - Abacaxi + Feijão -
1 (1 e 2) x (3 e 4) = - 13t/ha 2 (1) x (2) = - 3t/ha3 (3) x (4) = 2t/ha4
hat
hat
hat
hat
/5,60ˆ
/5,62ˆ
/5,56ˆ
/5,53ˆ
4
3
2
1
=
=
=
=
µ
µ
µ
µ
TESTE “t”
)ˆ(
ˆ
YS
DYt
−=
Teste
• Para o Contraste:
(1 e 2) x (3 e 4) = - 13t/há
)ˆ(
013
YSt
−−=
4,08
8,0])1()1(11[
)...()ˆ(ˆ
2222
Re22
2
2
1
=−+−++=
=+++=r
QMaaaYV s
k
Teste “t”
55,204,0
013−=
−−=t
Blocos Casualizados
BLOCOS TRAT. 1 2 3 4
TOTAIS
1 142,36 144,78 145,19 138,88 271,21 2 139,28 137,77 144,44 130,61 552,10 3 140,73 134,06 136,07 144,11 554,97 4 150,88 135,83 136,97 136,36 560,04 5 153,49 165,02 151,75 150,22 620,48
TOTAIS 726,74 717,46 714,42 700,18 2858,80
Somas de Quadrados
• SQTotal =
SQTrat =
SQBlocos =
95,12734.5
8,285822,150...36,142
222 =−++=
∑∑ −I
i
J
j
ij Cy2
CCyJ
I
ii
−++=−∑ )48,620...21,271(5
11 222
.
CCyI
J
jj
−++=−∑ )18,700...74,726(5
11 222
.
ANOVA
Source DF Seq SS Adj SS Adj MS F P Tratamentos 4 794,93 794,93 198,73 5,87 0,007 BLOCOS 3 72,70 72,70 24,23 0,72 0,561 Error 12 406,32 406,32 33,86 Total 19 1273,95
Ensaios Fatoriais – Ex.17
85,321,322,821,419,86
80,219,218,819,422,85
78,318,619,021,119,64
103,526,425,126,325,73
101,325,226,724,624,82 =
102,625,425,026,026,21 = R1E1
4321
TOTAISREPETIÇÕESTRAT.
Variabilidades
23,659.1246
2,551 22
=×
==IJ
GC
79,1984.6
2,5513,21...0,262,26
2222 =−+++=
∑∑ −=I
i
J
j
ijTotal CySQ 2
70,175)3,85...6,102(4
11 222
. =−++=−= ∑ CCyJ
SQI
i
iTrat
Desdobramento do g.l.
× ..2
..1)(
..2)(Re
..5
lgERInteração
lgEEspécies
lgRcepientes
lgsTratamento
551,2165,5181,8203,9TOTAIS
264,985,378,3101,3E2
286,380,2103,5102,6E1
TOTAISR3R2R1(4)
86,92)5,1658,1819,203(8
1 222
Re =−++= CSQ cipientes
08,19)9,2643,286(12
1 22 =−+= CSQEspécies
70,175)3,85...6,102(4
1 22 =−++= CSQRE
76,6308,1986,9270,175
Re
=−−=
−−=× EspcERInteração SQSQSQRESQ
Quadro da ANOVA
Analysis of Variance for Altura Eucaliptos, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P RECIPIENTE 2 92,861 92,861 46,430 36,20 0,000 ESPÉCIE 1 19,082 19,082 19,082 14,88 0,001 RECIPIENTE*ESPÉCIE 2 63,761 63,761 31,880 24,85 0,000 Error 18 23,090 23,090 1,283 Total 23 198,793
Split-PlotExemplo
aCaracterísticas:Divisão em subparcelas;Tratamentos principais: níveis de fator
colocado;Tratamentos secundários: níveis de fator
casualizado;
Experimento: Calcário e Fertilizante;
Modelo: yijk = µ + ci + fk + (cf)ik + bj + (cb)ij + eijk
onde:
(cb)ij = Resíduo (A)
eijk = Resíduo (B)
Croqui
A2B1
A2B3
A2B2
A1B2
A1B1
A1B3
A1B2
A1B1
A1B3
A2B1
A2B2
A2B3
A2B1
A2B3
A2B2
A1B1
A1B3
A1B2
A1B2
A1B3
A1B1
A2B3
A2B2
A2B1
1°BLOCO 2°BLOCO 3°BLOCO 4°BLOCO
Exemplo 18VARIEDADES (A)
TRATAMENTOS DE SEMENTES
(B)
BLOCOSTOTAIS1 2 3 4
A1
B1 42,9 41,6 28,9 30,8 144,2B2 53,8 58,5 43,9 46,3 202,5B3 49,5 53,8 40,7 39,4 183,4B4 44,4 41,8 28,3 34,7 149,2
A2
B1 53,3 69,6 45,4 35,1 203,4B2 57,6 69,6 42,4 51,9 221,5B3 59,8 65,8 41,4 45,4 212,4B4 64,1 57,4 44,1 51,6 217,2
A3
B1 62,3 58,5 44,6 50,3 215,7B2 63,4 50,4 45,0 46,7 205,5B3 64,5 46,1 62,6 50,3 223,5B4 63,6 56,1 52,7 51,8 224,2
A4
B1 75,4 65,6 54,0 52,7 247,7B2 70,3 67,3 57,6 58,5 253,7B3 68,8 65,3 45,6 51,0 230,7B4 71,6 69,4 56,6 47,4 245,0
TOTAIS 965,3 936,8 733,8 743,9 3379,8
Variabilidades (SQs)
• C = 3.379,8²/64 = 178.485,13
• SQT = 42,9² + 41,6² + ... + 47,4² - C =
7.797,39
• SQBlocos = (965,3+ ... + 743,9²)/16 - C
(4) BLOCO 1 BLOCO 2 BLOCO 3 BLOCO 4 TOTAIS
A1 190,6 195,7 141,8 151,2 679,3
A2 234,8 262,4 173,3 184,0 854,5
A3 253,8 211,1 204,9 199,1 868,9
A4 286,1 267,6 213,8 209,6 977,1
TOTAIS 965,3 936,8 733,8 743,9 3.379,8
• SQVar(A) = (679,3² + ... + 977,1²)/16 – C
• SQParc = (190,6² + ... + 209,6²)/4 – C
• SQRes(A) = SQParc – SQBlocos – SQA
= 6.309,19 – 2.842,87 – 2.848,02 = 618,19
(4) B1 B2 B3 B4 TOTAIS
A1 144,2 202,5 183,4 149,2 679,3
A2 203,4 221,5 212,4 217,2 854,5
A3 215,7 205,5 223,5 224,2 868,9
A4 247,7 253,7 230,7 245,0 977,1
TOTAIS 811,0 883,2 850,0 835,6 3.379,8
• SQTrat de sem(B) = (811,0² + ... + 835,6²)/16 – C
• SQA,B = (144,2² + ... + 245,0²)/4 – C
• SQAxB = SQA,B – SQA – SQB
= 3.605,02 – 2.848,02 – 170,53
• SQRes(B) = SQTotal – SQParc – SQB – SQAxB
= 7.797,39 – 6.309,19 - 170,53 – 586,47
= 731,20
Quadro da ANOVA
Analysis of Variance for Aveia, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P Blocks 3 2842,87 2842,87 947,62 31,60 0,000 A 3 2848,02 2848,02 949,34 31,66 0,000 B 3 170,54 170,54 56,85 1,90 0,144 A*B 9 586,47 586,47 65,16 2,17 0,042 Error 45 1349,50 1349,50 29,99 Total 63 7797,39
Análise Combinatória
• Objetivo: resolver problemas de contagem
• Estabelecer métodos
(contagem → Agrupamentos)• Princípio Fundamental da Contagem (PFC)
Evento (fato) → composto etapas → cada uma por certas quantidades;
Evento (fato) = produto dessas etapas
Exemplos
1. Refeição;
2. Vestir;
3. Carro;
4. Obter nº naturais:
a) 3 algarismos (com rep.); {1a5}
b) 3 algarismos distintos; {1a5}
c) 4 alg. Distintos; {0a4}
d) Múltiplos de 5 c/4alg. dist.; {0a5}
Exemplos
5. Nº naturais maiores que 64.000; {0;1;2;4;5;6;7;9} com 5 alg. distintos;
6. Placas;
7. Ordem crescente os N com 4 alg. dist.; {1;3;5;7}. Que lugar (ordem) ocupa o nº5731?
8. Turista (viagem): A→B (3R e 2F); B→C (2R e 2F). Percursos distintos?