anotacoes de aula 5 - correlação e regressao linear
TRANSCRIPT
189
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
Essa Unidade está no capítulo 11 do livro base: MONTGOMERY,
Douglas C, RUNGER, George C. Estatística aplicada e Probabilidade
para Engenheiros. 4ª edição. Rio de Janeiro: LTC, 2009.
Você também pode, se preferir, fazer a leitura do capítulo 10 do
livro do Mario Triola, Introdução à Estatística, LTC, 2005.
Cópias desses capítulos podem ser obtidas por meio da Pasta do
Professor Professor (www.pastadoprofessor.com.br), fazendo login
nessa página e enviando-as para serem impressas na Copiadora
Set (casa amarela) da Unidade do Coração Eucarístico, ou em
alguma outra copiadora da Unidade a que o aluno pertence.
Não deixem de ler!
Nota importante:
• Essas aulas foram produzidas por meio de coletânea dos textos indicados na bibliografia. Não são citadas diretamente para não poluir o visual dos mesmos.
• Os textos estão organizados e traduzidos para minha linguagem didática pessoal.
• Um estudo mais aprofundado deverá ser baseado nas referências bibliográficas indicadas.
Algumas notas de aulas: 1. Introdução
A associação entre duas variáveis quantitativas também é chamada de medida de relação. As medidas de relação aqui estudadas são as que objetivam linearidade: correlação e regressão.
Segundo ou dicionário Aurélio, correlação significa relação mútua entre dois termos, qualidade
de correlativo, correspondência. Correlacionar significa estabelecer relação ou correlação entre; ter correlação. Enquanto que a palavra regressão significa: ato ou efeito de regressar, de
voltar, retorno, regresso; dependência funcional entre duas ou mais variáveis aleatórias. A palavra regredir significa ir em marcha regressiva, retroceder.
Os termos correlação e regressão surgiram com Francis Galton (1822-1911), primo de Charles
Darwin, que usou pela primeira vez esses termos. Seu trabalho influenciou a Estatística e a Psicologia.
Galton publicou o livro Gênio Hereditário, em 1869, onde aplicou conceitos estatísticos a problemas da hereditariedade. Galton ficou impressionado com a distribuição normal aplicada a
área de biologia por Adolph Quételet (1796-1874), que mostrara no livro “O homem Médio”, que a estatura de dez mil sujeitos seguia uma distribuição normal, ou seja, a maioria dos
sujeitos tinha suas estaturas em torno da média e que uma quantidade, cada vez menor, vai
sendo encontrado à medida que se afasta da média.
190
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
Galton cunhou o termo regressão quando observou que filhos de homens altos, não são, em
média, tão altos quanto os pais, enquanto que os filhos de homens muito baixos são, em média, mais altos do que os pais. Ele concebeu uma forma gráfica de representar as
propriedades básicas do coeficiente de correlação. Ele aplicou o seu método de correlação a variações de medidas físicas, por exemplo, mostrou a correlação entre a altura do corpo e o
comprimento da cabeça. Seu aluno Karl Pearson desenvolveu a fórmula matemática, que usamos hoje e que tem o seu
nome em homenagem. O símbolo do coeficiente de correlação r, vem da primeira letra de
regressão, em reconhecimento a Galton.
2. A Covariância e o Coeficiente de Correlação de Pearson
Quando estudamos a relação entre duas variáveis X e Y devemos apreender um novo conceito
que é a covariância. Se a variância é uma estatística através da qual chegamos ao desvio-padrão que é uma medida da dispersão dos dados. Semelhantemente, a covariância é uma
medida da variação (dispersão) conjunta entre os dados de X e Y. Essa medida estatística nos possibilita chegar ao coeficiente de correlação o qual mede o grau de associação “linear” entre
duas variáveis aleatórias. Apresentaremos esses conceitos por meio do exemplo a seguir.
Exemplo 1: Sejam as variáveis aleatórias X, renda bruta anual em milhões de reais e Y,
percentual da renda bruta gasto com assistência médica, que tomam os seguintes valores:
Calculando as estatísticas descritivas temos:
Uma forma mais simplificada para os cálculos é por meio da utilização da escrita de algumas
somas intermediárias, tais como:
n
x
xS
n
i
in
i
ixx
2
1
1
2
n
yx
yxS
n
i
i
n
i
in
i
iixy
11
1
A covariância é obtida por meio da seguinte fórmula:
11),cov(
n
S
n
yyxxYX
xy
Renda bruta (X), em R$ 12 16 18 20 28 30 40 48 50 54
% gasta (Y) 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5
Variável n Média Variância Desvio-padrão
Renda bruta (X), em R$ 10 31,60 238,04 15,43
% gasta (Y) 10 6,45 0,43 0,66
191
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
O próximo quadro apresenta alguns cálculos intermediários para esse banco de dados:
Renda bruta (X) % gasto (Y) XY X2
Y2
12 7,2 86,4 144 51,84
16 7,4 118,4 256 54,76
18 7,0 126,0 324 49,00
20 6,5 130,0 400 42,25
28 6,6 184,8 784 43,56
30 6,7 201,0 900 44,89
40 6,0 240,0 1600 36,00
48 5,6 268,8 2304 31,36
50 6,0 300,0 2500 36,00
54 5,5 297,0 2916 30,25
X = 316 Y = 64,5 X Y = 1952,4 X2 = 12128 Y
2 =419,91
8,852,20384,195210
)5,64)(316(4,1952 xyS
53,99
8,85),cov(
YX
Verifica-se graficamente a relação entre duas variáveis por meio do diagrama de dispersão
entre elas. Nesse gráfico foram desenhadas as linhas das médias de X, E(X), e de Y , E(Y), e indicados os sinais da covariância em cada um dos quadrantes determinados por essas linhas:
X: Renda bruta
Y:
% g
asto
co
m a
ssis
t. m
éd
ica
605040302010
7,5
7,0
6,5
6,0
5,5
E(X)
E(Y)
Diagrama de dispersão: % gasto com assist. médica vs Renda bruta
X-E(X)<0 e Y-E(Y)<0
X-E(X)<0 e Y-E(Y)>0
X-E(X)>0 e Y-E(Y)<0
X-E(X)>0 e Y-E(Y)>0
I
III II
IV
Cov(X,Y) < 0
Cov(X,Y) > 0Cov(X,Y) < 0
Cov(X,Y) > 0
X: Renda bruta
Y:
% g
asto
co
m a
ssis
t. m
éd
ica
605040302010
7,5
7,0
6,5
6,0
5,5
E(X)
E(Y)
Diagrama de dispersão: % gasto com assist. médica vs Renda bruta
X-E(X)<0 e Y-E(Y)<0
X-E(X)<0 e Y-E(Y)>0
X-E(X)>0 e Y-E(Y)<0
X-E(X)>0 e Y-E(Y)>0
I
III II
IV
Cov(X,Y) < 0
Cov(X,Y) > 0Cov(X,Y) < 0
Cov(X,Y) > 0
192
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
Observe que os desvios dos pontos que caem no quadrante II (supondo x e y os eixos
centrais do plano cartesiano) tomam valores positivos, por tanto seus produtos, também, tomarão valores positivos. O mesmo acontece quando os pontos caem no IV quadrante, os dois
desvios tomarão valores negativos, portanto seus produtos tomarão valores positivos. Se a maioria dos pontos estiverem espalhados no II e IV quadrante, a soma dos produtos dos
desvios sempre será positivo, logo afirmaremos que a covariância destas duas variáveis é positiva, ou em outras palavras, a relação entre elas é direta, ou seja, a medida que uma
cresce, a outra, também cresce e vice-versa.
Agora, vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, os desvios de X seriam todos positivos, enquanto que os desvios de Y seriam todos negativos, logo os
produtos tomarão valores negativos. O mesmo vai acontecer com os pontos do quadrante III, nele, os desvios de X tomarão valores negativos e os desvios de Y, valores positivos, logo os
produtos tomarão valores negativos. Assim, se a maioria dos pontos cai nos quadrantes I e III
a covariância tomará valores negativos, indicando que essas duas variáveis se relacionam de forma negativa ou inversa, ou seja, que quando uma cresce a outra diminui e vice-versa.
Quando os pontos se distribuem nos quatro quadrantes, haverá valores positivos e negativos, logo a soma tenderá para zero, e neste caso, afirmaremos que não existe relação linear entre
essas variáveis. Observamos que esta estatística tenderá para zero, mesmo havendo uma
relação que não for linear, por exemplo, se os dados tivessem o formato de uma parábola, ou relação quadrática.
A pesar de a covariância ser uma estatística adequada para medir relação linear entre duas variáveis, ela é complicada para comparar graus de relação entre variáveis devido a influencia
das unidades de medida de cada variável, que pode ser metros, quilometro, quilogramas, centímetros, etc... Para evitar a influência da ordem de grandeza e unidades de cada variável,
dividimos a covariância pelo desvio padrão de X e de Y, dando origem ao coeficiente de
correlação de Pearson:
2222 yynxxn
yxxyn
)Y(dp)X(dp
)Y,Xcov(r
No conjunto de dados do exemplo, temos:
43,15110
10
31612128
1)(
22
2
n
n
xx
Xdp e
66,0110
10
5,6491,419
1)(
22
2
n
n
yy
Ydp
Logo,
9401,0)66,0)(43,15(
53,9
)()(
),cov(
YdpXdp
YXr
193
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
O coeficiente de correlação também pode ser calculado utilizando as somas intermediárias:
Txx
xy
SQS
Sr
Dessa maneiira, tem-se:
4,85xyS
4,214210
31612128
2
2
1
1
2
n
x
xS
n
i
in
i
ixx
885,310
5,6491,419
2
2
1
1
2
2
1
1
22
1
2
n
y
yn
y
nyynySSQ
n
i
in
i
i
n
i
in
i
i
n
i
iyyT
Logo, 9401,0)885,3)(4,2142(
8,85
Txx
xy
SQS
Sr
O coeficiente de correlação mede a força da relação entre as duas variáveis. O sinal representa
se a relação é positiva ou negativa conforme as explicações fornecidas para a covariância. Uma sugestão de classificação para essa força é:
Correlação (r) Significado
- 1 Relação linear negativa perfeita
|r| < 0,4 Relação linear fraca
0,4 |r| 0,7 Relação linear moderada
|r| > 0,7 Relação linear forte
1 Relação linear positiva perfeita
Portanto, no nosso exemplo, a relação linear é negativa forte, o que significa que quanto maior
a renda anual menor o percentual gasto com assistência médica. Podemos observar os seguintes tipos de correlação:
194
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
Vale a pena considerar que o fato de duas variáveis estarem fortemente correlacionadas por si
só não implica em uma relação de causa e efeito entre elas. Exemplo, podemos ter em uma certa região um grande número de cegonhas e um alta taxa de nascimento de bebes. Essas
duas variáveis podem estar altamente correlacionadas, mas não podemos acreditar numa relação de causa e efeito entre elas (ainda...). Esse tipo de correlação é chamado de “espúria”.
Exemplo 2: O estatístico F. J. Anscombe preparou os seguintes conjuntos de dados para
exemplificar a correlação, os quais são bastante utilizados para efeitos didáticos:
195
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
Observe que esses dados produzem as mesmas estatísticas descritivas. No entanto, o
gráfico de dispersão para cada um desses conjuntos apresenta configurações completamente diferentes:
3. Modelamento por Regressão Linear Simples
Essa técnica é uma maneira útil de estudar relações entre variáveis, quando fizer sentido tentar
predizer ou explicar o comportamento de uma variável, em termos do comportamento de outra ou de outras variáveis.
A variável cujo comportamento queremos explicar ou predizer é chamada de variável
resposta, ou dependente e, por convenção é denotada por Y. As outras variáveis são de
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,1 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
Média 9,0 7,5 9,0 7,5 9,0 7,5 9,0 7,5
Desvio-padrão 3,3 2,0 3,3 2,0 3,3 2,0 3,3 2,0
Covariância
Correlação
5,0
0,82 0,82 0,82 0,82
E
s
t
D
e
s
c
r
i
t
5,0 5,0 5,0
2015105
12
10
8
6
4
2015105
12
10
8
6
4
Y1*X1 Y2*X2
Y3*X3 Y4*X4
Diagrama de Dispersão: Y1 vs X1; Y2 vs X2; Y3 vs X3; Y4 vs X4
196
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
interesse apenas para nos ajudar a entender, explicar ou predizer o comportamento de Y e são
chamadas de variáveis explicativas ou preditoras ou independentes. Na análise de regressão linear utilizamos a equação matemática de uma reta para
descrevermos a relação entre Y e X. Essa reta é ajustada aos dados da melhor maneira possível, ou seja, de tal forma que as distâncias das observações a ela sejam as menores
possíveis. Esse método é conhecido como “mínimos quadrados”, por considerar o quadrado dessas distâncias (ou resíduos).
A equação de uma reta em matemática é: Y = a + bX. Em estatística é usual descrever essa
reta como:
XY 10
Em que 0 é o valor do intercepto, ponto em que a reta cruza o eixo das coordenadas, Y e 1 é
a taxa de acréscimo ou decréscimo que cada unidade de X produz em Y.
O gráfico a seguir exemplifica a equação de uma reta e seu significado, por eixo coordenado, para a reta de regressão estimada:
Considerando que estamos ajustando uma reta aos dados, costuma-se escrever essa reta de
maneira indicada de estimação, ou seja, colocamos um “chapéu” na variável resposta Y e nos
valores dos ’s, isto é:
XˆˆY 10
O valor de y é o valor previsto para certo valor de x observado. As estimativas de mínimos
quadrados para os valores do intercepto e da taxa ou inclinação são:
xˆyˆ10
Em que,
n
1i
iyn
1y e
n
1i
ixn
1x
0
x
(variável independente ou explicativa ou preditora)
y
(variável dependenteou resposta)
Y = b0 + b1 x
b0
y
x
x
y)(tgb
1
0
x
(variável independente ou explicativa ou preditora)
y
(variável dependenteou resposta)
Y = b0 + b1 x
b0
y
x
x
y)(tgb
1
197
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
xx
xy
1S
Sˆ
Lembrando que, n
x
x)xx(S
2n
1i
in
1i
2i
n
1i
2ixx
e
n
yx
yx)yy)(xx(S
n
1i
i
n
1i
in
1i
ii
n
1i
iixy
Obs.: Sxx e Sxy são convenientes expressões facilitadoras para a notação dos numeradores e
dos denominadores aqui utilizados.
Considerando os dados apresentados no exemplo 1, temos os seguintes resultados:
6,31x ; 45,6y ; 316x ; 5,64y ; 4,1952xy ; 12128x2
Com esses dados podemos calcular:
8,85
10
5,643164,1952Sxy e
4,2142
10
31612128S
2
xx
Dessa maneira, os coeficientes estimados são:
04005,04,2142
8,85ˆ1
xx
xy
S
S e 716,7)6,31)(04007,0(5,64xˆyˆ
10
Dessa maneira temos que a reta de regressão linear simples ajustada a esses dados é:
x04,072,7y
Em que Y significa o percentual gasto em assistência médica e X é a renda bruta anual. Essa
reta indica que cada unidade da renda bruta anual produz um decréscimo 0,04 na previsão do percentual da renda bruta gasto em assistência médica.
Em termos numéricos, se a renda bruta anual for de 22 milhões de reais, espera-se em média
um percentual de 6,9% de gasto com assistência médica. Em termos de reais, o gasto com assistência médica, considerando essa renda bruta anual é de aproximadamente 1,38 milhões,
em média. Nesse exemplo em particular, os planos de saúde estarão em situação de determinar as
políticas de vendas por segmentos de rendas anuais.
Importante: Essa técnica só poderá ser utilizada se existir correlação linear significativa entre
as variáveis Y e X. A reta de regressão ajustada pelo software Minitab para esse exemplo é:
198
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
O coeficiente de determinação R2 é obtido facilmente pelo quadrado do coeficiente de
correlação linear e multiplicando esse valor por 100, ele fornece o percentual da variação em Y explicada pela variável X. No exemplo acima, temos R2 = 0,884 = 88,4% da variação no
percentual de gasto com assistência médica é explicada pela renda bruta anual. Observe que 0,884= (-0,9401)2.
De maneira geral, o coeficiente de determinação é calculado por:
T
ET2
SQ
SQSQR
, em que
2
1
2 ynySQn
i
iT
é a soma dos quadrados dos erros sem
considerar o efeito da variável Y, e
n
1i
2iE )yy(SQ é a soma dos quadrados dos erros
considerando o efeito da variável X.
Um estimador não-tendencioso da variância do termo do erro (resíduos: diferença entre o y
observado e o Y estimado) é: 2
ˆ 2
n
SQE
O termo SQE pode ser mais convenientemente calculado pela fórmula: xyTE SSQSQ 1
O coeficiente de correlação também pode ser calculado por meio dessas expressões
facilitadoras:
Txx
xy
SQS
Sr
Para efeito de demonstração, para os dados do exemplo 1:
O coeficiente de correlação r = -0,9401
Renda Bruta
% g
asto
605040302010
7,5
7,0
6,5
6,0
5,5
S 0,236864
R-Sq 88,4%
R-Sq(adj) 87,0%
Reta de Regressão Linear ajustada% gasto = 7,716 - 0,04005 Renda Bruta
199
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
Para o cálculo da variância estimado dos resíduos, tem-se:
4487,0)8,85)(04005,0(885,3ˆ1 xyTE SSQSQ
Então, 0561,0210
4487,0
2ˆ 2
n
SQE
Os resultados estimados pelo software Minitab forneceram:
Regression Analysis: % gasto versus Renda Bruta The regression equation is
% gasto = 7,72 - 0,0400 Renda Bruta
Predictor Coef SE Coef T P
Constant 7,7155 0,1782 43,29 0,000
Renda Bruta -0,040049 0,005117 -7,83 0,000
S = 0,236864 R-Sq = 88,4% R-Sq(adj) = 87,0%
Analysis of Variance
Source DF SS MS F P
Regression 1 3,4362 3,4362 61,25 0,000
Residual Error 8 0,4488 0,0561
Total 9 3,8850
2
ESQ
Obs.: os valores não são exatamente iguais devidos a erros de arredondamentos e interações
utilizados no ajuste do modelo pelo software (SS=SQ e MS = MQ)
3.1 Analise de variância para testar a significância do modelo ajustado
pela técnica da Regressão Linear:
Fonte de
Variação
Graus de
liberdade Soma dos Quadrados
Quadrados
Médios F0
Regressão 1 xy1R SˆSQ 1
SQMQ R
R
E
R
MQ
MQ Erro (Resíduos) n-2 xyTE SSQSQ 1
2n
SQMQ E
E
Total n-1 SQT = SQR + SQE
Esse procedimento divide a variância total (SQT) da variável resposta em componentes
significantes obtidos pela variação da Soma dos Quadrados da Regressão: SQR e a Soma dos
Quadrados dos erros (resíduos). A estatística F0 testa a significância da regressão utilizando a distribuição de Fisher. A hipótese
nula desse teste é: H0 : 1 =0, e essa hipótese será rejeitada para valores grandes de F
considerando os graus de liberdade do numerador e do denominador. Essa rejeição é
equivalente ao p-valor menor que 5% (p < 0,05), por exemplo.
200
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
Resolução de um exercício
1) (Montgomery, adaptado) Os dados referentes ao peso, em kg, e à pressão sanguínea
sistólica de 26 homens selecionados aleatoriamente, na faixa etária de 25 a 30 anos,
estão apresentados na tabela seguinte. Considere que o peso e pressão sanguínea
sejam distribuídos normal e conjuntamente.
Solução:
Indivíduo Peso (X) Pressão
Sistólica (Y) XY X2 Y
2
1 74,8 13 972,4 5595,04 169
2 75,8 13,3 1008,14 5745,64 176,89
3 81,7 15 1225,5 6674,89 225
4 70,3 12,8 899,84 4942,09 163,84
5 96,2 15,1 1452,62 9254,44 228,01
6 79,4 14,6 1159,24 6304,36 213,16
7 86,2 15 1293 7430,44 225
8 95,3 14 1334,2 9082,09 196
9 90,7 14,8 1342,36 8226,49 219,04
10 67,6 12,5 845 4569,76 156,25
11 71,7 13,3 953,61 5140,89 176,89
12 76,7 13,5 1035,45 5882,89 182,25
13 77,1 15 1156,5 5944,41 225
14 78 15,3 1193,4 6084 234,09
15 72,1 12,8 922,88 5198,41 163,84
16 76,2 13,2 1005,84 5806,44 174,24
17 78,9 14,9 1175,61 6225,21 222,01
18 83 15,8 1311,4 6889 249,64
19 97,5 15 1462,5 9506,25 225
20 88,5 16,3 1442,55 7832,25 265,69
21 81,7 15,6 1274,52 6674,89 243,36
22 64,9 12,4 804,76 4212,01 153,76
23 108,9 17 1851,3 11859,21 289
24 106,6 16,5 1758,9 11363,56 272,25
25 87,1 16 1393,6 7586,41 256
26 84,8 15,9 1348,32 7191,04 252,81
Total 2151,7 378,6 31623,44 181222,1 5558,02
Faça o que se pede:
a) Verifique graficamente se existe tendência linear entre Y e X;
201
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
A nuvem de dados parece indicar relação linear entre X e Y
b) Calcule a covariância entre Y e X;
Cálculos intermediários:
11010090807060
17
16
15
14
13
12
Peso (X)
Pre
ssã
o S
istó
lica
(Y
)
Diagrama de dispersão: Pressão Sistólica (Y) vs Peso (X)
655,1125
378,291
25
26
)6,378)(7,2151(44,31623
1),cov(
n
n
yxxy
YX
3777,29126
)6,378)(7,2151(44,31623
11
1
n
yx
yxS
n
i
i
n
i
in
i
iixy
3735,315226
)7,2151(1,181222
2
2
1
1
2
n
x
xS
n
i
in
i
ixx
7577,8226
7,21511
1
n
i
ixn
x
5615,1426
6,3781
1
n
i
iyn
y
202
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
c) Calcule o coeficiente de correlação linear entre Y e X;
d) Ajuste um modelo de regressão linear simples;
e) Interprete os resultados do item anterior (d);
: significa que para um homem com peso de 0 kg, a pressão sistólica média é
de 6,91147 (unidade de medida – u.m.)
: indica que cada aumento de 1 kg no peso de um homem, na faixa etária de
25 30 anos, produz uma taxa de aumento de 0,0924 u.m. na pressão sistólica.
f) Teste a significância da regressão ao nível de significância de 5%, considerando
que o valor tabelado da estatística F é 4,26;
0307,45)5615,14)(26(0,5558 2
1
22
n
i
itotal ynySQ
0924,03835,3152
3777,291ˆ1
xx
xy
S
S
9147,6)7577,82)(0924,0(5615,14ˆˆ10 xy
1111,18)3777,291)(0924,0(0307,45ˆ1 xyTE SSQSQ
7733,0)0307,45)(3835,3152(
3777,291ˆ
Txx
xy
SQS
Sr
xxy 0924,09147,6ˆˆˆ10
0
1
9196,261111,180307,45 ETR SQSQSQ
9196,261
RR
SQQM
7546,024
1111,18
2
n
SQQM e
e
674,357546,0
9196,260
e
R
QM
QMF
203
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
O valor crítico tabelado da distribuição de Fisher ao nível de 5% de significância é
apresentado na figura abaixo:
Como F0 >> 4,26 , isso significa que o teste está na região de rejeição de H0, logo a
regressão é significativa ao nível de 5% .
g) Estime a variância residual, 2;
h) Encontre a pressão sistólica média prevista para um homem com 92,5 kg, na faixa
etária entre 25 e 30 anos.
A pressão sistólica média prevista é de 15,4617 u.m.
Obs.: O modelo ajustado pelo software Minitab:
Regression Analysis: Pressão Sistólica (Y) versus Peso (X)
The regression equation is
Pressão Sistólica (Y) = 6,91 + 0,0924 Peso (X)
Predictor Coef SE Coef T P
Constant 6,912 1,291 5,35 0,000
Peso (X) 0,09243 0,01546 5,98 0,000
S = 0,868169 R-Sq = 59,8% R-Sq(adj) = 58,1%
Analysis of Variance
Source DF SS MS F P
7546,0226
1111,18
2ˆ 2
n
SQE
4617,15)5,92)(0924,0(9147,6ˆ y
26,405,0)( 24;1 xxFP
204
© Tânia F Bogutchi – PUC Minas – Revisão: 2012
Estatística e Probabilidade
Unidade 5: Correlação e Regressão Linear
Regression 1 26,932 26,932 35,73 0,000
Residual Error 24 18,089 0,754
Total 25 45,022