“método estatístico que utiliza entre duas ou mais variáveis de modo que uma variável pode ser
estimada (ou predita) a partir da outra ou das outras”
Análise de Regressão
relação
Neter, J. et al. Applied Linear Statistical Models. McGraw Hill, 1996
a) Quantificando a força dessa relação: correlação.
b) Explicitando a forma dessa relação: regressão.
Representação gráfica de duas variáveis quantitativas: Diagrama de dispersãoDiagrama de dispersão
A presença ou ausência de relação linear pode ser investigada sob dois pontos de vista:
Relação funcional x CorrelaçãoRelação funcional x Correlação
As variáveis podem possuir dois tipos de relações:Funcional: a relação é expressa por uma fórmula matemática: Y = f(X)
Ex: relação entre o perímetro (P) e o lado de um quadrado (L)
y = 4x
0
50
100
150
0 10 20 30 40
Lado do Quadrado
Perím
etro
P = 4 L
Todos os pontos caem na curva da relação funcional
Correlação: não há uma relação perfeita como no caso da relação funcional.As observações em geral não caem exatamente na curva da relação.
Ex: relação entre o peso (P) e a altura (A) de uma pessoa
50
55
60
65
70
75
80
85
90
95
100
150 160 170 180 190
Altura (cm)
Pe
so
(k
g)
A existência de uma relação estatística entre a variável dependente Y e a variável independente X não implica que Y dependa de X, ou que exista uma relação de causa-efeito entre X e Y.
Exemplo 1: Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual (Y) com o sexo (W), idade (X) e acuidade visual (Z, medida em porcentagem).
20 30 40
90
100
110
120
130
X
Y
20 30 40
90
100
110
120
130
X
Y
Correlação entre Y e X = 0,768
Análise de regressão: metodologia estatística que estuda (modela) a relação entre duas ou mais variáveis
1. Tempo de reação ⇒ variável dependente ou resposta
idade ⇒ variável independente
⇓
modelo de regressão linear simples
2. Tempo de reação ⇒ variável dependente ou resposta
sexo, idade, acuidade visual ⇒ var. independentes
⇓
modelo de regressão linear múltipla
Medida de AssociaçãoMedida de Associação
X
Y
X
Y
XY
X
Y
Coeficiente de Correlação (de Pearson)mede o grau de relação linear entre X e Y
r = 0,9 r = 0,3 r = 0
r = - 0,9
Coeficiente de CorrelaçãoCoeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação
1. Um alto coeficiente de correlação nem sempre indica que a equação de regressão estimada está bem ajustada aos dados.
X
Y
X
Y
X
Y
1
1
0
0i i i i
i i i i
Y Y y y
X X x x−
−
= + ∆ ∆ ᄈ= + ∆ ∆ ᄈ
XY
ΣX
ΣY
?
?
Coeficiente de CorrelaçãoCoeficiente de Correlação
Interpretações errôneas dos coeficientes de correlação
1. Um coeficiente de correlação próximo de zero nem sempre indica que X e Y não são relacionadas.
X
Y
XY
X
Y
A
X
Y
B
Análise de RegressãoAnálise de Regressão
1. Determinar como duas ou mais variáveis se relacionam.
2. Estimar a função que determina a relação entre as variáveis.
3. Usar a equação ajustada para prever valores da variável dependente.
Regressão Linear Simples
Yi = β0 + β1Xi + ξi
( )( )
( )2
E 0
Var
, 0
i
i
i jCOV i j
ξ
ξ σ
ξ ξ
=
=
= ∀ ᄈ
Modelo de Regressão Linear SimplesModelo de Regressão Linear Simples
iii XY ξββ ++= 10
Erro Aleatório
Variável Independente
Variável Dependente
ξi
X
Y
β0
β1 Coeficienteangular
E(Y) = β0 + β1 X
Em geral não se conhece os valores de β0, β1 e σ2
Eles podem ser estimados através de dados obtidos por amostras.
O método utilizado na estimação dos parâmetros é o método dos mínimos quadrados, o qual considera os desvios dos Yi de seu valor esperado:
ξi = Yi – (β0 + β1 Xi)
Em particular, o método dos mínimos quadrados requer que consideremos a soma dos n desvios quadrados, denotado por Q:
210
1
][ ii
n
i
XYQ ββ −−= ∑=
Estimação dos parâmetrosEstimação dos parâmetros
Estimação dos parâmetrosEstimação dos parâmetros
De acordo com o método dos mínimos quadrados, os estimadores de β0 e β1 são aqueles, denotados por b0 e b1, que tornam mínimo o valor de Q.
Derivando ][2 1010
ii
n
i
XYQ βββ
−−−=∂∂ ∑
=
iii
n
i
XXYQ
][2 1011
βββ
−−−=∂∂ ∑
=
2
1
11
)(
))((
XX
YYXXb
i
n
i
ii
n
i
−
−−=
∑
∑
=
=
XbYb 10 −=iii YYe
XbbY
XYE
ˆ
ˆ
)(
10
10
−=
+=
+= ββ
(resíduo)
Igualando-se essas equações a zero obtém-se os valores b0 e b1 que minimizam Q:
1)
2) é mínima
3)
4) A reta de regressão passa sempre pelo ponto
01
=∑=
n
iie
∑=
n
iie
1
2
∑∑==
=n
ii
n
ii YY
11
ˆ
Propriedades da equação de regressãoPropriedades da equação de regressão
),( YX
X
Y
X
Y
No exemplo:
n=20, Σyi= 2150, Σxi=600, Σxiyi=65400, Σxi2=19000
ii
2
x90,050,80y
50,8030.90,050,107ˆ
90,030.2011000
5,107.30.2065400ˆ
+=
=−=α
=−
−=β
Interpretação: Para um aumento de 1 ano na idade, o tempo médio de reação aumenta 0,90.
Podemos prever, por exemplo, o tempo médio de reação para pessoas de 20 anos ⇒ 50,9820.90,050,80)20(y =+=
5,116)40(y 112)35(y 50,107)30(y 103)25(y ====
⇓Vantagem: permite estimar o tempo médio de reação para idades não observadas
⇓20,11033.90,050,80)33(y =+=
20 30 40
90
100
110
120
130
X
Y
Y = 80,5 + 0,9X
R-Sq = 59,0 %
Regression Plot
Diagrama de dispersão
Podemos notar que, conforme aumenta a taxa de analfabetismo (X), a taxa de criminalidade (Y) tende a aumentar. Nota-se também uma tendência linear.
Correlação entre X e Y: 0,702
a reta ajustada é:
Para um aumento de uma unidade na taxa do analfabetismo (X), a taxa de criminalidade (Y) aumenta, em média, 4,257 unidades.
smoanalfabeti de taxa :X
adecriminalid de taxa a para predito valor :^Y
Interpretação de b:
Graficamente, temos
Como desenhar a reta no gráfico?
Exemplo 3: expectativa de vida e analfabetismo
Considere as duas variáveis observadas em 50 estados norte-americanos.
Y: expectativa de vida
X: taxa de analfabetismo
Diagrama de dispersão
Podemos notar que, conforme aumenta a taxa de analfabetismo (X), a expectativa de vida (Y) tende a diminuir. Nota-se também uma tendência linear.
Correlação entre X e Y:- 0,59
a reta ajustada é:
Interpretação de b:
smoanalfabeti de taxa :X
vida de aexpectativ a para predito valor :^Y
Para um aumento de uma unidade na taxa do analfabetismo (X), a expectativa de vida (Y) diminui, em média, 1,296 anos.
Graficamente, temos
Resíduos
Para verificar a adequação do ajuste deve-se
fazer uma análise dos resíduos.
^
Y - Y
ResíduoResíduo é a diferença entre o valor observado e
o valor ajustado pela reta, isto é,
Análise de ResíduosAnálise de Resíduos
Resíduo = iii YYe ˆ−=
Y = 0,9983X + 0,1306
R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
0 2 4 6 8 10
XR
esíd
uos
9496,0
1306,09983,0ˆ
2 =
+=
R
XY
Análise de ResíduosAnálise de Resíduos
MQReseiResíduo Padronizado =
Y = 0,9983X + 0,1306
R2 = 0,9496
0
2
4
6
8
10
0 2 4 6 8 10
X
Y
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
XR
esíd
uos
Padr
oniz
ado9496,0
1306,09983,0ˆ
2 =
+=
R
XY
Análise de ResíduosAnálise de Resíduos
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
“ideal”
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
σ2 não constante
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
não linearidade
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
não independência
tempo
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
0 2 4 6 8 10
X
Res
íduo
s Pa
dron
izad
os
“outlier”