13.상관과 회귀

24
상관과 회귀

Upload: yoonwhan-lee

Post on 24-May-2015

1.758 views

Category:

Education


0 download

TRANSCRIPT

Page 1: 13.상관과 회귀

상관과 회귀

Page 2: 13.상관과 회귀

상관분석

• 두 변수 간의 관련성을 분석하는 통계기법 • 상관계수 (Correlation Coefficient)

– 두 변수간의 관련성의 정도를 나타내는 값

– 𝑟 = (𝑋𝑖−𝑋)(𝑌𝑖−𝑌)𝑛𝑖=1

(𝑋𝑖−𝑋)2𝑛

𝑖=1 (𝑌𝑖−𝑌)2𝑛

𝑖=1

= 𝑆𝑥𝑦

𝑆𝑥𝑥 𝑆𝑦𝑦

– 상관계수의 성질 • −1 ≤ 𝑟 ≤ 1 • 0에 가까울수록 두 변수 사이의 상관은 약함 • 1에 가까울 경우 같은 방향(한 변수의 값이 증가하면 다른 변

수의 값도 증가)으로 상관이 강해짐 • -1에 가까울 경우 다른 방향으로 상관이 강해짐

한림대학교 이윤환(http://fb.com/yoonani72)

Page 3: 13.상관과 회귀

상관분석

강한 양의 상관관계 강한 음의 상관관계

상관관계 없음 곡선 상관관계

한림대학교 이윤환(http://fb.com/yoonani72)

Page 4: 13.상관과 회귀

상관분석

• 상관분석 – 두 변수간의 관계, 특히나 선형계수가 존재하는지 검

정하는 분석

– 가설 • 영가설 : 𝜌 = 0, 선형관계가 존재하지 않음

• 대안가설 : 𝜌 ≠ 0, 선형관계가 존재 함

– 검정통계량을 구하기 위한 R 사용과 판정 • iris 데이터 중 setosa 종의 꽃받침의 넓이와 꽃잎의 넓이에

대한 상관분석

• 상관계수

> cor(Sepal.Width[Species=="setosa"], + Petal.Width[Species=="setosa"]) [1] 0.232752

한림대학교 이윤환(http://fb.com/yoonani72)

Page 5: 13.상관과 회귀

상관분석

• 두 변수간의 Plotting

한림대학교 이윤환(http://fb.com/yoonani72)

> plot(Sepal.Width[Species=="setosa"], + Petal.Width[Species=="setosa"])

Page 6: 13.상관과 회귀

상관분석

• 상관분석

> cor.test(Sepal.Width[Species=="setosa"], + Petal.Width[Species=="setosa"]) Pearson's product-moment correlation data: Sepal.Width[Species == "setosa"] and Petal.Width[Species == "setosa"] t = 1.6581, df = 48, p-value = 0.1038 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.0487543 0.4800023 sample estimates: cor 0.232752

한림대학교 이윤환(http://fb.com/yoonani72)

Page 7: 13.상관과 회귀

(단순선형)회귀분석

• 하나의 변수로부터 다른 변수의 값을 예측하거나 두 변수 사이의 인과관계를 규명하고자 하는 경우에 사용

• 두 변수 X, Y가 있을 때 X가 설명변수, Y가 반응변수라면 이를 위한 단순선형회귀모형은 다음과 같다. – Y = 𝛽0 + 𝛽1𝑋 + 𝜀

• 𝛽0 , 𝛽1 : 회귀계수 • 𝛽0 : 절편 • 𝛽1 : 기울기 • 𝜀 : 오차항(평균이 0이고 표준편차가 𝜎인 정규분포를 따름)

한림대학교 이윤환(http://fb.com/yoonani72)

Page 8: 13.상관과 회귀

(단순선형)회귀분석

• 표본으로부터의 회귀모형 – 𝑦𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖 , 𝑖 = 1,… , 𝑛

• 𝑦𝑖, 𝑥𝑖 : 각 변수의 i번째 관찰값 • 𝜀𝑖 : i번째 오차항

• 회귀계수의 추정 : 추정된 회귀식 – 앞선 회귀모형을 위해 표본으로 부터 회귀계수를 추정

한 식을 다음과 같이 표현하자.

– 𝑦𝑖 = 𝑏0 + 𝑏1𝑥𝑖 , 𝑖 = 1,… , 𝑛 • 𝑦𝑖 : 예측값 • 𝑏0, 𝑏1: (최소제곱법을 통해 구한) 추정된 회귀계수

– 잔차 : 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖

한림대학교 이윤환(http://fb.com/yoonani72)

Page 9: 13.상관과 회귀

(단순선형)회귀분석

• 총편차의 분해 : 분산분석표

한림대학교 이윤환(http://fb.com/yoonani72)

Page 10: 13.상관과 회귀

(단순선형)회귀분석

• 총편차의 분해 : 분산분석표 – (𝑦𝑖 − 𝑦 )2= (𝑦𝑖 − 𝑦𝑖 )

2𝑛𝑖 𝑛

𝑖=1 + (𝑦𝑖 − 𝑦 )2𝑛𝑖

𝑆𝑆𝑡𝑜𝑡𝑎𝑙 𝑆𝑆𝐸𝑟𝑟𝑜𝑟 𝑆𝑆𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛

요인 제곱합 자유도 평균제곱합 F

회귀 𝑆𝑆𝑅 1 𝑀𝑆𝑅 =𝑆𝑆𝑅1

𝐹 =𝑀𝑆𝑅𝑀𝑆𝐸

오차 𝑆𝑆𝐸 𝑛 −2 𝑀𝑆𝐸 =𝑆𝑆𝐸

𝑛 − 2

합 𝑆𝑆𝑇𝑜𝑡𝑎𝑙 𝑛 − 1

한림대학교 이윤환(http://fb.com/yoonani72)

회귀모형의 유의도

Page 11: 13.상관과 회귀

(단순선형)회귀분석

• 결정계수 : 𝑅2, 설명력 – 회귀모형의 적합성을 나타내는 측도

– 𝑅2 = 𝑆𝑆𝑅

𝑆𝑆𝑇𝑜𝑡𝑎𝑙

• 총 변동 𝑆𝑆𝑇𝑜𝑡𝑎𝑙에 대한 회귀의 변동(𝑆𝑆𝑅) 비율

• 범위는 0 ≤ 𝑅2 ≤ 1

• 𝑅2은 1에 가까울수록 좋은 회귀직선이 되고 0에 가까울수록 변동을 잘 설명하지 못하는 안 좋은 회귀직선으로 판단

Page 12: 13.상관과 회귀

(단순선형)회귀분석

• 회귀계수의 추정과 검정 – 유의한 회귀모형이 만들어지면 이 모형을 구성하는 회

귀계수가 유의한지 검정한다.

– 가설 • 영가설 : 𝛽1 = 0, 회귀계수는 0이다.

• 대안가설 : 𝛽1 ≠ 0, 회귀계수는 0이 아니다.

– t 분포를 적용하여 회귀계수를 검정한다.

Page 13: 13.상관과 회귀

(단순선형)회귀분석

• 회귀분석의 기본가정 – 오차항(𝜀𝑖)은

• 서로 독립이며

• 평균이 0이고 분산이 𝜎2인 정규분포를 따른다.

• 모형의 적합성 검정 – 회귀분석의 기본가정을 만족하는지 검정

– 오차항 (𝜀𝑖)에 대해 잔차 𝑒𝑖 = 𝑦𝑖 − 𝑦𝑖 를 통해 검정

Page 14: 13.상관과 회귀

(단순선형)회귀분석

• 예제) R 내장데이터 cars – 속도(speed)에 따른 제동거리(dist) 자료

– 속도에 따른 제동거리 모형을 표본으로부터 구축해보자.

한림대학교 이윤환(http://fb.com/yoonani72)

> with(cars, plot(dist ~ speed))

Page 15: 13.상관과 회귀

(단순선형)회귀분석

• 회귀계수 추정

• 분산분석표

> out <- with(cars, lm(dist ~ speed)) > out Call: lm(formula = dist ~ speed) Coefficients: (Intercept) speed -17.579 3.932

> summary( aov(out) ) Df Sum Sq Mean Sq F value Pr(>F) speed 1 21185 21185 89.57 1.49e-12 *** Residuals 48 11354 237 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.11

한림대학교 이윤환(http://fb.com/yoonani72)

Page 16: 13.상관과 회귀

(단순선형)회귀분석

• 회귀직선 > with(cars, plot(dist ~ speed)) > abline(out, col="red")

한림대학교 이윤환(http://fb.com/yoonani72)

Page 17: 13.상관과 회귀

(단순선형)회귀분석

• 결정계수 및 회귀계수 검정

> summary( out ) Call: lm(formula = dist ~ speed) Residuals: Min 1Q Median 3Q Max -29.069 -9.525 -2.272 9.215 43.201 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 15.38 on 48 degrees of freedom Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438 F-statistic: 89.57 on 1 and 48 DF, p-value: 1.49e-12

한림대학교 이윤환(http://fb.com/yoonani72)

Page 18: 13.상관과 회귀

(단순선형)회귀분석

• 회귀진단 > par(mfrow=c(2,2)) > plot(out)

Page 19: 13.상관과 회귀

(단순선형)회귀분석

• 거리(dist)의 제곱 형태가 의심되어 거리에 제곱근을 취한 변수 변환 실시

• 거리의 제곱근값과 속도의 선형회귀분석 실시 – with(cars, lm( sqrt(dist) ~ speed))

Page 20: 13.상관과 회귀

(단순선형)회귀분석

• 회귀계수 추정

• 분산분석표

> out2 <- with(cars, lm(sqrt(dist) ~ speed)) > out2 Call: lm(formula = sqrt(dist) ~ speed) Coefficients: (Intercept) speed 1.2771 0.3224

> summary( aov(out2) ) Df Sum Sq Mean Sq F value Pr(>F) speed 1 142.41 142.41 117.2 1.77e-14 *** Residuals 48 58.33 1.22 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘

한림대학교 이윤환(http://fb.com/yoonani72)

Page 21: 13.상관과 회귀

(단순선형)회귀분석

• 회귀직선 > with(cars, plot(sqrt(dist) ~ speed)) > abline(out2, col="red")

한림대학교 이윤환(http://fb.com/yoonani72)

Page 22: 13.상관과 회귀

(단순선형)회귀분석

• 결정계수 및 회귀계수 검정

> summary( out2 ) Call: lm(formula = sqrt(dist) ~ speed) Residuals: Min 1Q Median 3Q Max -2.0684 -0.6983 -0.1799 0.5909 3.1534 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.27705 0.48444 2.636 0.0113 * speed 0.32241 0.02978 10.825 1.77e-14 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.102 on 48 degrees of freedom Multiple R-squared: 0.7094, Adjusted R-squared: 0.7034 F-statistic: 117.2 on 1 and 48 DF, p-value: 1.773e-14 한림대학교 이윤환(http://fb.com/yoonani72)

Page 23: 13.상관과 회귀

(단순선형)회귀분석

• 회귀진단 > par(mfrow=c(2,2)) > plot(out2)

한림대학교 이윤환(http://fb.com/yoonani72)

Page 24: 13.상관과 회귀

(단순선형)회귀분석

• 잔차의 정규성 검정 > shapiro.test(out$residuals) Shapiro-Wilk normality test data: out$residuals W = 0.9451, p-value = 0.02152 > shapiro.test(out2$residuals) Shapiro-Wilk normality test data: out2$residuals W = 0.9733, p-value = 0.3143

한림대학교 이윤환(http://fb.com/yoonani72)