log(brain)= 2.5549 + 0.49599xlog(body ) -...

추정된 회귀직선

추정된 회귀직선의 용도는 예측!

log(brain)= 2.5549 + 0.49599xlog(body)

만약 어떤 동물의 무게가 300이었다면 뇌무게는 얼마쯤일까?

log(brain)=2.5549 + 0.49599xlog(300)

2013-08-23 1.회귀분석(regression analysis) 1


R을 이용한 회귀분석

단순회귀분석 : 독립변수1개, 종속변수 1개

회귀모형 log(brain)= β0 + β1 x log(body) + ε

> lm.1<-lm(log(brain)~log(body)) > summary(lm.1) Call: lm(formula = log(brain) ~ log(body)) Residuals: Min 1Q Median 3Q Max -3.2890 -0.6763 0.3316 0.8646 2.5835 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.55490 0.41314 6.184 1.53e-06 *** log(body) 0.49599 0.07817 6.345 1.02e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.532 on 26 degrees of freedom Multiple R-squared: 0.6076, Adjusted R-squared: 0.5925 F-statistic: 40.26 on 1 and 26 DF, p-value: 1.017e-06

p-value=유의확률

H: β1=0 K: β1≠0

H: β0=0 K: β0≠0

Homework : 유의수준5%에서 위 검정결과는?


log(brain)= 2.5549+ 0.49599xlog(body)


p-value=1.53x10-6 < 0.05

p-value=1.02x10-6 < 0.05



log(brain)= 2.5549 + 0.49599xlog(body)

만약 어떤 동물의 무게가 300이었다면 뇌무게는 얼마쯤일까?

log(brain)=2.5549 + 0.49599xlog(300)



volume area weight cover 1 885 382 800 hb 2 1016 468 950 hb 3 1125 387 1050 hb 4 239 371 350 hb 5 701 371 750 hb 6 641 367 600 hb 7 1228 396 1075 hb 8 412 0 250 pb 9 953 0 700 pb 10 929 0 650 pb 11 1492 0 975 pb 12 419 0 350 pb 13 1010 0 950 pb 14 595 0 425 pb 15 1034 0 725 pb

중회귀분석(multiple regression analysis)

종속변수 : 1개, 독립변수 : 2개 이상

책무게(weight)는 부피(volume), 면적(area), 책표지형태(cover)와 어떤 관계에 있는가?

모형1 종속변수 : 책의 무게 독립변수 : 부피, 면적

변수들의 성질 및 척도

책무게(weight) : 종속변수, 양적인 자료, 비율척도 책부피(volume): 독립변수1,양적인 자료, 비율척도 책면적(area):독립변수2,양적인 자료, 비율척도 책표지형태(cover):독립변수3,질적인 자료, 명목척도

모형2 종속변수 : 책의 무게 독립변수 : 부피, 면적, 책표지형태

weight = β0 + β1 x volume + β2 x area + ε

weight = β0 + β1 x volume + β2 x area + β3 x cover + ε


모형1(R 프로그램) 종속변수 : 책의 무게 독립변수 : 부피, 면적

weight = β0 + β1 x volume + β2 x area + ε

> lm.1<-lm(weight~area+volume) > summary(lm.1) Call: lm(formula = weight ~ area + volume) Residuals: Min 1Q Median 3Q Max -104.06 -30.02 -15.46 16.76 212.30 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 22.41342 58.40247 0.384 0.707858 area 0.46843 0.10195 4.595 0.000616 *** volume 0.70821 0.06107 11.597 7.07e-08 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 77.66 on 12 degrees of freedom Multiple R-squared: 0.9285, Adjusted R-squared: 0.9166 F-statistic: 77.89 on 2 and 12 DF, p-value: 1.339e-07

H: β0 =0 K: β0 ≠0

H: β1 =0 K: β1 ≠0

H: β2 =0 K: β2 ≠0

p-value=0.707858 > 0.05=유의수준

p-value=7.07x10-8 < 0.05=유의수준

p-value=0.000616 < 0.05=유의수준

H를 채택

H를 기각 (K를 채택)

H를 기각 (K를 채택)


모형1(결론) 종속변수 : 책의 무게 독립변수 : 부피, 면적

추정된 회귀직선 weight=22.41342 + 0.46843 x area + 0.70821 x volume

책의 면적(area)과 부피(volume)을 알면 무게(weight)를 예측할 수 있음

면적과 부피에 해당하는 회귀계수들의 추정량들은 매우 유의하였음

2013-08-23 2..로지스틱 회귀분석(logistic regression) 7

로지스틱 회귀분석(logistic regression)

X1,X,2, … Xp Y

독립변수들 양적변수 혹은 질적변수

종속변수 이분형 명목변수 Dichotomous variable

Y=1(성공, success) Y=0(실패, failure)

사례

독립변수들 X1 : 학습시간, 양적변수, 연속인 변수 X2 : 출석횟수, 양적변수, 이산인 변수 X3 : 과제물제출여부, 질적변수, X3=1,0

종속변수: 이분형 명목변수 Y=1 (합격) Y=0(불합격)

학습시간, 출석횟수, 과제물제출여부가 합격에 어떤 영향을 얼마나 줄까?



X1,X,2, … Xp Y : 0 or 1

Y=β0 + β1 X1 + β2 X2 + … + βp Xp

선형회귀모형

b0 , b1 , b2 , …, bp : 자료로 부터 SPSS(or R)를 사용하여 만든 추정값

β0 β1 β2 … βp : 모수들

y=b0 + b1 X1 + b2 X2 + … + bp Xp 추정된 회귀직선

선형회귀모형을 가정했을 때의 문제점

y= −3.2 ? y=25.7 ?, Y=0 or 1 !!

자료로 부터 추정된 b0 b1 b2 … bp 를 이용하여 추정된 회귀직선 y를 계산



p=P(Y=1)=성공할 확률 1-p=P(Y=0)=실패할 확률

0<p<1 승산(odd)=p/(1-p)

logit(p)=log(odd)=log(p/(1-p))

p, odd, logit(p)의 관계

p → 0 odd=p/(1-p) → 0 logit(p)=log(odd)=log(p/(1-p)) → - ∞

p → 1 odd=p/(1-p) → ∞ logit(p)=log(odd)=log(p/(1-p)) → ∞

logit(p)의 값이 크면 p는 크다. 성공의 확률이 높다. logit(p)의 값이 작으면 p는 작다. 성공의 확률이 낮다.



로지스틱 모형(logistic model)

logit(p)=log(p/(1-p))=β0 + β1 X1 + β2 X2 + … + βp Xp

b0 , b1 , b2 , …, bp : 자료로 부터 SPSS(or R)를 사용하여 만든 추정값

β0 β1 β2 … βp : 모수들

logit(q)=log(q/(1-q))=b0 + b1 X1 + b2 X2 + … + bp Xp 추정된 회귀직선

Quiz : p와q의 관계는?

q=exp(b0 + b1 X1 + b2 X2 + … + bp Xp)/(1+exp(b0 + b1 X1 + b2 X2 + … + bp Xp))

q는 자료로부터 추정된 모수 p의 추정값



logit(q)=0.2 – 3.2 X1 + 2.7 X2

q= exp(0.2 – 3.2 X1 + 2.7 X2)/(1+ exp(0.2 – 3.2 X1 + 2.7 X2))

독립변수 X1, X2의 값을 대입하면 확률 p를 계산가능

변수 X1은 성공의 확률을 낮추고, 변수 X2는 성공의 확률을 높인다.

– 3.2 X1 + 2.7 X2

예제 1

1986년 첼린져호 자료

발사온도(Temp)와 로켓부스터 고리 고장여부(Damage) : 자료갯수=24개

발사온도(Temp) : 독립변수(양적인 변수)

고장여부(Damage) : 종속변수(이분형 범주형변수)

로지스틱 모형

> challenger<-read.csv("e:\\data sets\\challenger.csv",header=T) > logit2<-glm(Damage~Temp,family=binomial("logit"),data=challenger) > summary(logit2) Call: glm(formula = Damage ~ Temp, family = binomial("logit"), data = challenger) Deviance Residuals: Min 1Q Median 3Q Max -1.0611 -0.7613 -0.3783 0.4524 2.2175 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 15.0429 7.3786 2.039 0.0415 * Temp -0.2322 0.1082 -2.145 0.0320 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Quiz

1. 온도는 고장여부에 영향을 주었다고 할 수 있는가?

2. 온도가 31 이었다면 고장 날 확률은 얼마로 추정되는가?

> challenger<-read.csv("e:\\data sets\\challenger.csv",header=T) > logit2<-glm(Damage~Temp,family=binomial("logit"),data=challenger) > summary(logit2) Call: glm(formula = Damage ~ Temp, family = binomial("logit"), data = challenger) Deviance Residuals: Min 1Q Median 3Q Max -1.0611 -0.7613 -0.3783 0.4524 2.2175 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 15.0429 7.3786 2.039 0.0415 * Temp -0.2322 0.1082 -2.145 0.0320 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

예제 1

1986년 첼린져호 자료

발사온도(Temp)와 로켓부스터 고리 고장여부(Damage) : 자료갯수=24개

발사온도(Temp) : 독립변수(양적인 변수)

고장여부(Damage) : 종속변수(이분형 범주형변수)

로지스틱 모형

미국 UCLA 대학교 합격여부에 대한 자료

admit=0 불합격 admit=1 합격

gre=gre 시험점수 (양적인 변수)

gpa= 평점 (양적인 변수)

이분형 명목변수

로지스틱 모형

예제 2

1. 합격여부에 영향을 주는 유의한 독립변수는? 2. 합격여부에 영향을 더 많이 주는 독립변수는? 3. gre 는 600점, gpa 는 3.87 인 학생이 합격할 확률을 계산해 보시오.

Quiz

log(brain)= 2.5549 + 0.49599xlog(body ) -...

Documents