log(brain)= 2.5549 + 0.49599xlog(body ) -...
TRANSCRIPT
추정된 회귀직선
추정된 회귀직선의 용도는 예측!
log(brain)= 2.5549 + 0.49599xlog(body)
만약 어떤 동물의 무게가 300이었다면 뇌무게는 얼마쯤일까?
log(brain)=2.5549 + 0.49599xlog(300)
2013-08-23 1.회귀분석(regression analysis) 1
2013-08-23 1.회귀분석(regression analysis) 2
R을 이용한 회귀분석
단순회귀분석 : 독립변수1개, 종속변수 1개
회귀모형 log(brain)= β0 + β1 x log(body) + ε
> lm.1<-lm(log(brain)~log(body)) > summary(lm.1) Call: lm(formula = log(brain) ~ log(body)) Residuals: Min 1Q Median 3Q Max -3.2890 -0.6763 0.3316 0.8646 2.5835 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.55490 0.41314 6.184 1.53e-06 *** log(body) 0.49599 0.07817 6.345 1.02e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.532 on 26 degrees of freedom Multiple R-squared: 0.6076, Adjusted R-squared: 0.5925 F-statistic: 40.26 on 1 and 26 DF, p-value: 1.017e-06
p-value=유의확률
H: β1=0 K: β1≠0
H: β0=0 K: β0≠0
Homework : 유의수준5%에서 위 검정결과는?
추정된 회귀직선
log(brain)= 2.5549+ 0.49599xlog(body)
추정된 회귀직선의 용도는 예측!
p-value=1.53x10-6 < 0.05
p-value=1.02x10-6 < 0.05
추정된 회귀직선
추정된 회귀직선의 용도는 예측!
log(brain)= 2.5549 + 0.49599xlog(body)
만약 어떤 동물의 무게가 300이었다면 뇌무게는 얼마쯤일까?
log(brain)=2.5549 + 0.49599xlog(300)
2013-08-23 1.회귀분석(regression analysis) 3
2013-08-23 1.회귀분석(regression analysis) 4
volume area weight cover 1 885 382 800 hb 2 1016 468 950 hb 3 1125 387 1050 hb 4 239 371 350 hb 5 701 371 750 hb 6 641 367 600 hb 7 1228 396 1075 hb 8 412 0 250 pb 9 953 0 700 pb 10 929 0 650 pb 11 1492 0 975 pb 12 419 0 350 pb 13 1010 0 950 pb 14 595 0 425 pb 15 1034 0 725 pb
중회귀분석(multiple regression analysis)
종속변수 : 1개, 독립변수 : 2개 이상
책무게(weight)는 부피(volume), 면적(area), 책표지형태(cover)와 어떤 관계에 있는가?
모형1 종속변수 : 책의 무게 독립변수 : 부피, 면적
변수들의 성질 및 척도
책무게(weight) : 종속변수, 양적인 자료, 비율척도 책부피(volume): 독립변수1,양적인 자료, 비율척도 책면적(area):독립변수2,양적인 자료, 비율척도 책표지형태(cover):독립변수3,질적인 자료, 명목척도
모형2 종속변수 : 책의 무게 독립변수 : 부피, 면적, 책표지형태
weight = β0 + β1 x volume + β2 x area + ε
weight = β0 + β1 x volume + β2 x area + β3 x cover + ε
2013-08-23 1.회귀분석(regression analysis) 5
모형1(R 프로그램) 종속변수 : 책의 무게 독립변수 : 부피, 면적
weight = β0 + β1 x volume + β2 x area + ε
> lm.1<-lm(weight~area+volume) > summary(lm.1) Call: lm(formula = weight ~ area + volume) Residuals: Min 1Q Median 3Q Max -104.06 -30.02 -15.46 16.76 212.30 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 22.41342 58.40247 0.384 0.707858 area 0.46843 0.10195 4.595 0.000616 *** volume 0.70821 0.06107 11.597 7.07e-08 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 77.66 on 12 degrees of freedom Multiple R-squared: 0.9285, Adjusted R-squared: 0.9166 F-statistic: 77.89 on 2 and 12 DF, p-value: 1.339e-07
H: β0 =0 K: β0 ≠0
H: β1 =0 K: β1 ≠0
H: β2 =0 K: β2 ≠0
p-value=0.707858 > 0.05=유의수준
p-value=7.07x10-8 < 0.05=유의수준
p-value=0.000616 < 0.05=유의수준
H를 채택
H를 기각 (K를 채택)
H를 기각 (K를 채택)
2013-08-23 1.회귀분석(regression analysis) 6
모형1(결론) 종속변수 : 책의 무게 독립변수 : 부피, 면적
추정된 회귀직선 weight=22.41342 + 0.46843 x area + 0.70821 x volume
책의 면적(area)과 부피(volume)을 알면 무게(weight)를 예측할 수 있음
면적과 부피에 해당하는 회귀계수들의 추정량들은 매우 유의하였음
2013-08-23 2..로지스틱 회귀분석(logistic regression) 7
로지스틱 회귀분석(logistic regression)
X1,X,2, … Xp Y
독립변수들 양적변수 혹은 질적변수
종속변수 이분형 명목변수 Dichotomous variable
Y=1(성공, success) Y=0(실패, failure)
사례
독립변수들 X1 : 학습시간, 양적변수, 연속인 변수 X2 : 출석횟수, 양적변수, 이산인 변수 X3 : 과제물제출여부, 질적변수, X3=1,0
종속변수: 이분형 명목변수 Y=1 (합격) Y=0(불합격)
학습시간, 출석횟수, 과제물제출여부가 합격에 어떤 영향을 얼마나 줄까?
2013-08-23 2..로지스틱 회귀분석(logistic regression) 8
로지스틱 회귀분석(logistic regression)
X1,X,2, … Xp Y : 0 or 1
Y=β0 + β1 X1 + β2 X2 + … + βp Xp
선형회귀모형
b0 , b1 , b2 , …, bp : 자료로 부터 SPSS(or R)를 사용하여 만든 추정값
β0 β1 β2 … βp : 모수들
y=b0 + b1 X1 + b2 X2 + … + bp Xp 추정된 회귀직선
선형회귀모형을 가정했을 때의 문제점
y= −3.2 ? y=25.7 ?, Y=0 or 1 !!
자료로 부터 추정된 b0 b1 b2 … bp 를 이용하여 추정된 회귀직선 y를 계산
2013-08-23 2..로지스틱 회귀분석(logistic regression) 9
로지스틱 회귀분석(logistic regression)
p=P(Y=1)=성공할 확률 1-p=P(Y=0)=실패할 확률
0<p<1 승산(odd)=p/(1-p)
logit(p)=log(odd)=log(p/(1-p))
p, odd, logit(p)의 관계
p → 0 odd=p/(1-p) → 0 logit(p)=log(odd)=log(p/(1-p)) → - ∞
p → 1 odd=p/(1-p) → ∞ logit(p)=log(odd)=log(p/(1-p)) → ∞
logit(p)의 값이 크면 p는 크다. 성공의 확률이 높다. logit(p)의 값이 작으면 p는 작다. 성공의 확률이 낮다.
2013-08-23 2..로지스틱 회귀분석(logistic regression) 10
로지스틱 회귀분석(logistic regression)
로지스틱 모형(logistic model)
logit(p)=log(p/(1-p))=β0 + β1 X1 + β2 X2 + … + βp Xp
b0 , b1 , b2 , …, bp : 자료로 부터 SPSS(or R)를 사용하여 만든 추정값
β0 β1 β2 … βp : 모수들
logit(q)=log(q/(1-q))=b0 + b1 X1 + b2 X2 + … + bp Xp 추정된 회귀직선
Quiz : p와q의 관계는?
q=exp(b0 + b1 X1 + b2 X2 + … + bp Xp)/(1+exp(b0 + b1 X1 + b2 X2 + … + bp Xp))
q는 자료로부터 추정된 모수 p의 추정값
2013-08-23 2..로지스틱 회귀분석(logistic regression) 11
로지스틱 회귀분석(logistic regression)
logit(q)=0.2 – 3.2 X1 + 2.7 X2
q= exp(0.2 – 3.2 X1 + 2.7 X2)/(1+ exp(0.2 – 3.2 X1 + 2.7 X2))
독립변수 X1, X2의 값을 대입하면 확률 p를 계산가능
변수 X1은 성공의 확률을 낮추고, 변수 X2는 성공의 확률을 높인다.
– 3.2 X1 + 2.7 X2
예제 1
1986년 첼린져호 자료
발사온도(Temp)와 로켓부스터 고리 고장여부(Damage) : 자료갯수=24개
발사온도(Temp) : 독립변수(양적인 변수)
고장여부(Damage) : 종속변수(이분형 범주형변수)
로지스틱 모형
> challenger<-read.csv("e:\\data sets\\challenger.csv",header=T) > logit2<-glm(Damage~Temp,family=binomial("logit"),data=challenger) > summary(logit2) Call: glm(formula = Damage ~ Temp, family = binomial("logit"), data = challenger) Deviance Residuals: Min 1Q Median 3Q Max -1.0611 -0.7613 -0.3783 0.4524 2.2175 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 15.0429 7.3786 2.039 0.0415 * Temp -0.2322 0.1082 -2.145 0.0320 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> challenger<-read.csv("e:\\data sets\\challenger.csv",header=T) > logit2<-glm(Damage~Temp,family=binomial("logit"),data=challenger) > summary(logit2) Call: glm(formula = Damage ~ Temp, family = binomial("logit"), data = challenger) Deviance Residuals: Min 1Q Median 3Q Max -1.0611 -0.7613 -0.3783 0.4524 2.2175 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 15.0429 7.3786 2.039 0.0415 * Temp -0.2322 0.1082 -2.145 0.0320 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
예제 1
1986년 첼린져호 자료
발사온도(Temp)와 로켓부스터 고리 고장여부(Damage) : 자료갯수=24개
발사온도(Temp) : 독립변수(양적인 변수)
고장여부(Damage) : 종속변수(이분형 범주형변수)
로지스틱 모형
미국 UCLA 대학교 합격여부에 대한 자료
admit=0 불합격 admit=1 합격
gre=gre 시험점수 (양적인 변수)
gpa= 평점 (양적인 변수)
이분형 명목변수
로지스틱 모형
예제 2