비선형 회귀분석에서 종속변수의 변환에 관한 연구 · 분석결과, 1980년대...
TRANSCRIPT
- 1 -
비선형 회귀분석에서 종속변수의 변환에
한 연구
이성용*․이정환**․황명진***
〈요 약〉
이 연구는 회귀분석에서 종속변수와 독립변수(들) 간의 계가
선형이 아니라 비선형일 때 종속변수의 변환 필요성을 논의한다.
종속변수가 정규 혹은 칭 으로 분포되지 않았을 때, 연구자는
복스와 콕스(Box and Cox, 1964)의 역변환 공식을 이용하여 종속
변수가 칭 인 분포를 갖도록 변환시킬 필요가 있다. 변환은 표
본의 크기가 작을 때 특히 유용하다. 이 연구는 1970년 와 1980년
약 50개국에서 수집된 아사망률, 일인당국민총소득, 소득불평등, 그리
고 여성의 등학교 취학률 변수들을 이용하여 종속변수( 아사망률)의
변환이 가지는 유용성을 분석하 다. 분석결과, 1980년 자료 분석에
서 다 회귀계수(R2
)가 증가되었고 변환되지 않은 회귀분석에서
일인당 국민총소득은 0.05수 에서 유의하지 않았지만 변환된 회귀
분석에서는 유의하게 되었다. 표 화된 회귀계수들도 종속변수를
변환시킨 결과 다르게 나타났다. 게다가 두 시기의 자료 분석결과
를 비교함으로써, 아사망률에 미치는 사회경제 발달의 향력
은 어느 수 을 넘어가면 감소하는 반면 사회경제 불평등의
향력은 증가한다는 사실을 발견하 다.
핵심단어 : 선형회귀분석, 비선형, 정 규 성 , 역 변환
* 강남 학교 교양학부 교수([email protected])
** 청주 학교 사회학과 교수([email protected])
*** 통계청 통계개발원 사회통계실장([email protected])
- 2 -
I. 서론
우리가 흔히 사용하는 선형 회귀분석(linear regression)은 일반
으로 종속변수와 독립변수 간의 계를 선형으로 가정한다. 독립변
수가 한 단 변하면 그 독립변수의 회귀계수 만큼 종속변수의 값
은 증가하거나 감소하며, 독립변수가 종속변수에 미치는 향의 크
기는 종속변수의 모든 구간에서 동일하다. 그러나 때로는 독립변수
의 값이 종속변수의 변화에 미치는 향이 어느 수 까지는 거의
기울기가 있는 직선형으로 그리고 그 수 을 지나면 거의 수평선
에 가까운 형태로 미칠 수 있다. 이 때 독립변수와 종속변수 간의
계는 선형이 아니라 비선형이다. 따라서 연구자는 종속변수를 로
그 혹은 제곱근으로 변환시켜 종속변수와 독립변수 간의 계를
선형으로 만들어 필요가 있다.
연구자는 흔히 종속변수의 확률분포가 정규분포를 형성하지 않을
때 종속변수가 정규분포를 갖도록 변환을 시도한다. 선형회귀분석
은 종속변수의 정규성의 가정에 근거하기 때문에, 종속변수의 비정
규성은 회귀계수의 유의성 검증에 향을 미칠 수 있다. 컨 ,
유의도 수 0.05에서 유의해야 할 변수가 0.1 수 에서 유의해질
수 있다. 특히 이러한 향은 표본의 수가 작을 때 더 나타난다.
종속변수가 제한된 범 에서 값을 가지는 때―이를테면 y는 양
의 값만을 가질 때―는 표본의 크기가 충분히 클 때조차 추정된
회귀계수의 값이 어 날(biased) 수 있다.
따라서 이 은 사례들의 수가 작은 표본들의 분석을 통해 종속
변수를 변환시켰을 때와 변환시키지 않았을 때 회귀계수와 유의도
(특히 t-값)를 비교함으로써 회귀계수의 유의도 수 이 어떻게 변
화되는지를 살펴보겠다. 이 연구에서 사용된 표본은 두 시기에 걸
쳐 획득된 약 50개국의 아사망률, 일인당국민총소득, 소득불평등
계수, 여성의 등학교 취학률이다. 이 연구에서 각 나라의 아사
- 3 -
망률은 종속변수로, 일인당국민총소득, 소득불평등 계수, 여성의
등학교 취학률은 독립변수로 분석되었다.
II. 이론 배경
인류 역사상 1880년 이래 일어난 사망률의 하강은 인류 역사
가 이룬 가장 커다란 업 의 하나이다. 사망률의 하강에는 아
사망률의 하강이 커다란 기여를 했다.
사망률 하강의 원인으로는 (1) 사회경제 발달(Mckweon, 1976),
(2) 공공보건의 향상(Omran, 1973; Preston, 1980), (3) 사회경제
불평등 상태(Gwatkin, 1980; Palloni, 1981; Caldwell, 1986)가 주로
설명되어 왔다. 부분의 학자들은 이 세 가지 요소들이 사망률
하에 커다란 향을 미쳤다는 사실에는 동의하지만, 어느 요소가
더 큰 향을 미쳤는지에 해서는 서로 다른 견해를 가지고 있다.
하지만 이 은 종속변수 변환의 필요성을 보여주기 해 편의상
사회경제 발달과 불평등 어느 것이 더 큰 향을 미쳤는지를
단지 분석한다.
사회경제 발달을 사망률 하강의 주된 원인으로 간주하는 표
인 학자는 맥퀸(Mekeown, 1976)이다. 그는 유럽 사회를 연구한
것에 기 하여 인구변천 동안 사망률의 하강이 사회경제 발달에
기인했다고 주장한다. 사회경제 발달은 양 섭취를 향상시키고,
상수도 시설을 발 시켜 깨끗한 물을 공 하고, 멸균된 우유를 공
하는 등 생활수 을 향상시키어 염병으로 인한 사망( 아 사망
을 포함한)을 다는 것이다. 사회경제 발달은 서구의 선진국
뿐 아니라 이차세계 이후의 개발도상국가의 사망률 하도 커
다란 공헌을 하 다(Frederison, 1961).
사회경제 발달은 아사망률 하에 커다란 공헌을 하 지만,
몇몇의 개발도상국가들은 경제 발달을 이룩하지 않은 상태에서
- 4 -
도 아사망률이 낮은 수 에 도달하 다. 카드웰(Caldwell 1986)은
그 주된 원인의 하나를 여성 교육의 향상( 는 충분한 여성의 자율
성)로 간주한다. 교육을 통해 여성들은 가족 내에서 보다 많
은 자율성과 높은 지 를 차지할 수 있게 되었고, 여성의 자율 인
행동은 서양 의학기술의 도움을 받아 자신의 아 자녀를 보다 효
율 으로 치료하는데 큰 도움을 주었다.
아사망률은 여성의 교육뿐 아니라 경제 불평등에 의해
서도 하강되지 않을 수 있다. 가트킨(Gwatkin 1980)에 의하면, 사
망률이 사회경제 발달로 하강될 수 있지만 어느 수 을 넘으면
사회경제 균형 상태―즉 빈부 격차의 감소―를 동반할 경우에만
계속해서 하강한다. 만일 사회경제 불평등이 해소되지 않으면,
사망률은 어느 수 이상으로 더 이상 하강하지 않는다. 일부 라틴
아메리카 국가들은 1960년 까지 사망률이 하되었지만, 극심한
소득 격차로 인해 더 이상의 사망률 하는 일어나지 않았다. 사망
률 수 과 소득 분포 사이의 이런 계는 개발도상국가에서 뿐 아
니라 국(Pamuk, 1985)이나 미국(Duleep, 1989)과 같은 선진 국가
에도 발견되었고, 국가 간 비교 연구(Rodger, 1979)에서도 그런
계가 입증되었다.
그러므로 이 연구는 아래의 표들을 이용하여 아사망률에 경제
발달과 사회경제 불평등 어느 요인이 더 향을 미치는지
를 분석하고자 한다. 아사망률―특히 개발도상국―은 최근보다
제2차 세계 이후 약 30-40년에 걸쳐 격히 하강하 기 때문
에, 최근의 자료보다는 부분의 나라에서 제1차 인구변천이 거의
끝난 시 인 1990년 이 의 시 인 1970년 와 1980년 의 자료
가 본 연구에 더 합하다고 간주된다.
게다가 1960년 와 1970년 자료 분석 결과의 비료를 통해, 사회
경제 발달 변수와 사회경제 불평등 변수가 사회경제 수 에
따라 아사망률에 미치는 향력이 달라지는지를 분석할 수 있다.
사회경제 발달은 1960년 보다 1970-1980년 에 더 높은 수 에
- 5 -
도달하 다. 따라서 앞의 이론 진술에 따라 1970년 에 비해
1980년 에는 아사망률에 미치는 사회경제 변수의 상
향력은 낮아지는 반면 사회 불평등 변수의 상 향력은 높
아져야 할 것이다.
III. 자료
이 연구는 두 개의 자료를 분석한다. 하나는 <표 1>로 1948년
과 1970년 사이에 획득된 53개국의 아사망률과 사망률 지표들과
세 개의 사망원인 지표들을 나타낸다. 53개국은 11개의 유럽과 북
미 국가, 16개의 남미 국가, 5개의 동국가, 12개의 아 리카 국
가, 그리고 9개의 아시아 국가로 구성된다. 다른 하나는 <표 2>에
나타난 55개국의 아사망률과 세 개의 독립변수이며, 이 지표들은
1965년과 1980년 사이에 획득된 것이다. 55개국은 15개의 유럽과
북미 국가, 16개의 남미 국가, 4개의 동국가, 9개의 아 리카 국
가, 그리고 10개의 아시아 국가로 구성되어 있다. <표 1>과 <표 2>
에 동일한 국가들이 선정되지 않지만, 그것이 국제 비교 연구에서
한 문제를 야기하지는 않는데, 그것은 국제 비교 분석 결과가
단지 그 분석에 포함된 국가들로 국한되지 않기 때문이다
(Bornschier and Chase-Dunn, 1985).
이 연구에서 분석될 종속변수는 아사망률(infant mortality
rate)이며, 독립변수로는 소득불평등 지수인 기니지수(Gini index),
일인당 국민총소득(Gross National Product, GNP), 여성의 등학
교 취학률이 사용된다. 이 연구에서 일인당 국민총소득은 사회경제
발달의 주된 지수로 그리고 기니계수와 여성의 등학교 취학
률은 사회경제 불평등 지수로 간주된다.
- 6 -
<표 1> 1970년 아 사망률과 사망요인국가명 아사망률 기니계수 일인당
국민총소득
여성 등학교
취학률
1 덴마크 14.2 37 2078 103
2 랑스 18.2 50 1732 133
3 핀란드 13.2 46 1568 95
4 그리스 29.6 38 591 109
5 독일 23.6 45 1667 134
6 이탈리아 29.6 40 1011 110
7 네덜란드 12.7 42 1400 104
8 노르웨이 12.7 35 1717 100
9 스웨덴 11 39 2406 96
10 국 18.4 38 1590 92
11 미국 20 34 3233 118
12 아르헨티나 53.9 42 782 102
13 바베이도스 40.1 45 368 107
14 볼리비아 154.4 53 132 50
15 라질 98.6 54 207 93
16 칠 82.3 44 486 122
17 콜롬비아 77 62 275 77
18 코스타리카 58.3 50 360 105
19 에콰도르 107.3 38 202 88
20 엘살바도르 106.5 54 249 79
21 자메이카 32.2 56 465 106
22 멕시코 73.6 53 441 90
23 나마 48.9 48 490 99
24 페루 119.7 61 237 90
25 수리남 50.7 30 424 106
26 트리니다드 토바고 42.7 44 704 90
27 베네수엘라 58.7 42 904 94
28 이라크 103.5 60 285 45
29 이스라엘 23 30 1243 95
30 바논 50 55 440 93
31 모로코 136.4 50 180 35
32 튀니지 131.3 53 187 65
33 차드 173 35 90 4
34 가 137.4 64 368 76
35 코트디부아르 148.6 43 213 41
- 7 -
<표 1> 1970년 아 사망률과 사망요인(계속)국가명 아사망률 기니계수 일인당
국민총소득
여성 등학교
취학률
36 마다가스카르 89.2 53 92 59
37 니제르 171.3 34 81 7
38 나이지리아 158 51 74 24
39 세네갈 164.4 56 192 29
40 시에라리온 227.6 56 142 21
41 남아 리카공화국 114.5 58 521 85
42 수단 150.4 40 97 21
43 탄자니아 125.3 54 61 25
44 잠비아 125.2 48 207 46
45 미얀마 127.9 35 64 65
46 피지 50 46 295 82
47 인도 139 33 95 57
48 일본 13.1 39 838 100
49 말 이시아 45.6 36 278 84
50 키스탄 143 37 101 20
51 필리핀 75 48 240 93
52 스리랑카 58.5 44 140 90
53 한국 50.1 26 107
자료 : 아사망률 (1970)과 여성 등학교 취학률(1960-65)은 World
Bank(1983)에서, 그리고 소득불평등을 나타내는 기니(GINI)계수와 일인당
국민총소득(GNP) (1965) 자료는 Paukert(1973)에서 획득하 다.
회귀분석 결과에서 타당한 인과 계를 추론하기 해서는 독립
변수가 종속변수보다 선행되어야 한다. <표 1>과 <표 2>에서 세
원인지표들은 종속변수인 아사망률 지표보다 선행되어 측정되었
다. <표 1>에서 아 사망률 자료는 1970년, 기니지수는 1948년과
1969년 사이에, 일인당 국민총소득은 1965년에, 여성의 등학교 취
학률은 1960년과 1965년 사이에 획득되었다. <표 2>의 아사망률
은 1977년과 1980년 사이, 기니계수는 1965-1975년, 일인당 국민총소
득은 1975년, 그리고 여성의 등학교 취학률은 1975-76년 사이에 획
득되었다.
- 8 -
<표 2> 1977-1980 사망력과 사망요인 변수 빈도표
국가명 아사망률 기니계수일인당
국민총소득
여성 등학교
취학률
1. 오스트리아 13.9 37.1 4,760 101
2. 벨기에 11.2 34 6,050 102
3. 캐나다 10.4 33.8 7,330 99
4. 덴마크 8.4 36.7 6,910 105
5. 랑스 9.9 39.3 6,010 109
6. 헝가리 23.2 24.8 1310 99
7. 아일랜드 11.2 30 2,610 106
8. 이탈리아 14.3 38 3,840 106
9. 네덜란드 8.6 30 6,070 100
10. 노르웨이 8.1 30 6,610 101
11. 포르투갈 26 40 1,480 112
12. 스페인 11.1 36 2,750 111
13. 스웨덴 6.7 33.9 8.27 102
14. 국 12.1 31.4 3,910 106
15. 유고 32.8 34.7 1,380 101
16. 아르헨티나 45.2 41.4 1,810 109
17. 바베이도스 26.3 33.4 1,520 102
18. 볼리비아 131.3 49 360 77
19. 라질 77.4 56.5 1,070 87
20. 칠 43.2 46.5 870 118
21. 콜롬비아 56.4 52.1 560 120
22. 코스타리카 27.5 42.8 950 106
23. 엘살바도르 77.9 46 430 74
24. 과테말라 65.9 46 570 56
25. 온두라스 88.5 59.6 360 86
26. 멕시코 56 55.2 1,360 28
27. 니카라과 90.5 51 650 88
28. 나마 21.7 54 1,030 120
29. 페루 87.7 54 1,000 105
30. 트리니다드 토바고 32.3 42 2,000 101
31. 우루과이 39.7 40 1,370 103
32. 베네수엘라 41.7 54.6 2,380 97
33. 이집트 110 40.5 310 57
34. 이란 107.8 52 3593.3 73
35. 튀니지 90 46 710 78
- 9 -
<표 2> 1977-1980 사망력과 사망요인 변수 빈도표(계속)
국가명 아사망률 기니계수일인당
국민총소득
여성 등학교
취학률
36. 터키 122.6 51.6 830 98
37. 가 116.8 55 2,660 98
38. 가나 102.8 39.1 280 61
39. 냐 86.8 57.4 230 91
40. 말라 171.9 40.5 120 44
41. 세네갈 146.9 47 340 31
42. 시에라리온 207.5 49.4 220 28
43. 남아 리카 96.2 53 1,410 99
44. 수단 124.5 41 250 34
45. 탄자니아 102.9 50 160 60
46. 호주 11 35.4 6,410 107
47. 인도 123.4 44 160 60
48. 인도네시아 105 38.9 210 76
49. 일본 7.4 33.2 4,490 99
50. 말 이시아 31.1 48.6 820 89
51. 뉴질랜드 12.6 34.5 4,520 106
52 키스탄 125.5 33 140 28
53. 한국 34.1 31.9 580 107
54. 스리랑카 44.2 34.9 220 74
55. 타일랜드 54.8 44.2 360 81
자료 : 아사망률(1977-80)과 일인당 국민총소득GNP(1975)는 World
Bank(1989)에서, 여성 등학교 취학률(1975-76)은 World Bank(1989)에서,
기니계수는 Simpson(1990)에서 획득하 다.
IV. 자료 분석
종속 변수의 분포가 편향되면(skewed), 역(power)-즉 립가설
이 참일 때 귀무가설을 기각시킬 수 있는 확률-을 약화시킨다.
칭성의 결핍은 역의 손실을 의미할 것이다. 종속변수의 일 묶음
(batch)이 칭이 아닐 경우 종속변수를 변환시킬 필요가 있다. 다
음의 역변환 공식은 종속변수를 어떤 형태로 변환시킬 것인지를
결정하는데 사용된다(Box and Cox, 1964).
- 10 -
T λ(Y)= {(Y
λ-1)λ
for λ≠0
log eYfor λ=0
(1)
Y는 종속변수이고 λ는 역의 사다리(ladder of power)이다. 우리
는 최소 잔차 자승법(minimum residual sum of squares)에 근거해
λ를 선택한다. 역변환을 통하여 종속변수의 일 묶음 모양은 비
칭형에서 칭형으로 바 다.
정통(classical) 회귀 분석은 오차 항들(그 결과 Y도)이 정규
으로 분포되어 있다고 가정한다. 종속변수가 정규분포 유형으로 분
포되었는지는 통계 유의도 검정에 한 향을 미친다. 특히 표
본의 크기가 작을 때 종속 변수의 정규성(normality)은 매우 요
하다. 만약 일 묶음의 모양을 칭형으로 변환시키지 못한다면,
종속변수와 독립변수 사이의 계가 참일 때 그 계를 통계 분석
에서 기각될 가능성이 높아진다. 일 묶음이 칭 일 때 평균과
표 편차에 기 한 정통회귀분석 모형의 사용이 합하게 되기
때문에, 일 묶음의 칭성은 바람직한 속성이다(Leinhardt and
Wasserman, 1979). 따라서 연구자는 역변환을 통해 변수들 간의
참 계가 어떤 형태의 비선형 모형인지를 밝 내는데 도움을 받을
필요가 있다.
종속변수가 칭 으로 분포되어 있는지 아닌지를 보기 해 자
료탐색방법(Exploratory Data Analysis, EDA)이 본 연구에 사용될
것이다. 자료탐색방법에서, 변수의 일 묶음은 사분 수(Fourths)들
과 앙치 사이의 거리들이나 팔분 수(Eights)들과 앙값 사이의
거리가 동등할 때 칭 이라고 간주된다(Leinhardt and Wasserman
1979; Franzosi, 1994). 이 연구에서는 자값 그림(letter-value displays),
기잎 모형(step-and leaf), 상자도면(boxplot), 그리고 정규확률 도면
(normal probability plot)등이 종속 변수의 일 묶음이 칭 인가 아닌가
- 11 -
를 발견하기 해 사용될 것이다.
V. 변환
먼 자값 그림을 통해 변환의 필요성을 일차 으로 조사해
보자. 본 연구에서는 7개의 요약값이 자값 시를 해 사용되었
다. 자 값 시에 사용된 7개의 요약값은 앙값(median, M), 두
개의 사분 수(hinges, H), 두 개의 팔분 수(eighths, E) 그리고
두 개의 극단 값(extreme)들이다. 일 묶음이 칭 인가 아닌가를
보기 해, 앙요약값들의 추세(trend of mid-summaries)를 사용
한다. 앙요약값은 각 자 값의 평균이다. 를 들어, 앙사
분 수(mid H)는 상사분 수과 하사분 수의 평균값이고, 앙팔
분 수(mid E)은 두 팔분 값의 평균이다. 자료 분포가 칭 이라
면, 앙요약값들이 어떤 추세도 보이지 않을 것이다(Leinhardt
and Wasserman, 1979; Fox, 1990; Franzosi, 1994).
<표 3>은 각 시기에서 아사망률 변수가 변환된 것과 원래의
것에 한 일곱 자값이 시되어 있다. 변환되지 않은 상태(λ=1)
에서 변수 값의 추세는 쪽을 향한다. 즉 정 (+)으로 편향되어
있다. 원자료의 앙요약값에 한 추세가 쪽으로 향하기 때문
에, λ가 1보다 작은 방향에서 역의 사다리에 한 앙요약치들의
분석을 시도하는 것이 바람직하다. 만일 추세가 부 (-)로 편향되
면 제곱이나 세제곱으로 변환할 필요가 있다. 1970년 아사망률은
제곱근을 어 변환시킨 결과 일 묵음이 칭성을 보 다. 그러나
1977-80년 아사망률은 로그로 변환시켰을 때 일 묶음이 비
교 칭 이 되었다. 우리의 분석 결과에 의하면, 1970년 아사
망률 변수에 합한 변환 함수는 제곱근인 반면 1977-80년의 것은
로그가 되었다. 아사망률 변수의 분석 결과는 각 시기별로 각기
다른 형태의 함수를 합한 변환함수로 제시하 다. 따라서 본 연
- 12 -
구는 두 시 의 자료를 세 가지 형태의 종속변수―원형, 제곱근,
로그―로 분석하여 비교하겠다. 사실 아사망률과 사회경제 발달
혹은 사회불평등 사이의 계가 비선형이라는 주장은 있지만, 그 계가
<표 3> 아사망률에 한 자값 시
가. 1970년 아사망률
1/IMR (λ=-1)log10(IMR)
(λ≒0)
Root(IMR)
(λ=1/2)IMR (λ=1)
하극단값(Min) 0.004 2.40 3.32 11
하팔분 수(E) 0.007 2.805 4.3 18
하사분 수(H) 0.008 3.47 5.7 32
앙값(M) 0.014 4.30 8.57 73.6
상사분 수(H) 0.031 4.83 11.3 128
상팔분 수(E) 0.055 5.005 12.25 150
상극단값(Max) 0.091 5.43 15.1 228
앙값 0.014 4.30 8.57 73.8
앙 사분 수 0.0195 4.15 8.5 80
앙 팔분 수 0.031 3.905 8.275 84
앙 극단값 0.0475 3.915 9.21 119.5
추세 로 약간 아래로 평평(flat) 로
나. 1980년 아사망률
1/IMR (λ=-1)log10(IMR)
(λ≒0)
Root(IMR)
(λ=1/2)IMR (λ=1)
하극단값(Min) 0.005 1.902 2.59 6.7
하팔분 수(E) 0.008 2.400 3.30 11
하사분 수(H) 0.017 2.645 3.50 14
앙값(M) 0.023 3.789 6.65 44.2
상사분 수(H) 0.076 4.545 9.95 99.5
상팔분 수(E) 0.091 4.810 11.0 123
상극단값(Max) 0.149 5.5335 14.4 207.5
앙값 0.023 3.789 6.65 44.2
앙 사분 수 0.0465 3.595 6.725 56.8
앙 팔분 수 0.0495 3.605 7.2 67
앙 극단값 0.077 3.6185 8.495 107.1
추세 로 평평 로 로
- 13 -
로그 혹은 제곱근 형태 어느 것에 근 하다는 주장은 없다.
변환된 종속변수의 일 묶음이 변환 종속변수의 일 묶음보다 좀더
칭 ( 는 정규분포에 근 했는지)이 되었는지를 알아보기 해 기잎
모형, 상자도면 그리고 정규확률도면을 분석하 다. 기잎 모형과 상자 도
면은 보완 이 되는데, 왜냐하면 기잎모형은 개별 자료들에 한 정보를
제공하는 반면 상자 도면은 자료의 집합에 근거해서 앙(center), 퍼짐
(spread), 이상치(outlier)과 같은 통계치를 조명해주기 때문이다(Fox 1990;
Leinhardt and Wasserman 1979). 정규확률 도면은 분석된 변수가 정규
으로 분포되었는지를 분석하는데 이용된다. 정규 확률 도면은 경험 자
료의 분포(즉 변환된 자료의 분포)가 이론 분포에 얼마나 근해 있는
지를 보여 다. 만약 도면의 들이 y=x 선 가까이 분포되어 있다면, 우
리의 자료들이 거의 정규분포되었다고 볼 수 있다. 만약 도면의 들이
y=x 선에서 크게 떨어져 있다면, 우리가 그 변수를 변환하거나 이상치를
고려해야 한다는 사실을 암시한다(Chambers et al. 1983; Fox 1990).
<그림 1>은 1970년 와 1977-1980년 아사망률에 한 원자료와
로그 변환된 자료에 한 기잎 모형, 상자도면을 보여 다. 1977-80
아사망률 일 묶음에 해서는 로그로 변환된 일 묶음이 가장 칭
이면서 정규분포에 근 함을 보여 다.
아사망률은 지난 1년간 태어난 천명의 아이 1세미만의 사망자
수를 나타내고 있어 최 수는 1,000을 넘을 수 없고 음이 될 수 없
다. 게다가 일인당 국민총소득의 증가, 소득불평등의 감소, 여성의 등
학교 취학률을 통한 자율성의 증가는 어느 수 까지는 아사망률을
속히 감소시키지만 그 수 을 넘으면 그 향이 매우 미미해질 수 있
다. 기존의 연구도 사망률과 국가 총소득 간의 계는 선형이 아니라
비선형임을 밝히고 있다(Preston 1975). 이러한 사실들을 종합해 보면,
아사망률 종속변수를 원형 자체로 사용하기 보다는 로그나 제곱근으
로 변환시켜 사용하는 것이 이론 으로도 바람직하다. 자료의 분석은
이론 으로 바람직한 형태의 종속변수가 무엇인지를 말해 다.
- 1
4 -
<그
림 1
> 1
97
0년
와
19
80
년
아사
망률
(IM
R)
변수
의 잎
기,
상자
, 정
규 분
포
롯
1970 I
MR Ste
m-and-
Leaf P
lot
Frequency Stem & Leaf
18.00 0 . 1111111122222344
44 14.00 0 . 55555555777889
14.00 1 . 00011222333344
6.00 1 . 555677
1.00 2 . 2
Stem width: 100
Each leaf: 1 case(s)
53
N =
1970 영
아사
망
300
200
100 0
-100
1970 영
아사
망의
정규
Q-Q
도표
관측
값
300
200
100
0-100
정 규 기 대 값
3 2 1 0
-1
-2
-3
log 1
0(19
70IM
R) S
tem-
and-
Leaf
Plo
t
Frequency Stem & Leaf
6.00 1 . 011111
5.00 1 . 22333
3.00 1 . 445
12.00 1 . 666666677777
6.00 1 . 888999
17.00 2 . 00000001111111111
4.00 2 . 2223
Stem width: 1.00
Each leaf: 1 case(s)
53
N =
log10 1
970 im
r
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0 .8
Log10 1
970 im
r의 정
규 Q
-Q
도표
관측
값
2.6
2.4
2.2
2.0
1.8
1.6
1.4
1.2
1.0
.8
정 규 기 대 값
3 2 1 0
-1
-2
-3
Root(197
0IMR)
Stem-a
nd-Lea
f Plot
Frequency Stem & Leaf
6.00 0 . 333333
8.00 0 . 44444555
12.00 0 . 666677777777
6.00 0 . 888999
13.00 1 . 0000011111111
7.00 1 . 2222233
1.00 1 . 5
Stem width: 10.00
Each leaf: 1 case(s)
53
N =
RTIIM
R70
16
14
12
10 8 6 4 2
RTIIM
R70의
정규
Q-Q
도표
관측
값
16
14
12
10
86
42
0
정 규 기 대 값
3 2 1 0
-1
-2
-3
- 1
5 -
1980
IMR S
tem-an
d-Leaf
Plot
Frequency Stem & Leaf
29.00 0 . 0000001111111112
2222333334444
12.00 0 . 555677888999
12.00 1 . 000011222234
1.00 1 . 7
1.00 2 . 0
Stem width: 100.0
Each leaf: 1 case(s)
55
N =
1980 im
r
300
200
100 0
-100
1980 im
r의 정
규 Q
-Q
도표
관측
값
300
200
100
0-100
정 규 기 대 값
3 2 1 0
-1
-2
-3
log 1
0(19
80IM
R) S
tem-
and-
Leaf
Plo
t
Frequency Stem & Leaf
6.00 0 . 889999
15.00 1 . 000000111334444
20.00 1 . 55556666777888999999
14.00 2 . 00000000001123
Stem width: 1.00
Each leaf: 1 case(s)
55
N =
1980lo
g10im
r
2.5
2.0
1.5
1.0 .5
1980lo
g10im
r의 정
규 Q
-Q
도표
관측
값
3.0
2.5
2.0
1.5
1.0
.5
정 규 기 대 값
3 2 1 0
-1
-2
-3
Root
(1980I
MR) St
em-and
-Leaf
Plot
Frequency Stem & Leaf
15.00 0 . 222223333333333
9.00 0 . 445555555
8.00 0 . 66666777
9.00 0 . 888999999
11.00 1 . 00000011111
2.00 1 . 23
1.00 1 . 4
Stem width: 10.00
Each leaf: 1 case(s)
55
N =
RTIM
R80
16
14
12
10 8 6 4 2 0
RTIM
R80의
정규
Q-Q
도표
관측
값
16
14
12
10
86
42
0
정 규 기 대 값
3 2 1 0
-1
-2
-3
- 16 -
<표 4> 1970년 아사망률 분석 결과아사망률 log(영아사망률) 영아사망률
R 2(%) 83.7 82.2 83.9
비표 화 계수
상수 계수 155.47 2.116 12.093
상수의 표 오차 19.195 0.135 1.114
상수의 t값 8.099 15.628 10.857
일인당 국민총소득 계수 -0.022 -0.0003 -0.0019
일인당 국민총소득의 표 오차 0.006 0.000 0.000
일인당 국민총소득의 t값 -3.988 -7.415 -5.870
소득불평등 계수 0.827 0.006 0.051
소득불평등 표 오차 0.362 0.003 0.021
소득불평등 t값 2.282 2.276 2.431
여성취학률 계수 -1.294 -0.0055 -0.064
여성취학률의 표 오차 0.124 0.001 0.007
여성취학률의 t값 -10.425 -6.334 -8.814
표 화된 계수
일인당 국민총소득 -0.279 -0.541 -0.408
소득불평등 0.138 0.144 0.146
여성 취학률 -0.701 -0.445 -0.589
VI. 회귀모형의 분석 결과
1970년 자료 분석결과는 <표 4>에 나타나 있다. 먼 종속변수
를 로그와 제곱근으로 변환했을 때 다 결정계수(R2
)의 값은 약간
늘거나 어들었다. 1970년 자료분석 결과는 종속변수를 칭 으
로 변환했을 때나 안 했을 때 일인당 국민총소득, 소득불평등 그리
고 여성 등학교 취학률에 의한 아사망률의 설명력에 그다지
차이가 없음을 말한다.
비표 화 계수를 살펴보자. 종속변수를 변환했기 때문에, 상수와
독립변수들의 회귀계수 값은 당연히 바 었다. 유의도 수 과 계
있는 t-값의 변화를 살펴보면, 상수와 일인당 국민총소득의 t-값은
증가되었고, 여성취학률의 t-값은 감소되었지만, 소득불평등의 t-값
은 별 변화가 없었다.
- 17 -
<표 5> 1980년 아사망률 분석 결과아사망률 log(영아사망률) 영아사망률
R 2(%) 79.6 87.1 83.8
비표 화 계수
상수 계수 116.883 1.693 9.11
상수의 표 오차 22.176 0.163 1.347
상수의 t값 5.271 10.412 6.763
일인당 국민총소득 계수 -0.003 -0.000083 -0.0004
일인당 국민총소득의 표 오차 0.002 0.000 0.000
일인당 국민총소득의 t값 -1.798 -6.33 -3.564
소득불평등 계수 1.922 0.019 0.142
소득불평등 표 오차 0.411 0.003 0.026
소득불평등 t값 4.672 6.004 5.469
여성취학률 계수 -1.528 -0.0083 -0.084
여성취학률 표 오차 0.169 0.001 0.01
여성취학률 t값 -9.048 -6.843 -8.361
표 화된 계수
일인당 국민총소득 -0.149 -0.436 -0.275
소득불평등 0.339 0.361 0.368
여성 취학률 -0.664 -0.409 -0.558
표 화의 계수는 종속변수를 변환하지 않았을 때와 변환했을 때
큰 차이가 났다. 변환했을 때, 일인당 국민총소득의 상 요성
이 크게 증가된 반면, 여성 등학교 취학률의 상 요성은 감
소하 다. 그리고 소득불평등의 상 요성은 그다지 차이가 없
었다.
<표 5>는 1980년 자료 분석결과를 나타낸다. 다 결정계수(R2)의
값은 1970년 분석 결과와 달리 종속변수를 변환했을 때 향상되었
다. 그리고 그 증가폭도 로그로 변환했을 때 7.5%, 제곱근으로 변
환했을 때 4.2%가 증가하 다. 이 결과는 종속변수를 변환시켰을
때, 때로는 다 결정계수를 그다지 변화시키지 못하지만 때로는 크
게 향상사킬 수 있다는 사실을 보여 다.
비표 화 계수를 살펴보자. 1970년 자료와 마찬가지로 종속변수
의 변환은 상수와 독립변수들의 회귀계수 값을 변화시킨다. 1970년
- 18 -
자료 분석 결과에서 상수와 모든 독립변수는 종속변수가 변환되지
않거나 변환되었을 때 모두 0.05수 에서 유의하 다. 1980년 자료
분석결과에서, 종속변수를 변환시키지 않았을 때 일인당 국민총소
득은 0.05 수 에서 유의하지 않았지만 변환시켰을 때 유의하게 되
었다, t-값의 변화를 살펴보면, 여성의 취학률을 제외하고는 종속변
수를 변환시켰을 때 상수와 일인당 국민총소득 그리고 소득불평등
의 값은 증가되었다. 이 결과는 종속변수의 변환은 독립변수의 유
의성을 향상시킬 수 있다는 것을 보여 다.
표 화의 계수 분석은 1970년 자료와 비슷한 결과를 가져왔다.
독립변수들의 표 화 계수는 종속변수를 변환하지 않았을 때와 변
환했을 때 큰 차이가 났고, 종속변수의 변환은 일인당 국민총소득
의 상 요성을 증가시킨 반면, 여성 등학교 취학률의 상
요성은 감소시켰지만 소득불평등의 상 요성은 별로 변
화시키지 않았다.
<표 4>와 <표 5>에서 회귀분석의 표 화된 계수들 비교해보면,
1970 에 비해 1980년 일인당 국민총소득 회귀계수는 감소된 반
면 소득불평등 변수의 회귀 계수는 증가되었다. 이는 사회경제
발달이 아사망률에 미치는 향은 사회경제 발달이 어느 수
을 넘어가면 그 향력이 감소하는 신 사회경제 평등 수 의
향력이 더 강해진다는 사실을 간 으로 보여주는 것이라
할 수 있다.
VII. 결론
연구자는 많은 경우 회귀분석에서 종속변수와 독립변수들 간의
계를 선형으로 간주하지만 비선형인 경우가 많다. 이 연구의 분
석결과는 특히 표본 크기가 작을 때 종속변수를 칭 인 분포를
갖게끔 종속변수를 변환시킬 필요가 있음을 말해 다. 이 연구의
주요 발견은 다음과 같다.
- 19 -
첫째, 1980년 자료의 분석이 보여주는 바와 같이 종속변수의 변
환은 때때로 다 결정계수(R2)의 값을 증가시킬 수 있다. 둘째, 많
은 통계이론이 제시하는 바와 같이 정규분포를 가지지 않는 종속
변수의 회귀분석은 회귀계수의 역(power)을 떨어뜨릴 수 있다.
1980년 자료 분석에서 아사망률과 일인당 국민총소득의 계를
선형으로 분석했을 때 그 계가 0.05수 에서 유의하지 않았지만,
비선형으로 변환시킨 결과 그 계가 0.05 심지어 0.01수 에서까
지 유의하게 되었다. 셋째, 독립변수들이 종속변수에 미치는 상
요성을 말해주는 표 화된 회귀계수는 변환시켰을 때 매우
심각한 수 으로 변화하 다. 종속변수를 변환시키지 않았을 때에
는 일인당 국민총소득의 요도가 여성 취학률에 비해 매우 낮았
지만, 변환시킨 모형에서는 일인당 국민총소득이 심지어 여성 취학
률보다 아사망률 변화가 더 커다란 향을 미치는 것으로 나타
났다. 마지막으로, 1970년 자료와 1980년 자료를 비교 분석한
결과, 사회경제 발달 이 어느 수 을 넘어가면 사회경제 발달
이 아사망률에 미치는 향력은 감소되는 반면 사회경제 불평
등의 향력은 차 커진다는 사실을 발견하 다.
이론 으로 볼 때, 아 사망률과 국민 총소득, 소득불평등, 여
성 등학교 취학률 간의 계는 선형이 아니라 비선형이다. 이는
종속변수와 독립변수의 계를 비선형으로 분석할 필요성을 말한
다. 특히 표본의 수가 은 경우는 그 필요성이 더 요구된다. 자료
탐색분석은 우리에게 종속변수를 어떤 유형의 비선형 형태로 변환
시킬 것인지를 말해 다. 하지만 우리의 자료 분석 결과는 1970년
와 1980년 자료가 서로 각기 다른 형태의 변환이 합하다는
것을 보여 다. 이는 아사망율과 독립변수간의 비선형 계가 변
할 수 있다는 사실을 암시할 수 있지만, 그럼에도 불구하고 이것을
지지할 수 있는 이론 배경은 없다. 그러므로 이에 한 보다 심
층 연구가 필요하다는 사실 밖에 말할 수 없다는 한계 을 이
연구는 가진다.
- 20 -
참 고 문 헌
Bornschier, V. and C. Chase-Dunn(1985), Transnational
Corporations and Underdevelopment, Praeger, New York.
Box, G. E. P. and Cox, D. R.(1964), An analysis of transformations,
Journal of the Royal Statistical Society, Series B 26: 211~252.
Caldwell, J. C.(1986), "Routes to low mortality in poor
countries", Population and Development Review 12: 171~220.
Chambers, J. M., Cleveland, W. S., Kleiner, B. and P. A.
Tukey(1983), Graphical Methods for Data Analysis,
Wadsworth, Belmont, CA.
Duleep, H. O.(1989), "Measuring Socioeconomic Mortality
Differentials over Time", Demography 26: 345~351.
Fox, J.(1990), "Describing univariate distribution", in Modern
Methods of Data Analysis, edited by J. Fox and J. S. Long,
58~125, Sage Publication, Newbury Park.
Franzosi, R.(1994), Outside and inside the regression "block box"
from exploratory to interior data analysis, Quality and
Quantity 28: 21~53.
Frederikson, H.(1961), Determinants and consequences of mortality
trends in Ceylon, Public Health Reports 76: 659~663.
Gwatkin, D. A.(1980), "Indications of changing in developing
country mortality trends: The end of an era?", Population and
Development Review 6: 615~644.
Leinhardt, S. and S. S. Wasserman(1979), Exploratory data
analysis: An introduction to selected method in Sociological
Methodology, edited Schuessler, 311~365, American Sociological
Association, Washington, D. C.
McKeown, T.(1976), The Modern Rise of Population, Academic
- 21 -
Press, New York.
Omran, A. R.(1973), Epidemiologic transition, in International
Encyclopedia of Population, edited J Ross, 172~183, Free
Press, New York.
Palloni, A.(1981), Mortality in Latin America: Emerging patterns,
Population and Development Review 7: 623~648.
Pampel, F. and Pillai, V.(1986), "Patterns and determinants of
infant mortality in developed nations", 1950-1975, Demography
23: 525~542.
Pamuk, E. R(1985), "Social class inequality in mortality from 1921
to 1972 in England and Wales", Population Studies 39: 17~31.
Pukert, F.(1973), "The distribution of income at different levels
of developments", International Labour Review 108: 97~125.
Preston, S.(1975), "The changing relation between mortality and
level of economic development", Population Studies 29: 231~248.
Preston, S.(1980), "Causes and consequences of mortality
declines in less developed countries during the twentieth
century" in Population and Economic Change in the
Developing Countries. edited R. Easterlin, 289~360, University
of Chicago Press, Chicago.
Rodgers, G. B(1979), "Income and inequality as determinants of
mortality: An international cross-section Analysis", Population
Studies 33: 343~352.
Simpson, M.(1990), "Political rights and income inequality: A cross-
national test", American Sociological Review 51: 682~693.
World Bank.(1983), World Tables: The Third Edition Volume II
Social Data, The John Hopkins University Press, Baltimore.
World Bank(1989), World Tables: 1988-89 Edition. The John
Hopkins University Press, Baltimore.
- 22 -
A Study of the Transformati on of the
dependent vari abl e i n non-l i near regression
Lee, Sung Yong*․Lee, Jungwhan**․Myung-Jin Hwang***
〈ABSTRACT〉
This study discusses the need of transformation(especially, of
dependent variable) when the relation between dependent
variable and independent variable(s). When the dependent
variable are not normally or symmetrically distributed, it can be
transformed to distribute normally or symmetrically using the
equation of power transformation. Transformation is especially
useful when the sample sizes are small. This study has
analyzed the utility of transformation using the data of infant
mortality rates, GNP, GINI index, and the enrollment rates of
women in primary school at about 50 countries during 1970s
and 1980s. Based on our results of 1980 data, when the
dependent variable(infant mortality rate) is transformed R2 is
increased and the coefficient of GNP becomes significant at the
level of p=0.01, even though that coefficient is not significant at
the level of p=0.05 in the statistical model of the raw dependent
variable. Also, the standardized coefficients has been changed
when the dependent variable is transformed. In addition,
comparing with the results of two periods data, after the
socioeconomic development reached at some level, the effect of
socioeconomic development on the infant mortality rates have
been declining while the effect of social inequality increasing.
K e y w o r d s : L i n e a r R e g r e s s i o n , N o n l i n e a r , N o r m a l i t y , P o w e r
T r a n s f o r m a t i o n
* Professor, Kangnam University ([email protected])
** Professor, ChungJu University ([email protected])
*** Director of Social Statistics Division, Statistics Research Institute, Korea National
Statistical Office(e-mail : [email protected])