비선형 회귀분석에서 종속변수의 변환에 관한 연구 · 분석결과, 1980년대...

- 1 -

비선형 회귀분석에서 종속변수의 변환에

한 연구

이성용*․이정환**․황명진***

〈요 약〉

이 연구는 회귀분석에서 종속변수와 독립변수(들) 간의 계가

선형이 아니라 비선형일 때 종속변수의 변환 필요성을 논의한다.

종속변수가 정규 혹은 칭 으로 분포되지 않았을 때, 연구자는

복스와 콕스(Box and Cox, 1964)의 역변환 공식을 이용하여 종속

변수가 칭 인 분포를 갖도록 변환시킬 필요가 있다. 변환은 표

본의 크기가 작을 때 특히 유용하다. 이 연구는 1970년 와 1980년

약 50개국에서 수집된 아사망률, 일인당국민총소득, 소득불평등, 그리

고 여성의 등학교 취학률 변수들을 이용하여 종속변수( 아사망률)의

변환이 가지는 유용성을 분석하 다. 분석결과, 1980년 자료 분석에

서 다 회귀계수(R2

)가 증가되었고 변환되지 않은 회귀분석에서

일인당 국민총소득은 0.05수 에서 유의하지 않았지만 변환된 회귀

분석에서는 유의하게 되었다. 표 화된 회귀계수들도 종속변수를

변환시킨 결과 다르게 나타났다. 게다가 두 시기의 자료 분석결과

를 비교함으로써, 아사망률에 미치는 사회경제 발달의 향력

은 어느 수 을 넘어가면 감소하는 반면 사회경제 불평등의

향력은 증가한다는 사실을 발견하 다.

핵심단어 : 선형회귀분석, 비선형, 정 규 성 , 역 변환

* 강남 학교 교양학부 교수([email protected])

** 청주 학교 사회학과 교수([email protected])

*** 통계청 통계개발원 사회통계실장([email protected])

- 2 -

I. 서론

우리가 흔히 사용하는 선형 회귀분석(linear regression)은 일반

으로 종속변수와 독립변수 간의 계를 선형으로 가정한다. 독립변

수가 한 단 변하면 그 독립변수의 회귀계수 만큼 종속변수의 값

은 증가하거나 감소하며, 독립변수가 종속변수에 미치는 향의 크

기는 종속변수의 모든 구간에서 동일하다. 그러나 때로는 독립변수

의 값이 종속변수의 변화에 미치는 향이 어느 수 까지는 거의

기울기가 있는 직선형으로 그리고 그 수 을 지나면 거의 수평선

에 가까운 형태로 미칠 수 있다. 이 때 독립변수와 종속변수 간의

계는 선형이 아니라 비선형이다. 따라서 연구자는 종속변수를 로

그 혹은 제곱근으로 변환시켜 종속변수와 독립변수 간의 계를

선형으로 만들어 필요가 있다.

연구자는 흔히 종속변수의 확률분포가 정규분포를 형성하지 않을

때 종속변수가 정규분포를 갖도록 변환을 시도한다. 선형회귀분석

은 종속변수의 정규성의 가정에 근거하기 때문에, 종속변수의 비정

규성은 회귀계수의 유의성 검증에 향을 미칠 수 있다. 컨 ,

유의도 수 0.05에서 유의해야 할 변수가 0.1 수 에서 유의해질

수 있다. 특히 이러한 향은 표본의 수가 작을 때 더 나타난다.

종속변수가 제한된 범 에서 값을 가지는 때―이를테면 y는 양

의 값만을 가질 때―는 표본의 크기가 충분히 클 때조차 추정된

회귀계수의 값이 어 날(biased) 수 있다.

따라서 이 은 사례들의 수가 작은 표본들의 분석을 통해 종속

변수를 변환시켰을 때와 변환시키지 않았을 때 회귀계수와 유의도

(특히 t-값)를 비교함으로써 회귀계수의 유의도 수 이 어떻게 변

화되는지를 살펴보겠다. 이 연구에서 사용된 표본은 두 시기에 걸

쳐 획득된 약 50개국의 아사망률, 일인당국민총소득, 소득불평등

계수, 여성의 등학교 취학률이다. 이 연구에서 각 나라의 아사

- 3 -

망률은 종속변수로, 일인당국민총소득, 소득불평등 계수, 여성의

등학교 취학률은 독립변수로 분석되었다.

II. 이론 배경

인류 역사상 1880년 이래 일어난 사망률의 하강은 인류 역사

가 이룬 가장 커다란 업 의 하나이다. 사망률의 하강에는 아

사망률의 하강이 커다란 기여를 했다.

사망률 하강의 원인으로는 (1) 사회경제 발달(Mckweon, 1976),

(2) 공공보건의 향상(Omran, 1973; Preston, 1980), (3) 사회경제

불평등 상태(Gwatkin, 1980; Palloni, 1981; Caldwell, 1986)가 주로

설명되어 왔다. 부분의 학자들은 이 세 가지 요소들이 사망률

하에 커다란 향을 미쳤다는 사실에는 동의하지만, 어느 요소가

더 큰 향을 미쳤는지에 해서는 서로 다른 견해를 가지고 있다.

하지만 이 은 종속변수 변환의 필요성을 보여주기 해 편의상

사회경제 발달과 불평등 어느 것이 더 큰 향을 미쳤는지를

단지 분석한다.

사회경제 발달을 사망률 하강의 주된 원인으로 간주하는 표

인 학자는 맥퀸(Mekeown, 1976)이다. 그는 유럽 사회를 연구한

것에 기 하여 인구변천 동안 사망률의 하강이 사회경제 발달에

기인했다고 주장한다. 사회경제 발달은 양 섭취를 향상시키고,

상수도 시설을 발 시켜 깨끗한 물을 공 하고, 멸균된 우유를 공

하는 등 생활수 을 향상시키어 염병으로 인한 사망( 아 사망

을 포함한)을 다는 것이다. 사회경제 발달은 서구의 선진국

뿐 아니라 이차세계 이후의 개발도상국가의 사망률 하도 커

다란 공헌을 하 다(Frederison, 1961).

사회경제 발달은 아사망률 하에 커다란 공헌을 하 지만,

몇몇의 개발도상국가들은 경제 발달을 이룩하지 않은 상태에서

- 4 -

도 아사망률이 낮은 수 에 도달하 다. 카드웰(Caldwell 1986)은

그 주된 원인의 하나를 여성 교육의 향상( 는 충분한 여성의 자율

성)로 간주한다. 교육을 통해 여성들은 가족 내에서 보다 많

은 자율성과 높은 지 를 차지할 수 있게 되었고, 여성의 자율 인

행동은 서양 의학기술의 도움을 받아 자신의 아 자녀를 보다 효

율 으로 치료하는데 큰 도움을 주었다.

아사망률은 여성의 교육뿐 아니라 경제 불평등에 의해

서도 하강되지 않을 수 있다. 가트킨(Gwatkin 1980)에 의하면, 사

망률이 사회경제 발달로 하강될 수 있지만 어느 수 을 넘으면

사회경제 균형 상태―즉 빈부 격차의 감소―를 동반할 경우에만

계속해서 하강한다. 만일 사회경제 불평등이 해소되지 않으면,

사망률은 어느 수 이상으로 더 이상 하강하지 않는다. 일부 라틴

아메리카 국가들은 1960년 까지 사망률이 하되었지만, 극심한

소득 격차로 인해 더 이상의 사망률 하는 일어나지 않았다. 사망

률 수 과 소득 분포 사이의 이런 계는 개발도상국가에서 뿐 아

니라 국(Pamuk, 1985)이나 미국(Duleep, 1989)과 같은 선진 국가

에도 발견되었고, 국가 간 비교 연구(Rodger, 1979)에서도 그런

계가 입증되었다.

그러므로 이 연구는 아래의 표들을 이용하여 아사망률에 경제

발달과 사회경제 불평등 어느 요인이 더 향을 미치는지

를 분석하고자 한다. 아사망률―특히 개발도상국―은 최근보다

제2차 세계 이후 약 30-40년에 걸쳐 격히 하강하 기 때문

에, 최근의 자료보다는 부분의 나라에서 제1차 인구변천이 거의

끝난 시 인 1990년 이 의 시 인 1970년 와 1980년 의 자료

가 본 연구에 더 합하다고 간주된다.

게다가 1960년 와 1970년 자료 분석 결과의 비료를 통해, 사회

경제 발달 변수와 사회경제 불평등 변수가 사회경제 수 에

따라 아사망률에 미치는 향력이 달라지는지를 분석할 수 있다.

사회경제 발달은 1960년 보다 1970-1980년 에 더 높은 수 에

- 5 -

도달하 다. 따라서 앞의 이론 진술에 따라 1970년 에 비해

1980년 에는 아사망률에 미치는 사회경제 변수의 상

향력은 낮아지는 반면 사회 불평등 변수의 상 향력은 높

아져야 할 것이다.

III. 자료

이 연구는 두 개의 자료를 분석한다. 하나는 <표 1>로 1948년

과 1970년 사이에 획득된 53개국의 아사망률과 사망률 지표들과

세 개의 사망원인 지표들을 나타낸다. 53개국은 11개의 유럽과 북

미 국가, 16개의 남미 국가, 5개의 동국가, 12개의 아 리카 국

가, 그리고 9개의 아시아 국가로 구성된다. 다른 하나는 <표 2>에

나타난 55개국의 아사망률과 세 개의 독립변수이며, 이 지표들은

1965년과 1980년 사이에 획득된 것이다. 55개국은 15개의 유럽과

북미 국가, 16개의 남미 국가, 4개의 동국가, 9개의 아 리카 국

가, 그리고 10개의 아시아 국가로 구성되어 있다. <표 1>과 <표 2>

에 동일한 국가들이 선정되지 않지만, 그것이 국제 비교 연구에서

한 문제를 야기하지는 않는데, 그것은 국제 비교 분석 결과가

단지 그 분석에 포함된 국가들로 국한되지 않기 때문이다

(Bornschier and Chase-Dunn, 1985).

이 연구에서 분석될 종속변수는 아사망률(infant mortality

rate)이며, 독립변수로는 소득불평등 지수인 기니지수(Gini index),

일인당 국민총소득(Gross National Product, GNP), 여성의 등학

교 취학률이 사용된다. 이 연구에서 일인당 국민총소득은 사회경제

발달의 주된 지수로 그리고 기니계수와 여성의 등학교 취학

률은 사회경제 불평등 지수로 간주된다.

- 6 -

<표 1> 1970년 아 사망률과 사망요인국가명 아사망률 기니계수 일인당

국민총소득

여성 등학교

취학률

1 덴마크 14.2 37 2078 103

2 랑스 18.2 50 1732 133

3 핀란드 13.2 46 1568 95

4 그리스 29.6 38 591 109

5 독일 23.6 45 1667 134

6 이탈리아 29.6 40 1011 110

7 네덜란드 12.7 42 1400 104

8 노르웨이 12.7 35 1717 100

9 스웨덴 11 39 2406 96

10 국 18.4 38 1590 92

11 미국 20 34 3233 118

12 아르헨티나 53.9 42 782 102

13 바베이도스 40.1 45 368 107

14 볼리비아 154.4 53 132 50

15 라질 98.6 54 207 93

16 칠 82.3 44 486 122

17 콜롬비아 77 62 275 77

18 코스타리카 58.3 50 360 105

19 에콰도르 107.3 38 202 88

20 엘살바도르 106.5 54 249 79

21 자메이카 32.2 56 465 106

22 멕시코 73.6 53 441 90

23 나마 48.9 48 490 99

24 페루 119.7 61 237 90

25 수리남 50.7 30 424 106

26 트리니다드 토바고 42.7 44 704 90

27 베네수엘라 58.7 42 904 94

28 이라크 103.5 60 285 45

29 이스라엘 23 30 1243 95

30 바논 50 55 440 93

31 모로코 136.4 50 180 35

32 튀니지 131.3 53 187 65

33 차드 173 35 90 4

34 가 137.4 64 368 76

35 코트디부아르 148.6 43 213 41

- 7 -

<표 1> 1970년 아 사망률과 사망요인(계속)국가명 아사망률 기니계수 일인당

국민총소득

여성 등학교

취학률

36 마다가스카르 89.2 53 92 59

37 니제르 171.3 34 81 7

38 나이지리아 158 51 74 24

39 세네갈 164.4 56 192 29

40 시에라리온 227.6 56 142 21

41 남아 리카공화국 114.5 58 521 85

42 수단 150.4 40 97 21

43 탄자니아 125.3 54 61 25

44 잠비아 125.2 48 207 46

45 미얀마 127.9 35 64 65

46 피지 50 46 295 82

47 인도 139 33 95 57

48 일본 13.1 39 838 100

49 말 이시아 45.6 36 278 84

50 키스탄 143 37 101 20

51 필리핀 75 48 240 93

52 스리랑카 58.5 44 140 90

53 한국 50.1 26 107

자료 : 아사망률 (1970)과 여성 등학교 취학률(1960-65)은 World

Bank(1983)에서, 그리고 소득불평등을 나타내는 기니(GINI)계수와 일인당

국민총소득(GNP) (1965) 자료는 Paukert(1973)에서 획득하 다.

회귀분석 결과에서 타당한 인과 계를 추론하기 해서는 독립

변수가 종속변수보다 선행되어야 한다. <표 1>과 <표 2>에서 세

원인지표들은 종속변수인 아사망률 지표보다 선행되어 측정되었

다. <표 1>에서 아 사망률 자료는 1970년, 기니지수는 1948년과

1969년 사이에, 일인당 국민총소득은 1965년에, 여성의 등학교 취

학률은 1960년과 1965년 사이에 획득되었다. <표 2>의 아사망률

은 1977년과 1980년 사이, 기니계수는 1965-1975년, 일인당 국민총소

득은 1975년, 그리고 여성의 등학교 취학률은 1975-76년 사이에 획

득되었다.

- 8 -

<표 2> 1977-1980 사망력과 사망요인 변수 빈도표

국가명 아사망률 기니계수일인당

국민총소득

여성 등학교

취학률

1. 오스트리아 13.9 37.1 4,760 101

2. 벨기에 11.2 34 6,050 102

3. 캐나다 10.4 33.8 7,330 99

4. 덴마크 8.4 36.7 6,910 105

5. 랑스 9.9 39.3 6,010 109

6. 헝가리 23.2 24.8 1310 99

7. 아일랜드 11.2 30 2,610 106

8. 이탈리아 14.3 38 3,840 106

9. 네덜란드 8.6 30 6,070 100

10. 노르웨이 8.1 30 6,610 101

11. 포르투갈 26 40 1,480 112

12. 스페인 11.1 36 2,750 111

13. 스웨덴 6.7 33.9 8.27 102

14. 국 12.1 31.4 3,910 106

15. 유고 32.8 34.7 1,380 101

16. 아르헨티나 45.2 41.4 1,810 109

17. 바베이도스 26.3 33.4 1,520 102

18. 볼리비아 131.3 49 360 77

19. 라질 77.4 56.5 1,070 87

20. 칠 43.2 46.5 870 118

21. 콜롬비아 56.4 52.1 560 120

22. 코스타리카 27.5 42.8 950 106

23. 엘살바도르 77.9 46 430 74

24. 과테말라 65.9 46 570 56

25. 온두라스 88.5 59.6 360 86

26. 멕시코 56 55.2 1,360 28

27. 니카라과 90.5 51 650 88

28. 나마 21.7 54 1,030 120

29. 페루 87.7 54 1,000 105

30. 트리니다드 토바고 32.3 42 2,000 101

31. 우루과이 39.7 40 1,370 103

32. 베네수엘라 41.7 54.6 2,380 97

33. 이집트 110 40.5 310 57

34. 이란 107.8 52 3593.3 73

35. 튀니지 90 46 710 78

- 9 -

<표 2> 1977-1980 사망력과 사망요인 변수 빈도표(계속)

국가명 아사망률 기니계수일인당

국민총소득

여성 등학교

취학률

36. 터키 122.6 51.6 830 98

37. 가 116.8 55 2,660 98

38. 가나 102.8 39.1 280 61

39. 냐 86.8 57.4 230 91

40. 말라 171.9 40.5 120 44

41. 세네갈 146.9 47 340 31

42. 시에라리온 207.5 49.4 220 28

43. 남아 리카 96.2 53 1,410 99

44. 수단 124.5 41 250 34

45. 탄자니아 102.9 50 160 60

46. 호주 11 35.4 6,410 107

47. 인도 123.4 44 160 60

48. 인도네시아 105 38.9 210 76

49. 일본 7.4 33.2 4,490 99

50. 말 이시아 31.1 48.6 820 89

51. 뉴질랜드 12.6 34.5 4,520 106

52 키스탄 125.5 33 140 28

53. 한국 34.1 31.9 580 107

54. 스리랑카 44.2 34.9 220 74

55. 타일랜드 54.8 44.2 360 81

자료 : 아사망률(1977-80)과 일인당 국민총소득GNP(1975)는 World

Bank(1989)에서, 여성 등학교 취학률(1975-76)은 World Bank(1989)에서,

기니계수는 Simpson(1990)에서 획득하 다.

IV. 자료 분석

종속 변수의 분포가 편향되면(skewed), 역(power)-즉 립가설

이 참일 때 귀무가설을 기각시킬 수 있는 확률-을 약화시킨다.

칭성의 결핍은 역의 손실을 의미할 것이다. 종속변수의 일 묶음

(batch)이 칭이 아닐 경우 종속변수를 변환시킬 필요가 있다. 다

음의 역변환 공식은 종속변수를 어떤 형태로 변환시킬 것인지를

결정하는데 사용된다(Box and Cox, 1964).

- 10 -

T λ(Y)= {(Y

λ-1)λ

for λ≠0

log eYfor λ=0

(1)

Y는 종속변수이고 λ는 역의 사다리(ladder of power)이다. 우리

는 최소 잔차 자승법(minimum residual sum of squares)에 근거해

λ를 선택한다. 역변환을 통하여 종속변수의 일 묶음 모양은 비

칭형에서 칭형으로 바 다.

정통(classical) 회귀 분석은 오차 항들(그 결과 Y도)이 정규

으로 분포되어 있다고 가정한다. 종속변수가 정규분포 유형으로 분

포되었는지는 통계 유의도 검정에 한 향을 미친다. 특히 표

본의 크기가 작을 때 종속 변수의 정규성(normality)은 매우 요

하다. 만약 일 묶음의 모양을 칭형으로 변환시키지 못한다면,

종속변수와 독립변수 사이의 계가 참일 때 그 계를 통계 분석

에서 기각될 가능성이 높아진다. 일 묶음이 칭 일 때 평균과

표 편차에 기 한 정통회귀분석 모형의 사용이 합하게 되기

때문에, 일 묶음의 칭성은 바람직한 속성이다(Leinhardt and

Wasserman, 1979). 따라서 연구자는 역변환을 통해 변수들 간의

참 계가 어떤 형태의 비선형 모형인지를 밝 내는데 도움을 받을

필요가 있다.

종속변수가 칭 으로 분포되어 있는지 아닌지를 보기 해 자

료탐색방법(Exploratory Data Analysis, EDA)이 본 연구에 사용될

것이다. 자료탐색방법에서, 변수의 일 묶음은 사분 수(Fourths)들

과 앙치 사이의 거리들이나 팔분 수(Eights)들과 앙값 사이의

거리가 동등할 때 칭 이라고 간주된다(Leinhardt and Wasserman

1979; Franzosi, 1994). 이 연구에서는 자값 그림(letter-value displays),

기잎 모형(step-and leaf), 상자도면(boxplot), 그리고 정규확률 도면

(normal probability plot)등이 종속 변수의 일 묶음이 칭 인가 아닌가

- 11 -

를 발견하기 해 사용될 것이다.

V. 변환

먼 자값 그림을 통해 변환의 필요성을 일차 으로 조사해

보자. 본 연구에서는 7개의 요약값이 자값 시를 해 사용되었

다. 자 값 시에 사용된 7개의 요약값은 앙값(median, M), 두

개의 사분 수(hinges, H), 두 개의 팔분 수(eighths, E) 그리고

두 개의 극단 값(extreme)들이다. 일 묶음이 칭 인가 아닌가를

보기 해, 앙요약값들의 추세(trend of mid-summaries)를 사용

한다. 앙요약값은 각 자 값의 평균이다. 를 들어, 앙사

분 수(mid H)는 상사분 수과 하사분 수의 평균값이고, 앙팔

분 수(mid E)은 두 팔분 값의 평균이다. 자료 분포가 칭 이라

면, 앙요약값들이 어떤 추세도 보이지 않을 것이다(Leinhardt

and Wasserman, 1979; Fox, 1990; Franzosi, 1994).

<표 3>은 각 시기에서 아사망률 변수가 변환된 것과 원래의

것에 한 일곱 자값이 시되어 있다. 변환되지 않은 상태(λ=1)

에서 변수 값의 추세는 쪽을 향한다. 즉 정 (+)으로 편향되어

있다. 원자료의 앙요약값에 한 추세가 쪽으로 향하기 때문

에, λ가 1보다 작은 방향에서 역의 사다리에 한 앙요약치들의

분석을 시도하는 것이 바람직하다. 만일 추세가 부 (-)로 편향되

면 제곱이나 세제곱으로 변환할 필요가 있다. 1970년 아사망률은

제곱근을 어 변환시킨 결과 일 묵음이 칭성을 보 다. 그러나

1977-80년 아사망률은 로그로 변환시켰을 때 일 묶음이 비

교 칭 이 되었다. 우리의 분석 결과에 의하면, 1970년 아사

망률 변수에 합한 변환 함수는 제곱근인 반면 1977-80년의 것은

로그가 되었다. 아사망률 변수의 분석 결과는 각 시기별로 각기

다른 형태의 함수를 합한 변환함수로 제시하 다. 따라서 본 연

- 12 -

구는 두 시 의 자료를 세 가지 형태의 종속변수―원형, 제곱근,

로그―로 분석하여 비교하겠다. 사실 아사망률과 사회경제 발달

혹은 사회불평등 사이의 계가 비선형이라는 주장은 있지만, 그 계가

<표 3> 아사망률에 한 자값 시

가. 1970년 아사망률

1/IMR (λ=-1)log10(IMR)

(λ≒0)

Root(IMR)

(λ=1/2)IMR (λ=1)

하극단값(Min) 0.004 2.40 3.32 11

하팔분 수(E) 0.007 2.805 4.3 18

하사분 수(H) 0.008 3.47 5.7 32

앙값(M) 0.014 4.30 8.57 73.6

상사분 수(H) 0.031 4.83 11.3 128

상팔분 수(E) 0.055 5.005 12.25 150

상극단값(Max) 0.091 5.43 15.1 228

앙값 0.014 4.30 8.57 73.8

앙 사분 수 0.0195 4.15 8.5 80

앙 팔분 수 0.031 3.905 8.275 84

앙 극단값 0.0475 3.915 9.21 119.5

추세 로 약간 아래로 평평(flat) 로

나. 1980년 아사망률

1/IMR (λ=-1)log10(IMR)

(λ≒0)

Root(IMR)

(λ=1/2)IMR (λ=1)

하극단값(Min) 0.005 1.902 2.59 6.7

하팔분 수(E) 0.008 2.400 3.30 11

하사분 수(H) 0.017 2.645 3.50 14

앙값(M) 0.023 3.789 6.65 44.2

상사분 수(H) 0.076 4.545 9.95 99.5

상팔분 수(E) 0.091 4.810 11.0 123

상극단값(Max) 0.149 5.5335 14.4 207.5

앙값 0.023 3.789 6.65 44.2

앙 사분 수 0.0465 3.595 6.725 56.8

앙 팔분 수 0.0495 3.605 7.2 67

앙 극단값 0.077 3.6185 8.495 107.1

추세 로 평평 로 로

- 13 -

로그 혹은 제곱근 형태 어느 것에 근 하다는 주장은 없다.

변환된 종속변수의 일 묶음이 변환 종속변수의 일 묶음보다 좀더

칭 ( 는 정규분포에 근 했는지)이 되었는지를 알아보기 해 기잎

모형, 상자도면 그리고 정규확률도면을 분석하 다. 기잎 모형과 상자 도

면은 보완 이 되는데, 왜냐하면 기잎모형은 개별 자료들에 한 정보를

제공하는 반면 상자 도면은 자료의 집합에 근거해서 앙(center), 퍼짐

(spread), 이상치(outlier)과 같은 통계치를 조명해주기 때문이다(Fox 1990;

Leinhardt and Wasserman 1979). 정규확률 도면은 분석된 변수가 정규

으로 분포되었는지를 분석하는데 이용된다. 정규 확률 도면은 경험 자

료의 분포(즉 변환된 자료의 분포)가 이론 분포에 얼마나 근해 있는

지를 보여 다. 만약 도면의 들이 y=x 선 가까이 분포되어 있다면, 우

리의 자료들이 거의 정규분포되었다고 볼 수 있다. 만약 도면의 들이

y=x 선에서 크게 떨어져 있다면, 우리가 그 변수를 변환하거나 이상치를

고려해야 한다는 사실을 암시한다(Chambers et al. 1983; Fox 1990).

<그림 1>은 1970년 와 1977-1980년 아사망률에 한 원자료와

로그 변환된 자료에 한 기잎 모형, 상자도면을 보여 다. 1977-80

아사망률 일 묶음에 해서는 로그로 변환된 일 묶음이 가장 칭

이면서 정규분포에 근 함을 보여 다.

아사망률은 지난 1년간 태어난 천명의 아이 1세미만의 사망자

수를 나타내고 있어 최 수는 1,000을 넘을 수 없고 음이 될 수 없

다. 게다가 일인당 국민총소득의 증가, 소득불평등의 감소, 여성의 등

학교 취학률을 통한 자율성의 증가는 어느 수 까지는 아사망률을

속히 감소시키지만 그 수 을 넘으면 그 향이 매우 미미해질 수 있

다. 기존의 연구도 사망률과 국가 총소득 간의 계는 선형이 아니라

비선형임을 밝히고 있다(Preston 1975). 이러한 사실들을 종합해 보면,

아사망률 종속변수를 원형 자체로 사용하기 보다는 로그나 제곱근으

로 변환시켜 사용하는 것이 이론 으로도 바람직하다. 자료의 분석은

이론 으로 바람직한 형태의 종속변수가 무엇인지를 말해 다.

- 1

4 -

<그

림 1

> 1

97

0년

와

19

80

년

아사

망률

(IM

R)

변수

의 잎

기,

상자

, 정

규 분

포

롯

1970 I

MR Ste

m-and-

Leaf P

lot

Frequency Stem & Leaf

18.00 0 . 1111111122222344

44 14.00 0 . 55555555777889

14.00 1 . 00011222333344

6.00 1 . 555677

1.00 2 . 2

Stem width: 100

Each leaf: 1 case(s)

53

N =

1970 영

아사

망

300

200

100 0

-100

1970 영

아사

망의

정규

Q-Q

도표

관측

값

300

200

100

0-100

정 규 기 대 값

3 2 1 0

-1

-2

-3

log 1

0(19

70IM

R) S

tem-

and-

Leaf

Plo

t


6.00 1 . 011111

5.00 1 . 22333

3.00 1 . 445

12.00 1 . 666666677777

6.00 1 . 888999

17.00 2 . 00000001111111111

4.00 2 . 2223

Stem width: 1.00


53

N =

log10 1

970 im

r

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0 .8

Log10 1

970 im

r의 정

규 Q

-Q

도표

관측

값

2.6

2.4

2.2

2.0

1.8

1.6

1.4

1.2

1.0

.8

정 규 기 대 값

3 2 1 0

-1

-2

-3

Root(197

0IMR)

Stem-a

nd-Lea

f Plot


6.00 0 . 333333

8.00 0 . 44444555

12.00 0 . 666677777777

6.00 0 . 888999

13.00 1 . 0000011111111

7.00 1 . 2222233

1.00 1 . 5

Stem width: 10.00


53

N =

RTIIM

R70

16

14

12

10 8 6 4 2

RTIIM

R70의

정규

Q-Q

도표

관측

값

16

14

12

10

86

42

0

정 규 기 대 값

3 2 1 0

-1

-2

-3

- 1

5 -

1980

IMR S

tem-an

d-Leaf

Plot


29.00 0 . 0000001111111112

2222333334444

12.00 0 . 555677888999

12.00 1 . 000011222234

1.00 1 . 7

1.00 2 . 0

Stem width: 100.0


55

N =

1980 im

r

300

200

100 0

-100

1980 im

r의 정

규 Q

-Q

도표

관측

값

300

200

100

0-100

정 규 기 대 값

3 2 1 0

-1

-2

-3

log 1

0(19

80IM

R) S

tem-

and-

Leaf

Plo

t


6.00 0 . 889999

15.00 1 . 000000111334444

20.00 1 . 55556666777888999999

14.00 2 . 00000000001123

Stem width: 1.00


55

N =

1980lo

g10im

r

2.5

2.0

1.5

1.0 .5

1980lo

g10im

r의 정

규 Q

-Q

도표

관측

값

3.0

2.5

2.0

1.5

1.0

.5

정 규 기 대 값

3 2 1 0

-1

-2

-3

Root

(1980I

MR) St

em-and

-Leaf

Plot


15.00 0 . 222223333333333

9.00 0 . 445555555

8.00 0 . 66666777

9.00 0 . 888999999

11.00 1 . 00000011111

2.00 1 . 23

1.00 1 . 4

Stem width: 10.00


55

N =

RTIM

R80

16

14

12

10 8 6 4 2 0

RTIM

R80의

정규

Q-Q

도표

관측

값

16

14

12

10

86

42

0

정 규 기 대 값

3 2 1 0

-1

-2

-3

- 16 -

<표 4> 1970년 아사망률 분석 결과아사망률 log(영아사망률) 영아사망률

R 2(%) 83.7 82.2 83.9

비표 화 계수

상수 계수 155.47 2.116 12.093

상수의 표 오차 19.195 0.135 1.114

상수의 t값 8.099 15.628 10.857

일인당 국민총소득 계수 -0.022 -0.0003 -0.0019

일인당 국민총소득의 표 오차 0.006 0.000 0.000

일인당 국민총소득의 t값 -3.988 -7.415 -5.870

소득불평등 계수 0.827 0.006 0.051

소득불평등 표 오차 0.362 0.003 0.021

소득불평등 t값 2.282 2.276 2.431

여성취학률 계수 -1.294 -0.0055 -0.064

여성취학률의 표 오차 0.124 0.001 0.007

여성취학률의 t값 -10.425 -6.334 -8.814

표 화된 계수

일인당 국민총소득 -0.279 -0.541 -0.408

소득불평등 0.138 0.144 0.146

여성 취학률 -0.701 -0.445 -0.589

VI. 회귀모형의 분석 결과

1970년 자료 분석결과는 <표 4>에 나타나 있다. 먼 종속변수

를 로그와 제곱근으로 변환했을 때 다 결정계수(R2

)의 값은 약간

늘거나 어들었다. 1970년 자료분석 결과는 종속변수를 칭 으

로 변환했을 때나 안 했을 때 일인당 국민총소득, 소득불평등 그리

고 여성 등학교 취학률에 의한 아사망률의 설명력에 그다지

차이가 없음을 말한다.

비표 화 계수를 살펴보자. 종속변수를 변환했기 때문에, 상수와

독립변수들의 회귀계수 값은 당연히 바 었다. 유의도 수 과 계

있는 t-값의 변화를 살펴보면, 상수와 일인당 국민총소득의 t-값은

증가되었고, 여성취학률의 t-값은 감소되었지만, 소득불평등의 t-값

은 별 변화가 없었다.

- 17 -

<표 5> 1980년 아사망률 분석 결과아사망률 log(영아사망률) 영아사망률

R 2(%) 79.6 87.1 83.8

비표 화 계수

상수 계수 116.883 1.693 9.11

상수의 표 오차 22.176 0.163 1.347

상수의 t값 5.271 10.412 6.763

일인당 국민총소득 계수 -0.003 -0.000083 -0.0004

일인당 국민총소득의 표 오차 0.002 0.000 0.000

일인당 국민총소득의 t값 -1.798 -6.33 -3.564

소득불평등 계수 1.922 0.019 0.142

소득불평등 표 오차 0.411 0.003 0.026

소득불평등 t값 4.672 6.004 5.469

여성취학률 계수 -1.528 -0.0083 -0.084

여성취학률 표 오차 0.169 0.001 0.01

여성취학률 t값 -9.048 -6.843 -8.361

표 화된 계수

일인당 국민총소득 -0.149 -0.436 -0.275

소득불평등 0.339 0.361 0.368

여성 취학률 -0.664 -0.409 -0.558

표 화의 계수는 종속변수를 변환하지 않았을 때와 변환했을 때

큰 차이가 났다. 변환했을 때, 일인당 국민총소득의 상 요성

이 크게 증가된 반면, 여성 등학교 취학률의 상 요성은 감

소하 다. 그리고 소득불평등의 상 요성은 그다지 차이가 없

었다.

<표 5>는 1980년 자료 분석결과를 나타낸다. 다 결정계수(R2)의

값은 1970년 분석 결과와 달리 종속변수를 변환했을 때 향상되었

다. 그리고 그 증가폭도 로그로 변환했을 때 7.5%, 제곱근으로 변

환했을 때 4.2%가 증가하 다. 이 결과는 종속변수를 변환시켰을

때, 때로는 다 결정계수를 그다지 변화시키지 못하지만 때로는 크

게 향상사킬 수 있다는 사실을 보여 다.

비표 화 계수를 살펴보자. 1970년 자료와 마찬가지로 종속변수

의 변환은 상수와 독립변수들의 회귀계수 값을 변화시킨다. 1970년

- 18 -

자료 분석 결과에서 상수와 모든 독립변수는 종속변수가 변환되지

않거나 변환되었을 때 모두 0.05수 에서 유의하 다. 1980년 자료

분석결과에서, 종속변수를 변환시키지 않았을 때 일인당 국민총소

득은 0.05 수 에서 유의하지 않았지만 변환시켰을 때 유의하게 되

었다, t-값의 변화를 살펴보면, 여성의 취학률을 제외하고는 종속변

수를 변환시켰을 때 상수와 일인당 국민총소득 그리고 소득불평등

의 값은 증가되었다. 이 결과는 종속변수의 변환은 독립변수의 유

의성을 향상시킬 수 있다는 것을 보여 다.

표 화의 계수 분석은 1970년 자료와 비슷한 결과를 가져왔다.

독립변수들의 표 화 계수는 종속변수를 변환하지 않았을 때와 변

환했을 때 큰 차이가 났고, 종속변수의 변환은 일인당 국민총소득

의 상 요성을 증가시킨 반면, 여성 등학교 취학률의 상

요성은 감소시켰지만 소득불평등의 상 요성은 별로 변

화시키지 않았다.

<표 4>와 <표 5>에서 회귀분석의 표 화된 계수들 비교해보면,

1970 에 비해 1980년 일인당 국민총소득 회귀계수는 감소된 반

면 소득불평등 변수의 회귀 계수는 증가되었다. 이는 사회경제

발달이 아사망률에 미치는 향은 사회경제 발달이 어느 수

을 넘어가면 그 향력이 감소하는 신 사회경제 평등 수 의

향력이 더 강해진다는 사실을 간 으로 보여주는 것이라

할 수 있다.

VII. 결론

연구자는 많은 경우 회귀분석에서 종속변수와 독립변수들 간의

계를 선형으로 간주하지만 비선형인 경우가 많다. 이 연구의 분

석결과는 특히 표본 크기가 작을 때 종속변수를 칭 인 분포를

갖게끔 종속변수를 변환시킬 필요가 있음을 말해 다. 이 연구의

주요 발견은 다음과 같다.

- 19 -

첫째, 1980년 자료의 분석이 보여주는 바와 같이 종속변수의 변

환은 때때로 다 결정계수(R2)의 값을 증가시킬 수 있다. 둘째, 많

은 통계이론이 제시하는 바와 같이 정규분포를 가지지 않는 종속

변수의 회귀분석은 회귀계수의 역(power)을 떨어뜨릴 수 있다.

1980년 자료 분석에서 아사망률과 일인당 국민총소득의 계를

선형으로 분석했을 때 그 계가 0.05수 에서 유의하지 않았지만,

비선형으로 변환시킨 결과 그 계가 0.05 심지어 0.01수 에서까

지 유의하게 되었다. 셋째, 독립변수들이 종속변수에 미치는 상

요성을 말해주는 표 화된 회귀계수는 변환시켰을 때 매우

심각한 수 으로 변화하 다. 종속변수를 변환시키지 않았을 때에

는 일인당 국민총소득의 요도가 여성 취학률에 비해 매우 낮았

지만, 변환시킨 모형에서는 일인당 국민총소득이 심지어 여성 취학

률보다 아사망률 변화가 더 커다란 향을 미치는 것으로 나타

났다. 마지막으로, 1970년 자료와 1980년 자료를 비교 분석한

결과, 사회경제 발달 이 어느 수 을 넘어가면 사회경제 발달

이 아사망률에 미치는 향력은 감소되는 반면 사회경제 불평

등의 향력은 차 커진다는 사실을 발견하 다.

이론 으로 볼 때, 아 사망률과 국민 총소득, 소득불평등, 여

성 등학교 취학률 간의 계는 선형이 아니라 비선형이다. 이는

종속변수와 독립변수의 계를 비선형으로 분석할 필요성을 말한

다. 특히 표본의 수가 은 경우는 그 필요성이 더 요구된다. 자료

탐색분석은 우리에게 종속변수를 어떤 유형의 비선형 형태로 변환

시킬 것인지를 말해 다. 하지만 우리의 자료 분석 결과는 1970년

와 1980년 자료가 서로 각기 다른 형태의 변환이 합하다는

것을 보여 다. 이는 아사망율과 독립변수간의 비선형 계가 변

할 수 있다는 사실을 암시할 수 있지만, 그럼에도 불구하고 이것을

지지할 수 있는 이론 배경은 없다. 그러므로 이에 한 보다 심

층 연구가 필요하다는 사실 밖에 말할 수 없다는 한계 을 이

연구는 가진다.

- 20 -

참 고 문 헌

Bornschier, V. and C. Chase-Dunn(1985), Transnational

Corporations and Underdevelopment, Praeger, New York.

Box, G. E. P. and Cox, D. R.(1964), An analysis of transformations,

Journal of the Royal Statistical Society, Series B 26: 211～252.

Caldwell, J. C.(1986), "Routes to low mortality in poor

countries", Population and Development Review 12: 171～220.

Chambers, J. M., Cleveland, W. S., Kleiner, B. and P. A.

Tukey(1983), Graphical Methods for Data Analysis,

Wadsworth, Belmont, CA.

Duleep, H. O.(1989), "Measuring Socioeconomic Mortality

Differentials over Time", Demography 26: 345～351.

Fox, J.(1990), "Describing univariate distribution", in Modern

Methods of Data Analysis, edited by J. Fox and J. S. Long,

58～125, Sage Publication, Newbury Park.

Franzosi, R.(1994), Outside and inside the regression "block box"

from exploratory to interior data analysis, Quality and

Quantity 28: 21～53.

Frederikson, H.(1961), Determinants and consequences of mortality

trends in Ceylon, Public Health Reports 76: 659～663.

Gwatkin, D. A.(1980), "Indications of changing in developing

country mortality trends: The end of an era?", Population and

Development Review 6: 615～644.

Leinhardt, S. and S. S. Wasserman(1979), Exploratory data

analysis: An introduction to selected method in Sociological

Methodology, edited Schuessler, 311～365, American Sociological

Association, Washington, D. C.

McKeown, T.(1976), The Modern Rise of Population, Academic

- 21 -

Press, New York.

Omran, A. R.(1973), Epidemiologic transition, in International

Encyclopedia of Population, edited J Ross, 172～183, Free

Press, New York.

Palloni, A.(1981), Mortality in Latin America: Emerging patterns,

Population and Development Review 7: 623～648.

Pampel, F. and Pillai, V.(1986), "Patterns and determinants of

infant mortality in developed nations", 1950-1975, Demography

23: 525～542.

Pamuk, E. R(1985), "Social class inequality in mortality from 1921

to 1972 in England and Wales", Population Studies 39: 17～31.

Pukert, F.(1973), "The distribution of income at different levels

of developments", International Labour Review 108: 97～125.

Preston, S.(1975), "The changing relation between mortality and

level of economic development", Population Studies 29: 231～248.

Preston, S.(1980), "Causes and consequences of mortality

declines in less developed countries during the twentieth

century" in Population and Economic Change in the

Developing Countries. edited R. Easterlin, 289～360, University

of Chicago Press, Chicago.

Rodgers, G. B(1979), "Income and inequality as determinants of

mortality: An international cross-section Analysis", Population

Studies 33: 343～352.

Simpson, M.(1990), "Political rights and income inequality: A cross-

national test", American Sociological Review 51: 682～693.

World Bank.(1983), World Tables: The Third Edition Volume II

Social Data, The John Hopkins University Press, Baltimore.

World Bank(1989), World Tables: 1988-89 Edition. The John

Hopkins University Press, Baltimore.

- 22 -

A Study of the Transformati on of the

dependent vari abl e i n non-l i near regression

Lee, Sung Yong*․Lee, Jungwhan**․Myung-Jin Hwang***

〈ABSTRACT〉

This study discusses the need of transformation(especially, of

dependent variable) when the relation between dependent

variable and independent variable(s). When the dependent

variable are not normally or symmetrically distributed, it can be

transformed to distribute normally or symmetrically using the

equation of power transformation. Transformation is especially

useful when the sample sizes are small. This study has

analyzed the utility of transformation using the data of infant

mortality rates, GNP, GINI index, and the enrollment rates of

women in primary school at about 50 countries during 1970s

and 1980s. Based on our results of 1980 data, when the

dependent variable(infant mortality rate) is transformed R2 is

increased and the coefficient of GNP becomes significant at the

level of p=0.01, even though that coefficient is not significant at

the level of p=0.05 in the statistical model of the raw dependent

variable. Also, the standardized coefficients has been changed

when the dependent variable is transformed. In addition,

comparing with the results of two periods data, after the

socioeconomic development reached at some level, the effect of

socioeconomic development on the infant mortality rates have

been declining while the effect of social inequality increasing.

K e y w o r d s : L i n e a r R e g r e s s i o n , N o n l i n e a r , N o r m a l i t y , P o w e r

T r a n s f o r m a t i o n

* Professor, Kangnam University ([email protected])

** Professor, ChungJu University ([email protected])

*** Director of Social Statistics Division, Statistics Research Institute, Korea National

Statistical Office(e-mail : [email protected])

비선형 회귀분석에서 종속변수의 변환에 관한 연구 · 분석결과, 1980년대...

Documents