ensemble algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한...

47
Ensemble Algorithm 을 이용한 간암진단의 분류분석 지도 교수 논문을 석사 학위논문으로 제출함 2001 12 연세대학교 대학원 의학전산통계협동과정

Upload: others

Post on 13-Aug-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Ensemble Algorithm을 이용한

간암진단의 분류분석

지도 손 소 영 교수

이 논문을 석사 학위논문으로 제출함

2001년 12월 일

연세대학교 대학원

의학전산통계협동과정

이 우 선

Page 2: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Ensemble Algorithm을 이용한

간암진단의 분류분석

연세대학교 대학원

의학전산통계협동과정

이 우 선

Page 3: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

이우선의 석사 학위논문을 인준함

심사위원 인

심사위원 인

심사위원 인

연세대학교 대학원

2001년 12월 일

Page 4: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

감사의 글

아직도 혼란의 시기인 듯 불투명한 하루하루를 헤쳐 나아가 하나의 작은 매듭

을 마무리하는 소중한 결실의 시간을 맞이한 듯 합니다.

2년 반 동안 지도해 주고 항상 큰 힘이 되어주신 의학통계학과 김동기 교수님

께 깊은 감사를 드립니다.

바쁘신 중에 이 논문의 결실을 얻을 수 있도록 애써주신 손소영 선생님과 신형

원 선생님께 감사드립니다.

논문의 시작부터 끊임없는 우문에 현답을 주신 김동건 선생님께 큰 감사의 마

음을 드립니다.

바쁜 일과와 학업에도 불구하고 성심껏 도와준 송기준 선생님과 동기 윤주, 영

진, 희철형과 시내누나께 감사를 드리며, 격려와 박수로 용기를 북돋워 준 성민과

다른 의학통계학과 후배들에게 감사를 드립니다.

또한 자식같은 마음으로 인생과 삶의 철학에 대해 제시해 주시던 예방치과 권

호근 선생님과 2년여 동안 동고동락하며 고생한 정기호, 이호진 선생님 그리고 예

방치과 선생님들께 감사의 마음을 드립니다.

인생의 참된 선에 대해 가르치심과 사랑으로 감싸주시는 사랑하는 아버지, 어

머니 그리고 다른 가족들에게도 감사를 드립니다.

곁에서 항상 사랑과 격려의 마음으로 지켜봐 주던 경원에게 고마움과 사랑의

마음을 전하며 이 논문을 올립니다.

200 1년 12월 일

이 우 선 드 림

Page 5: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

목 차

그림 차례 ⅰ

표 차례 ⅱ

국문요약 ⅲ

1. 서론 1

2. En sem ble Algorith m 5

3. 분류 모형 8

3.1. 개별 모형 8

3.1.1 Logistic Regression 8

3.1.2 Decision Tree 9

3.1.3 N eu ral N etw ork 11

3.2 앙상블 모형 14

3.2.1. 앙상블 모형을 위한 용어정리 14

3.2.2. Baggin g Algorith m 15

3.2.3. Arc-x4 Algorithm 17

3.3 학습자료 크기 및 의 Bootstrap Resam p lin g의 개수의 선택 20

3.4 진단검사의 평가 20

4. 간암자료의 분류분석을 위한 사례연구 23

4.1 연구대상 23

4.2 분석결과 24

4.2.1 단일분류기(Sin gle Classifier)의 결과 25

4.2.2 En sem ble algorithm 의 결과 25

5. 총괄 및 고찰 31

6. 결론 34

7. 참고문헌 35

영문요약 39

- i -

Page 6: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

그림 차례

Figu re 1. Baggin g algorithm 16

Figu re 2. Baggin g algorithm 의 도식도 17

Figu re 3. Arc-x4 Algorithm 19

Figu re 4. Arc-x4 Algorithm 의 도식도 19

- ii -

Page 7: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

표 차례

Table 1. 2×2 Con tin gency table for bin ary ou tp u t 21

Table 2. Clin ical ch aracteristics of su bject 24

Table 3. sin gle classifier의 성능측정 25

Table 4 . Baggin g classifier의 성능측정 26

Table 5. Arc-x4 classifier의 성능측정 27

Table 6. Th ree-w ay AN OVA for classifier accu racy 27

Table 7. Th ree-w ay AN OVA for classifier sen sitiv ity 28

Table 8. Table 8. Resu lt of Du n can m u ltip le ran ge test for in ter action (B×A)

of sen sitivity 29

Table 9. Th ree-w ay AN OVA for classifier sp ecificity 30

- iii -

Page 8: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

국 문 요 약

Ensemble Algorithm을 이용한

간암진단의 분류분석

본 논문의 목적은 한국인의 간암발생에 관한 자료를 바탕으로 간암 조기검진

을 위한 최적의 분류모형을 제시함으로써 간암환자의 정확한 조기진단을 통해 치

료의 성공을 도모하고 생존율을 높이고자 하는 것이다.

예측모형으로 Logistic Regression , CART, N eu ral N etw ork를 사용하였으며 단

일 분류기 모형의 성능을 향상시키기 위해 다수의 분류기 결과를 결합하는 앙상

블 알고리즘을 적용하였다. 분석 대상은 1990년 1월부터 1999년 12월까지 10년 동

안 연세대학교 의과대학 부속 세브란스병원 소화기내과에 방문하여 간암 발생 위

험 군으로 판단되어 정기적으로 복부 초음파검사와 혈청 -FP검사를 포함한 검진

을 받아온 994명의 환자이다.

단일분류기, 앙상블 기법 그리고 분류기의 개수를 실험인자로 하고 분류정확도,

민감도, 그리고 특이도를 반응변수로 하는 삼원배치법 실험을 실시하였으며 분산

분석과 던칸(Du n can)검정을 이용하여 분석하였다.

분산분석의 결과 모든 반응변수 관점에서 각 인자의 주 효과는 모두 통계적으

로 유의하며 특히 민감도에 있어서는 분류자의 방법과 앙상블 기법간의 교호작용

이 있고 Logistic Regression을 기반으로 한 Baggin g이 가장 우수한 모형으로 분

석되었다. 또한 단일분류기 중 가장 좋은 모형이었던 Logistic Regression에 비해

분류정확도, 민감도 그리고 특이도 가 모두 증가하였다.

앙상블 기법의 분석 결과 특이도 및 분류정확도 관점에서는 Arc-x4, 그리고 민

감도 관점에서는 Baggin g이 우수한 것으로 나타났다.

핵심되는 말: Logistic regression , CART, N eu ral N etw ork, En sem ble, Baggin g,

Arc-x4, H ep atocellu lar Carcin om a

- iv -

Page 9: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Ensemble algorithm을 이용한

간암진단의 분류분석

연세대학교 대학원 의학전산통계협동과정

이 우 선

제 1장 서 론

효과적인 진단검사방법의 개발은 의학연구에 있어서 커다란 관심사로 꾸준히

연구되고 있다. 정확한 진단의 목적은 질병의 자연사에 기초한 질병의 기전을 연

구하여 개인에게 발생한 질병의 예후를 판단하고 보다 나은 치료책을 시도하는

데에 있으며, 나아가 인간집단에서 질병이 발생, 분포하는 요인을 구명해 내어 환

자를 조기발견하고 예방 및 관리대책을 세워 조직적으로 지역사회에 적용하는 데

에 있다.

한국인의 간암은 90%이상이 원발성 간암(p rim ary hep atic carcin om a)으로 진행

된 상태에는 효과적인 치료가 어려우나 조기치료 시에는 예후가 현저히 양호하다.

따라서 간암 고위험군(H igh risk grou p )에 대한 정확한 조기검진방법을 통해 간암

의 효과적인 치료와 생존율을 높일 수 있으므로 정확한 간암의 조기진단이 중요

하다.

백승운(2001)은 간암조기검진을 위한 권고안 의 내용 중 한국인의 간암을 위

한 선별검사의 필요성을 강조하면서 한국의 간암이 WH O가 정한 선별검사를 위

- 1 -

Page 10: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

한 조건을 대부분 만족하고 있음을 지목하였다. 그는 선별검사의 효용성을 높이기

위해서 선별검사의 대상 선정 및 간격과 비용-효과적인 검사 방법에 중점을 두어

야 함을 말하였다. 이에 본 연구에서는 한국인의 간암을 조기발견하기 위한 정확

한 진단검사방법을 모색하고자 한다.

간암의 세계적인 발생빈도는 Cancer Grou p In stitu te의 자료에 의하면 남부 아

시아와 아프리카에서는 전체 암 중 30%로 높은 편이며 미국·유럽 등 구미에서는

전체 암 중 약 2 %정도로 비교적 낮다. 한국의 경우 보건복지부와 국립암센타의

1999 한국중앙암등록사업 보고서 에 의하면 전체 암 질환 중 간암이 12.0%를 차

지하며 전체 암질병으로 인한 사망률 중 간암으로 인한 사망률은 18%이다.

한국의 통계청 자료의 사망률을 살펴보면 2000년도 인구 사망률은 10만 명당

520명이며 암에 의한 사망률이 가장 높다. 이 중 간암에 의한 사망률은 1990년도

10만 명당 24.1명을 차지하였으나 2000년도에는 21.3명으로 감소하였다. 사망률 순

위를 보면 1990년도에는 위암에 이어 2위였으나 2000년도에는 폐암, 위암에 이어

3위로 다소 낮아졌다. 최근 간암에 의한 사망률의 감소는 초음파 진단법의 도입

및 여러 가지 영상기술을 이용한 조기 진단이 가능하게 되었고, 수술을 포함한 다

양한 치료법이 개발되어 간암 질병에 대해 조기 진단을 통한 관리가 향상되었기

때문으로 추정된다.

지금까지 시행하여온 간암의 조기검진제는 대부분 간암 발생 위험군을 대상으

로 3-6개월 간격으로 복부초음파검사와 혈청 AFP검사의 시행을 권장하여 왔다.

이 방법은 비교적 환자의 부담이 적으며 간편한 선별검사로서의 장점을 갖고 있

다.

그러나, 복부 초음파 검사는 간내 공간점유성 병변(sp ace occu p yin g lesion , SOL

로 약함)을 확인하는 데 유용하고 간암 조기진단에 유용한 방법이지만 다른 양성

종양과 감별하기가 어렵고 검사자의 숙련도 등에 따라서 진단의 정확도에 차이가

있어 객관성에 문제가 있다. 또한 간암발생의 위험도가 높은 간경변증이 심한 환

자에서는 초음파투과상의 문제로 간암을 정확하게 확인하기가 어렵다. 따라서 조

기간암을 진단하기 위한 screen in g검사를 통하여 조기간암의 발견률이 상승된 것

은 사실이지만 검사를 정기적으로 받아 온 환자 중에서 발견당시 이미 진행된 상

- 2 -

Page 11: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

태인 경우가 적지 않다.

또한 한광협(2001) 등의 연구에 따르면 혈청 AFP검사는 진행성 간암환자의 약

60%정도에서 400n g/ m l이상으로 상승되나 간염이 활동성인 경우에도 위양성으로

나타날 수 있으며 효과적인 치료가 가능한 시기에 해당되는 소간암(장경 3cm 이

하)의 경우에는 그 예민도가 더욱 낮아 30%미만에서만 400n g/ m l이상으로 상승되

어 혈청검사 단독에 의한 조기간암의 진단에 의의가 적으며 초음파검사와 함께

실시하여 보완적 역할을 하는 정도로 볼 수 있다.

이처럼 간암을 조기 진단하기 위하여 실제로 여러 가지 검사법이 함께 고려되

고 있으며 진단이 확정된 경우 사망률이 극히 높은 암 질병의 특성상 조기진단의

효과가 크므로 정확도가 높은 진단예측모형을 지향해야 할 필요가 있다. 이를 위

하여 기존의 간암진단과 예측모형을 위한 몇 가지 연구들이 시도되었다.

한국인의 간암진단예측을 위해 연세대학교 의과대학 내과학교실, 의학통계학

과, 예방의학교실에서 실시한 연구에서는 1990년 1월부터 1998년 12월까지 연세대

학교 의과대학 부속 세브란스병원에 방문한 환자 중 간암발생 위험군으로 판단되

어 정기적으로 복부 초음파검사를 포함한 검진을 받아온 2020명을 조사 대상으로

한 분석 결과 간암발생에 영향을 미쳤던 위험요인들로 간경화, 만성간염, B형 또

는 C형 간염, 연령 40세 이상, 상습적인 음주, 혈청 AFP 20 IU/ m l이상, ALT 수

치정상범위 이상 상승, 복부초음파 검사상 간실질 에코유형의 고도 이상 등을 관

찰하였다. 또한 위험요인들의 상대적인 위험도를 고려한 위험지수(Risk In dex)를

로지스틱 회귀분석 방법에 의하여 산출해 내었다. 역시 같은 자료에 대하여 고희

중(2000)은 진단 검사 방법의 효과를 판단하기 위해 RO C 곡선과 AUC의 비모수

적 접근을 통한 비교를 해 보고, 동일한 자료에 데이터마이닝을 이용한 회귀분석

모형(regression m odel)을 적용시켜 최대우도방법(m axim u m likelih ood m eth od)을

통한 ROC 곡선과 데이터 마이닝을 통한 RO C 곡선을 비교해 봄으로써 간암진단

모형의 효율성을 평가하였다.

그러나 간암의 조기진단을 위해서 선행된 연구를 통해 간암에 유의한 영향을

주는 것으로 알려진 위험인자들을 이용하여 로지스틱 회귀분석을 적용한 결과 결

측치가 없는 총 994명의 자료중 398명의 검증용 자료에서의 분류성능은 민감도가

- 3 -

Page 12: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

55.56(%), 특이도가 72.10(%) 그리고 정확도가 70.60(%)이었다. 따라서 간암선별검

사의 효용성을 높이기 위해 보다 정확한 조기검진방법을 모색할 필요가 있다.

본 연구의 목표는 한국인에게 있어서 높은 유병률을 보이고 있는 원발성 간암

의 비용-효과적인 진단방법으로 보다 정확한 분류예측모형을 찾는 것이다. 이를

위해 다음의 두 가지 방법을 시도하였다.

첫째, 기존연구가 간암발생의 위험요인들을 고려한 단일 로지스틱 분류모형을

사용했던 것 이외에 분류성능이 탁월한 의사결정나무모형(Decision Tree) 또는 복

잡한 자료를 유연한 모형으로 적용할 수 있는 신경망(N eu ral N etw ork)등 의 분류

방법을 적용해 보았다.

둘째, 분류모형의 정확도와 신뢰도를 향상시키기 위해 학습용 자료로부터

Bootstrap Resam p lin g을 통해 대표성 있는 표본을 여러 개 추출하고 각 표본을

사용하여 로지스틱 회귀분석, 의사결정나무 그리고 신경망을 이용한 분류 예측을

분류기의 종류별로 실시하여 그 결과를 동시에 이용하는 En sem ble 알고리즘을 적

용해 보았다.

본 논문의 구성은 다음과 같다. 제2장에서는 앙상블 알고리즘을 이용한 문헌고

찰을 하였고 제3장에서는 사용되어진 분류모형을 설명하였으며 제4장에서는 연구

의 대상인 한국인의 간암자료의 소개와 분류모형을 적용한 결과가 제시되었다. 제

5장에서는 연구결과를 통한 고찰 및 연구의 보안점을 기술하였고 제6장에서는 결

론의 내용을 담았다.

- 4 -

Page 13: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

제 2장 En sem b le A lg orith m

En sem ble 알고리즘은 하나의 분류기도 학습자료의 성격에 따라 결과가 다르게

나올 수 있다는 점을 감안하여 여러 개의 Bootstr ap Ream p le에 같은 분류기를 사

용하여 얻어진 분류기의 결과들을 하나의 결과로 모아 주는 것이다.

En sem ble 알고리즘은 Breim an (1996)등이 Baggin g(Bootstr ap AGGregatIN g)기법

을 제시하였고, 이를 이어 Freu n d와 Sch ap ire (1996)가 Ad aboost 기법을 제안하였

고, 그 후 Breim an (1998)에 의해 Arcin g(A d ap tive Resam p lein g an d Com bin in g)기

법 등이 개발되었다. Arcin g은 분류문제에서 독보적으로 다루어진 기법으로 변형

된 형태로 A d aboost1.M1, Ad aboost .M2, Arc-x4 등이 있다. 이 장에서는 보편적으

로 알려진 En sem ble 알고리즘인 Baggin g과 Arcin g에 대해 살펴보고자 한다.

먼저 Baggin g은 학습자료로부터 표본추출을 위한 분포의 가정이 없이 동일한

방법으로 추출된 여러 개의 Bootstr ap Resam p le을 통하여 분류기를 생성하고 그

결과를 Votin g m eth od를 통해 최종적인 하나의 분류결과를 얻어내는 방법으로 분

산을 줄여 분류 예측률을 높여주는 방법이다.

이와 달리 Arcin g의 방법은 학습자료로부터 Bootstrap Resam p le을 추출한 뒤

이를 이용한 분류기를 생성하고, 그 결과를 다음 번 Bootstrap Resam p le을 추출하

는 데 적용하는 방법으로 이 과정을 계획한 횟수만큼 반복적으로 실행한다. 그 다

음 연속적인 학습과정을 거쳐 각 단계에서 생성된 분류기를 Votin g m eth od를 통

해 최종적인 하나의 분류결과를 얻어낸다. Arcin g의 방법은 학습된 분류기의 결과

를 이용하여 분류기의 취약한 부분에 가중치를 적용하여 반복적으로 학습함으로

써 궁극적으로 분산과 편이를 줄여주는 방법이다.

일반적으로 En sem ble 기법은 데이터 안에 존재하는 변동(Variation )을 반영하여

분류결과들을 안정시키는 것으로 알려져 있다. 앙상블에 대해 선행되어진 연구들

은 다음과 같다.

Qu inlan (1996)은 예측력을 개선하기 위해 10개의 의사결정나무인 C4.5를 사용하

- 5 -

Page 14: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

여 Baggin g, Arcin g을 실시하였다. 27개의 데이터집합을 이용하여 C4.5, Baggin g,

Boostin g의 오분류율을 비교한 결과 Boostin g이 우수함을 보였다.

Sch ap ire & Sin ger의 연구에서는 문서분류연구에서 Arcin g방법을 이용하여 단어

와 구의 부재 혹은 존재 시에 검증을 위해 w eak learn er를 사용하였다. 문서분류

에 사용된 분류모형은 A d aboost와 다른 4가지 N aive Bayes, p robablistic TF-IDF,

Rocchio, sleep in g exp erts 이었다. 이 비교연구에서 다른 방법들에 비해 A d aboost

방법이 더 우수함을 보였다. 또 다른 Freu n d & Sch ap ire (1996)는 A d aboost .M1과

Ad aboost .M2를 소개하였으며 27개의 데이터집합에 3개의 단일분류기

(Fin d AttrTest, Fin d DecRu le, C4.5)를 이용하여 Baggin g과 성능을 비교분석하였다.

그 결과 Ad aboost .M 1보다 Ad aboost .M2가 우수하였으며 Boostin g이 분류정확도

관점에서 Baggin g에 비해 우수한 것으로 나타났다.

Op tiz et al.(1997)은 14개의 서로 다른 데이터 집합에 신경망, 의사결정나무, 데

이터를 모두 사용하여 학습시킨 단순 앙상블, 그리고 데이터를 재 추출하여 학습

시킨 Baggin g(10개의 신경망 및 의사결정나무), Arcin g(10개의 신경망 및 의사결정

나무)를 비교하였다. 오분류율을 비교한 결과 대부분의 경우 Baggin g, Arcin g 기

법의 오분류율이 다른 기법보다 낮음을 보였다.

Eric Bau er & Ron Koh avi(1999)는 Baggin g, Boostin g, Arc-x4 등의 알고리즘을

비교하였으며, Freu n d & Sch ap ire는 UCI ben chm ark자료를 위해 C4.5를 학습모형

으로 이용하여 실험하였다. 27개의 모형성능평가의 문제에 대해서 C4.5와

Boostin g stu m p , Boostin g C4.5의 성능을 비교하였다. 그 결과 단일 C4.5의 오분

류에 비해 Boostin g stu m p의 오분류률이 적었으며, Boostin g stu m p 보다는

Boostin g C4.5 오분류률이 적어진 것으로 나타났다. 또 다른 연구에서 Eric Bau er

& Ron Koh avi(2000)는 25개의 의사결정나무를 사용하여 USI rep ository에 있는

14개의 실제자료에 Baggin g, Boostin g, N aive-Bayes알고리즘을 적용하였다. 오분류

률을 분산과 편이로 분해하여 앙상블 알고리즘을 비교한 결과 Baggin g의 경우 분

산을 줄였으며, Boostin g은 분산과 편이를 모두 줄여주는 것으로 나타났다. 그러나

N aive-Bayes를 분산을 증가시켰다.

Dietterich (2000)는 C4.5의 성능을 개선하기 위해 Ran d om ization , Baggin g과

- 6 -

Page 15: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Boostin g의 효과를 비교하였다. 33개의 실제 데이터집합에 Baggin g과

Ran d om ization을 위해서 200개의 의사결정나무를 사용하였으며, Boostin g을 위해

서는 100개의 의사결정나무를 사용하였다. 그 결과 실제자료에서 분류잡음이 없거

나 거의 존재하지 않는 경우 Boostin g이 Ran d om ization이나 Baggin g보다 더 우수

한 결과를 보였다. 분류잡음이 있는 경우에는 Baggin g이 Boostin g과

Ran d om ization보다 더 우수하였다.

또한 Breim an의 연구에서는 Baggin g이나 Boostin g은 그들의 효과가 개별 분류

기의 불안전성에 관련되어져 있음을 지적하였으며 그의 연구에서는

Ran d om ization , Baggin g, Boostin g에 있어서 C4.5의 수행성능을 증진시키는데 있

어서의 효과를 비교해 보았다. 결과적으로 분류잡음이 없거나 적은 자료의 경우에

는 Ran d om ization이 Baggin g에 비해 조금 좋으나 Boostin g보다는 정확도가 좋지

않고, 많은 자료의 분류에 있어서 분류잡음이 존재하는 경우에는 Baggin g이

Boostin g에 비해 좋으며 때로는 Ran d om ization이 좋다는 결론을 얻었다.

Webb (2000)는 Boostin g, Ad aboost, W aggin g, Ad aboost와 Waggin g을 합성한

Mu ltiboostin g의 성능을 비교하였다. 앙상블 알고리즘을 비교하기 위해 10개, 100

개의 의사결정나무를 36개의 실제 자료에 적용하였다. 일반적으로 Mu ltiboostin g

이 다른 기법들 보다 우수한 결과를 보였다. 분류기 10개, 100개를 모두 고려하였

을 때, Ad aboost가 편이 관점에서 우수하였으며 분산의 관점에서는 분류기가 10

개일 때는 Baggin g이 우수하였고, 분류기가 100개 일 때는 Mu ltiboostin g이 우수

함을 보였다.

기존 연구들을 통한 En sem ble 알고리즘을 적용한 분류분석의 기대효과는 분류

문제에 있어서의 안정성과 정확성의 향상으로 분류분석결과의 분산과 편이를 줄

여주는 것이다. 따라서 간암자료 연구에 En sem ble 알고리즘을 적용함으로써 간암

진단분류모형의 정확도를 높여줄 수 있을 것으로 기대되어 졌다.

그밖에 분류문제에 있어서 En sem ble 기법과 같이 여러 개의 분류기를 사용하

는 방법은 데이터 융합(d ata fu sion)기법과 클러스터링(clu sterin g)기법 등이 있다.

본 연구에서는 En sem ble 기법을 이용한 분류예측모형을 적용해 보려 한다.

- 7 -

Page 16: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

제 3장 분류모형

3.1. 개별모형

위한 기존연구에서 간암조기진단모형으로 간암발생의 위험요인들을 고려한 단

일 로지스틱 분류모형을 사용했던 것 이외에 분류성능이 탁월한 의사결정나무모

형(Decision Tree) 또는 복잡한 자료를 유연한 모형으로 적용할 수 있는 신경망

(N eu ral N etw ork)등 의 분류방법을 적용해 보았다. 이 장에서는 각 모형에 대해

살펴보았다.

3.1.1. Logistic Regression

로지스틱 회귀분석은 대수선형모형의 일종으로 이분형 반응모형이나 순서형 반

응모형에서 이산형 또는 연속형의 설명변수와의 관계를 밝히기 위해 사용되어지

며 로짓(logit) 회귀모형이라고도 불리운다.

이분형 반응모형(bin ary resp on se m odel)에서 반응 Y는 성공 또는 실패 로 표

현되는 2개의 가능한 값 중 하나를 갖게 되며 X는 입력변수의 양적 벡터이다.

( x )를 X = x 일 때의 성공확율 이라고 하면, (x )는 이항분포의 모수가 되며

로지스틱회귀모형은 ( x )의 로짓에 대해 선형식

logit ( (x ) ) ≡ log ( (x )1 - ( x ) )= + 'x

: in tercep t p aram eter : vector of slop e p aram eter

으로 정의된다. 이는 성공확률을 나타내는 식

(x ) = ex p ( + x )1 + ex p ( + x )

으로 나타낼 수 있다.

이분형이나 순서형 반응자료에 대한 선형 로지스틱 모형은 최대우도(Maxim u m

likelih ood)방법으로 구할 수 있다. 최대우도추정은 Fisher-scorin g algorithm 또는

- 8 -

Page 17: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

N ew ton-Rap h son algorith m이 사용되며, 본 연구에서는 Fisher-scorin g algorithm

이 사용되었다.

로지스틱 모형은, 목표변수가 이분형일 때 선형회귀모형의 단점을 극복하기 위

해 확률에 대한 로짓변환 (Logit Tran sform ation )을 고려하여 단순한 형태의 선형

적 모형을 제시해 주며, 독릭변수가 사건 발생에 미치는 영향을 측정해 주고, 반

응변수의 사건이 발생할 확률을 제시해 주어 명확한 해석이 용이하다.

로지스틱의 적용분야는 마케팅, 신용평가, 의학자료연구, 위험도측정 등 많은 분

야에서 사용되어진다.

3.1.2. D ecision Tree

의사결정나무모형은 Sonqu ist와 Morgan (1964)이 효시가 되었으며, M organ d과

Messen ger (1973)의 TH AID라는 알고리즘이 소개된 이후 대중화되었다. 그 뒤

Kass(1980)의 CH AID 모형이 소개되어 카이제곱검정에 근거한 의사결정나무가 현

재까지 널리 사용되고 있다. Qu inlan (1982,1993)의 ID3과 C4.5는 인공지능(ar tificial

in telligence)과 패턴인식(p attern recognition), 기계학습(Machin e learnin g

algorithm )분야에서 활발히 연구되고 있으며 대표적인 의사결정나무모형으로

Breim an, Friedm an, Olshen과 Ston e(1984)에 의한 CART가 있다.

의사결정나무는 뿌리마디(root), 자식마디(ch ild n ode), 부모마디(p aren t n ode),

끝마디(term in al n od e), 중간마디(in tern al n ode), 가지 등으로 구성되어 있다. 의사

결정나무의 수행과정은 일반적으로 의사결정나무의 형성, 가지치기, 타당성 평가,

해석 및 예측의 단계로 나누어진다. 이중 의사결정나무의 형성단계에서 분석의 목

적과 자료구조에 따라서 적절한 분리기준과 정지규칙을 이용하는데 분리기준

(sp littin g criter ion)은 하나의 부모마디로부터 자식마디들이 형성될 때 예측변수의

선택과 범주의 병합이 이루어질 기준을 의미한다. 즉, 목표변수의 분포를 가장 잘

분류해 줄 수 있는 기준을 파악하여 자식마디를 형성하게 되는데 목표변수의 분

포를 구별하는 정도는 순수도(p u rity)나 다른 분리기준에 의해 측정된다. 본 연구

에서는 CART 모형에 사용되는 분류기준으로 지니계수(Gin i In dex)를 사용하였다.

- 9 -

Page 18: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

지니계수에 대해 살펴보면 우선, 각 마디에 속하는 개체를 그 마디에서 도수가

가장 많은 목표변수의 한 범주에만 모두 할당하는 분류규칙을 가정한다. 이때 p (j)

를 각 마디에서 한 개체가 목표변수의 i번째 범주에 속할 확률이라 하면, 임의의

한 개체가 목표변수의 j번째 범주로부터 추출되었고 그 개체를 i번째 범주에 속하

는 것으로 오분류 할 확률은 p (j)p (i)가 된다. 이러한 오분류 확율을 모두 더하여

와 같은 분류규칙 하에 오분류될 확율의 추정치 C =J

j = 1 j = ip ( j )p ( i)를 얻을 수

있다. 여기서 J는 목표변수의 범주의 수이다. 지니계수는 마디의 불순도(im p u rity)

를 나타내는 측도로서 다음과 같이 표현된다.

C( p 1 , p 2 , … , p J) = 1 -J

j = 1p 2

j = 1 -J

j = 1(n j

n )2

여기서 n은 그 마디에 속한 관찰치 수이고, n j 는 목표변수의 J번째 범주에 속하

는 관찰치수이며, p 1 , p 2 , … , p J는 각 목표집단의 상대빈도이다.

지니계수는 n개의 원소 중에서 임의로 2개를 추출하였을 때 두 원소가 서로 다

른 그룹에 속해있을 확율을 의미한다. CART는 지니계수를 가장 감소시켜주는 예

측변수와 그 변수의 최적분리를 자식마디로 선택한다. 목표변수가 2개인 경우 지

니계수는

C = 2p ( j )p ( i) = 2(n 1

n )(n 2

n )로 표현된다. 지니계수의 감소량은

C = C -n L

nC L -

n R

nC R

이다. 여기서 n은 부모마디의 관측치 수이며, n R 과 n L 은 각각 자식마디의 관

측치수 이다. 즉, 자식마디로 분리되었을 때의 불순도가 가장 작도록 자식마디를

형성하는 것이며 이는 자식마디에서의 불순도의 가중합을 최소화하는 것과 같다.

본 연구에서는 사전연구를 통해 CART모형이 적합한 것으로 판단되어 CART

모형을 이용하였으며 분리기준으로는 지니계수를 사용하였다. 분류시에는 이지분

리(bin ary sp lit)의 과정이 최대 분류깊이(dep th )를 6개로 하여 이루어 졌으며 가지

- 10 -

Page 19: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

치기(Pru nin g)의 과정은 없었다.

의사결정나무모형의 적용분야는 의학분야와 고객의 의사결정패턴을 분석해야

하는 상품개발, 마케팅부서, 문자지문인식 등을 연구하는 기계학습 이론분야에서

사용되어지고 있다.

3.1.3. N eural N etw ork

신경망의 특징은 모형의 구조층에 은닉마디(h id den u nits)라 불리는 구성요소를

갖고 있다는 것이며, 이 은닉마디는 인간의 신경세포를 모형화 한 것으로, 각 은

닉마디는 입력변수들의 결합(com bin ation)을 수신하여 변수의 선형결합을 비선형

함수로 처리하여 목표변수에 전달해 주는 역할을 한다. 결합에 사용되는 계수

(coefficient)들은 연결강도(syn ap tic w eights)라하고, 활성함수는 입력된 값을 변환

하여 그 출력을 다른 마디의 입력으로 사용한다.

다양한 신경망 중에, 자주 사용되는 모형은 MLP (Mu ltilayer Percep tron) 신경망

이다. MLP는 입력층(inp u t layer)과 은닉마디로 구성된 은닉층(h id d en layer), 그

리고 출력층(ou tp u t layer)으로 구성된 전방향(feed -forw ard)신경망이다. 이들의 의

미는 다음과 같다.

우선 입력층은 각 입력변수에 대응되는 마디들로 구성되어 있다. 명목형

(n om in al) 변수에 대해서는 각 수준에 대응하는 입력마디를 가지게 되는데, 이는

통계적 선형모형에서 가변수(d u m m y variable)를 사용하는 것과 같다.

은닉층은 여러 개의 은닉마디로 구성되어 있고 각 은닉마디는 입력층으로 부터

전달되는 변수값들의 선형결합(linear com bin ation )을 비선형함수(n on linear

fu nction )로 처리하여 출력층 또는 다른 은닉층에 전달한다.

출력층은 목표변수(target)에 대응하는 마디들을 갖는다. 여러 개의 목표변수 또

는 세 개 이상의 수준을 가지는 명목형 목표변수가 있을 경우에는 여러 개의 출

력마디들이 존재하게 된다. 다음은 은닉층과 결합함수의 예 이다.

H 1 = f 1 ( b 1 + w 11X 1 + w 21X 2 + + w p1X p )

H 2 = f 2 ( b2 + w 12 X 1 + w 22X 2 + + w p2X p )

- 11 -

Page 20: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Y = g ( b0 + w 10 H 1 + w 20H 2 )

결합함수(com bin ation fu n ction)는 입력층 또는 은닉층의 마디들을 결합하는 형

태를 의미한다. 위의 각 은닉마디 H 1 과 H 2 는 입력변수들을 선형결합

( bj + w 1j X 1 + w 2jX 2 + + w pjX p)하여 이를 변환한다.

대부분의 신경망에서는 결합함수로 선형함수(linear fu nction )를 사용하지만, RB

F 신경망은 원형기준함수(rad ial basis fu n ction)를 결합함수로 사용하며 다른 결합

함수를 사용하기도 한다.

활성함수(activ ation fu n ction)는 입력변수 또는 은닉마디의 결합을 변환하는 함

수를 의미한다. 활성함수와 함께 출력활성함수가 사용되며 보통 활성함수와 출력

활성함수는 동일한 함수를 사용하는 것이 일반적이다. 활성함수는 통계적 선형모

형에서 연결함수(link fu n ction)의 역함수와 유사한 의미를 가지며, 가장 보편적으

로 사용되는 활성함수는 로지스틱(logistic) 함수와 쌍곡탄젠트(hyp erbolic tan gent)

함수이다.

Logistic fu nction : f ( x ) = 11 + e - x

H yp erbolic tan gent fu n ction : f (x ) = e x - e - x

e x + e - x

MLP의 장점은 이론적으로 적절한 활성함수와 적당한 수의 은닉마디를 가지는

MLP의 경우에는 모든 비선형 곡선이나 표면을 매우 정확하게 근사 시킬 수 있다

는 점이다. 따라서 MLP는 범용근사자(u niver sal ap p roxim ator)라고 불리기도 한

다. 특히 많은 변수의 자료를 분석할 때 다차항(p olyn om ial term )이나 또는 복잡

한 비선형적 관계를 설정하여 모형을 적합하는 것이 실질적으로 불가능한 경우

적절한 은닉마디와 활성함수를 설정해 주기만 하면 유연하게 모형을 자료에 적합

할 수 있다.

다음은 모형에 사용되어진 활성함수와 은닉층을 이용한 결합모형을 나타낸다.

H i = 11 + e

- ( b i + w i X ) , i = 1, 2 , 3 .

- 12 -

Page 21: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Y = b0 + w 01H 1 + w 02H 2 + w 03H 3

적절한 수의 은닉층과 은닉마디의 수가 결정된 후 데이터로부터 연결강도라고

불리는 계수(coefficient)들을 학습(train )을 통해 추정한다. 이는 오차함수(error

fu nction )라고 불리는 목적함수(object fu n ction)를 최소로 하는 추정을 통해 신경

망에 대해서 주어진 데이터를 가장 잘 반영하는 계수값을 찾아내는 작업이다. 일

반적으로 주로 사용되는 목적함수는 다음과 같은 오차제곱에 해당되는 함수이다.

n

i = 1( Y i - P i ) 2 =

m

i = 1( Y i - b0 - w 0 1H 1i - w 02H 2 i - w 03H 3 i ) 2

Y i : i 번째 개체의 실제 관측값 P i : i 번째 개체의 예측값

신경망에서 실제로 목적함수를 최적화하는 계수값을 찾기는 매우 어려우며 신

경망과 같은 비선형모형에는 이에 대한 분석적인 해가 존재하지 않기 때문에 일

반적으로 수치해석적인 반복적 최적화방법을 사용한다. 이 방법은 각 계수에 대해

서 임의로 부여한 초기값(seed)으로 부터 좀더 나은 계수값을 찾아 이전의 값을

변형시키는 작업을 반복적으로 수행하며 이 과정은 이전의 값과 새로운 값의 차

이가 거의 없을 때까지 수행된다.

역전파(backp rop agation)는 신경망의 계수추정을 위해 개발된 기울기 하강

(grad ient descen t) 알고리즘 중의 하나이며 이것은 비교적 간단한 계산과정을 사

용하지만 종종 매우 비효율적인 경우도 있다. 본 연구에서는 표준 역전파

(Stan d ard Backp rop agation)가 사용되어졌으며 이 방법에서는 관측값과 예측값의

차의 제곱이 오차로 사용되어진다. 이를 위한 수치해석 분야에서는 비선형 목적함

수를 최적화하기 위해 Levenberg-Marqu ardt, qu asi-N ew ton, conju gate-grad ient와

같은 다양한 알고리즘들이 사용되어진다.

신경망의 추정에 있어서 비수렴성 문제는 비선형함수를 최적화할 때 매우 보편

적으로 발생하는 문제이다. 만약 초기값이 국부최소값(local m in im u m )에 가깝다면

추정치는 전체 최소값(global m in im u m )이 아닌 국부최소값에서 수렴할 것이며,

국부최소값에서의 모수 추정치는 실제 데이터를 정확하게 추정하지 못할 가능성

- 13 -

Page 22: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

이 크다.

신경망은 다양한 모형을 포함하는 매우 유연한 모형이다. 그러나 데이터로부터

계수를 추정해야 하기 때문에 실제로 MLP는 이론과 같이 유연하지 못하다. 또한

주어진 함수를 근사화 하기 위해 매우 많은 수의 은닉마디가 필요할 수도 있다.

은닉층과 은닉마디가 증가하면 신경망은 더욱 복잡해지며, 추정해야할 계수의 수

는 더욱 급격하게 증가하여 최적화가 훨씬 어려워진다.

N eu ral N etw ork의 적용분야는 데이터베이스 마케팅, 사기적발, 광학문자인식,

판매예측, 재고관리, 주식포트폴리오관리, 프로세스관리, 주식평가, 의료진단, 컴퓨

터바이러스 색출, 음성인식, 시장가격 추측 등 다양하다. 그러나 신경망의 가장 큰

단점은 매우 유연하기는 하지만 은닉층과 은닉마디의 수에 따라 급격히 많은 계

수들이 생성되므로 결과를 해석하기 어렵다는 점이다.

본 연구에서는 신경망 모형으로 세 개의 은닉층을 사용하였으며 로지스틱 활성

함수를 이용한 MLP 모형을 사용하였다. 신경망의 계수추정을 위해서 개발된 기울

기 하강 알고리즘은 표준 역전파가 사용되었다

3.2. 앙상블 모형

본 절에서는 간암조기검진모형의 분류(classify)와 예측(p redict)의 정확도를 높

이기 위해 하나의 데이터로부터 Bootstr ap Resam p lin g방법에 의해 여러 번 추출

된 자료를 바탕으로 추정된 분류결과를 결합하는 En sem ble 기법에 대해 살펴보고

자 한다. 본 연구에서는 En sem ble 기법으로 Baggin g과 Arcin g의 변형인 Arc-x4가

사용되었다.

3.2.1. 앙상 블 모 형을 위한 용어 정리

En sem ble을 위한 용어를 정의하면, 우선 실제 자료 <x, y >는 x X , y Y 이

며, x가 n개의 설명변수로 구성된 변수벡터이고 y가 x에 의한 분류일 때 y의 범주

화된 공간에서의 확률분포를 D라고 가정한다. 그리고 표본

- 14 -

Page 23: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

S = { <x 1 , y 1 >, <x 2 , y 2 >, . . . , <x m , y m >}는 범주화된 공간상의 집합이다. 또한 표

본에서의 실제 자료는 상호 독립적인 분포임을 가정한다.

분류기(h yp othesis)는 x에서 y로의 함수(m ap p in g x y )로 분류모형 자체이며,

본 연구에서 사용되는 분류기는 Logistic Regression , CART, N eu ral N etw ork이다.

3.2.2. Bagging Algorithm (simple uniform w eighting)

Baggin g (Bootstr ap Aggregatin g)은 Breim an (1996)에 의해 처음 소개된 알고리

즘으로 여러 개의 Bootstrap sam p le로부터 얻어진 분류기의 결과를 결합하여 하나

의 분류기를 얻어내는 기법이다.

Baggin g 에서는 원래 자료에서 m 개의 관찰치를 갖는 학습자료 T 와 검증용

자료 T est를 설정한 뒤, T 로부터 Bootstrap Resam p le로 m 개의 관찰치의 복원추

출을 K 개만큼 실행한다. 이때 추출된 Bootstrap Resam p le은

T ( 1) , T ( 2) , . . . , T ( K )이며 이에 의해 각각의 분류기 C k가 학습되어지고 이에 의

해 C 1 , C 2 , . . . , C K 가 생성이 된다. 결국 각각의 C k의 결과를 수집하여

En sem ble하는 방법에 의해 최종 분류기인 C *가 생성된다.

간암분류분석을 위한 Baggin g의 알고리즘은 다음과 같다.

- 15 -

Page 24: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

1. 간암자료중 m개의 관측치로 포함된 T와 동일한 크기를 갖는

Bootstr ap Resam p le을 T ( 1) , T ( 2) , . . . . , T ( k ) 로 K 개를 만들어 이를 이

용하여 동일한 분류기를 적용하여 K 개 만큼 각각 학습시켜

C 1 , C 2 , . . . . , C K 를 생성한다.

2. 입력 x와 출력 y로 구성된 Bootstrap sam p le T ( k )에 대한 분류기 C k

의 가능한 예측 범주를 간암, 정상이라 한다. 가능한 분류 예측 값으로

간암과 정상에 각각 1과 -1을 각각 할당한다.

3. 이러한 분류를 K 개의 분류기 만큼 반복하여 식 과 같이 Unw eigh ted

Votin g을 실시한다.

C bag = arg m axc

vote ( c)

Figu re 1. Baggin g Algorithm

각각의 Bootstr ap Resam p le은 원래 자료인 T 로 부터 m 개의 관찰치로 구성된

표본을 추출할 때 적어도 한 개의 관찰치가 추출될 확률은 1 - ( 1 - 1m

) m 이 된

다. 따라서 m 이 커질 경우 추출확율은 1 - 1e

= 63% 가 되며 이는 실제적으로

Bootstrap을 통해 생성된 표본중 원 자료의 63 %만이 유일한 관측치로 구성됨을

뜻하고 나머지 37%에 있어서는 동일한 관찰치가 한번 이상 추출될 수 있음을 말

한다.

Baggin g의 수행결과는 분류기가 불안정한 경우에는 N eu ral N etw ork, CART와

같이 각 분류기들이 적합하거나 서로 독립이라면 효과적일 수 있지만 k-N earest

N eighbor방법과 같이 분류기가 안정된 경우에는 비효과적이다(Breim an 1996b).

간암분류분석을 위한 Baggin g의 알고리즘의 수행과정의 도식화는 다음과 같다.

- 16 -

Page 25: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Training Data (start)Training Data (start)Training Data (start)

Unweighted VotingUnweightedUnweighted VotingVoting

Classifier 1Classifier 1Classifier 1

Bootstrap

Resample 1

BootstrapBootstrap

Resample 1Resample 1

Cbag 1CbagCbag 11 Cbag kCbagCbag kk Cbag KCbagCbag KK

…… ……Test

Data

Test Test

DataDataTest

Data

Test Test

DataDataTest

Data

Test Test

DataData

Probability = 1/nProbability = 1/nProbability = 1/n

C test (End)CC test test (End)(End)

Bootstrap

Resample k

BootstrapBootstrap

Resample kResample kBootstrap

Resample K

BootstrapBootstrap

Resample KResample K

Classifier kClassifier kClassifier kClassifier KClassifier KClassifier K

Page 26: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

과의 분포를 따라 표본추출확율을 변화시키면서 Bootstrap resam p le을 수행할 경

우 결국 Baggin g의 수행능력보다 더 나은 결과를 얻을 수 있다는 것이다.

그러나 동시에 그는 Arc-fs의 성능의 우수성이 특별한 수식에 의한 것이 아니

며, 표본을 순차적으로 재추출 할 때 오분류가 자주 일어나는 관찰치에 가중치가

증가하도록 하여 분포에 따라 표본을 재추출하는 성질에 의해 분류성능이 향상되

는 것으로 주장하였다. 이를 확인하기 위해 그는 1 + m ( n ) h , h = 1, 2 , 4 형태의 3

가지의 새로운 확율가중치의 성능에 대해 검정하였으며 그중 h = 4일 때의 수행

성능이 가장 좋은 것을 확인하였다. 다음은 그가 제안한 Arc-x4의 확률가중치이다.

W( n ) k = 1 + m ( n ) 4

( 1 + m ( n ) 4 )

m (n)은 n번째 관찰치의 첫 번째 분류기 C 1으로부터 k단계 전까지 분류기

C k - 1에 의해 오분류된 개체의 수이다. Arc-x4는 C 1 , C 2 , . . . . , C K 의 k번째의 분

류기를 얻을 때 Ad aboost와는 다르게 단순한 형태의(sim p le sch em e) 가중치를 적

용한다. 가중치의 형태는 전 단계의 분류기의 오분류 된 수에 비례한다.

A d aboost와는 다르게 Arcin g의 최종 분류기인 C *는 가장 많은 분류기의 결과

를 votin g 하는 방법에 의해 결정되어지며 각 분류기들의 결과는 동등하게 선발된

다. 다음은 간암의 분류를 위한 Arc-x4에 대한 알고리즘이다.

- 18 -

Page 27: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Training Data (start)Training Data (start)Training Data (start)

Unweighted VotingUnweightedUnweighted VotingVoting

Classifier

(1 to k)

ClassifierClassifier

(1 to k)(1 to k)

C test 1CC test test 11

Update ProbabilityUpdate ProbabilityUpdate Probability Bootstrap sample

(1 to k)

Bootstrap sampleBootstrap sample

(1 to k)(1 to k)

CT r a i n

(1 to k)

CCT r a i n T r a i n

(1 to k) (1 to k)

Ctest 2CCtest test 22 Ctest k

CC test test kk

Error CountError CountError Count

LoopLoop

11stst to to KK t ht h

Test DataTest DataTest Data

C test (End)CC test test (End)(End)

Probability = 1/nProbability = 1/nProbability = 1/n

……

Page 28: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

3.3 학 습자 료의 크기 및 Bootstrap 샘 플링 의 개 수의 선택

En sem ble 알고리즘을 적용한 결과로 추정된 오분류율은 신뢰할 수 있는 결과를

얻기 위해서 작은 신뢰구간을 가져야 하며 이를 위해 검증용 자료의 크기가 커야

한다. 주어진 학습자료의 크기는 추정 오차가 커지는 시점에서 선택되어야 하는데

이는 En sem ble 알고리즘이 학습 자료에 따라 각 분류기가 다른 결과를 낼 수 있

다는 데에 그 원리를 두기 때문이다. 특히 학습자료의 크기가 충분히 크다면, 도

출된 분류기는 Bayes-op tim al 알고리즘 만큼 잘 수행된다. 이를테면, 일반적으로

학습자료의 2/ 3이상이 0%의 오차를 보이며 학습자료에만 과적합 되는 경향이 있

다. 과적합의 문제를 해결하기 위해서 적당히 적은 수의 관찰치를 포함하는 학습

자료를 사용해야 한다.

Bootstr ap Resam p le의 수를 결정하는데 있어서는 추정된 오차율을 적은 방향으

로, 정확도를 높이는 방향으로 Bootstrap Resam p le의 수를 정해야 한다. 그러나

가능한 적은 수의 분류기들을 결합해야 한다. 퀸란의 경우는 10개, 브레이만의 경

우는 50개, Freu n d & Sch ap ire는 100개의 Bootstr ap Resam p le을 사용했다.

본 연구에서는 전체 994명의 자료 중에 60%인 596명의 자료를 학습용 자료로

사용하였고 나머지 40%인 398명의 자료를 검증용 자료로 사용하였다. 또한 분류

기의 개수는 5개, 50개, 150개, 300개로 제한하여 사용하였다.

3.4 . 진단검사의 평가

연구에 사용되어진 검사방법의 평가는 다음과 같은 관점에서 고려되어져야 하

는데, 임상역학에서 질병진단을 측정 할 때에 요구되는 사항은 측정의 타당도

(valid ity), 정확도(accu racy), 정밀도(p recision ) 및 신빙도(reliability) 또는 재현도

(rep rodu cibility)가 있다.

진단검사의 타당성과 신뢰성은 질병자와 건강자를 명확하게 구분해 내는지를

나타내며 이는 민감도(sen sitiv ity)와 특이도(sp ecificity)에 의해 정해지고 이 두 가

지가 모두 높을 때 진단검사법의 타당성이 인정된다. 또한 진단검사결과로 양성으

- 20 -

Page 29: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

로 예측된 사람 중 실제 질병자의 정도를 나타내는 양성예측도(p redictive valu e

p ositive)와 음성으로 예측된 사람 중 실제 건강자의 정도를 나타내는 음성예측도

(p red ictive v alu e negative)역시 타당성을 측정하는 방법으로 사용된다.

진단검사의 정확도는 진단검사가 수행되어진 조사대상으로부터 질병자와 건강

자를 정확하게 예측해 내는지를 나타내며 이는 전체 조사대상자중 정확하게 예측

이 된 사람의 정도로 표현되고 진단검사법의 성능을 직접적으로 나타낸다. 또한

정확도의 반대 개념으로 진단검사의 오차(error)와 차이(v ariation )를 들 수가 있는

데 오차는 전체 조사대상자중 오분류 되어진 사람의 정도로 표현이 되며 역시 진

단검사의 성능을 나타낸다.

이러한 요구사항들이 적절하게 만족하는 진단 검사법이 이상적인 진단 검사

법이라 할 수 있고 이중 어느 한 요인에 문제가 발생할 경우 측정의 오차가 생긴

다.

En sem ble 알고리즘을 이용한 간암의 예측 모형을 평가하기 위해 질병 유무를

분류하는 정오분류표는 다음과 같다.

Table 1. 2×2 Contin gency table for bin ary ou tp u t

Diagn osis

H CC Norm al

DiseaseH CC a c a +c

N orm al b d b +d

a +b c+d N =a +b +c+d

이상적인 검사법은 질병자를 양성으로 검출하는 민감도(sen sitiv ity)와 건강자를

음성으로 검출하는 특이도(sp ecificity)를 모두 갖추고 있어야 한다. 검사법의 타당

성은 이 민감도와 특이도에 의하여 정해지며, 이 두 가지가 모두 높을 때 검사법

의 타당성이 인정된다.

이러한 평가도구는 정오분류표를 이용하여 구할 수 있으며 이를 이용한 산출식

은 다음과 같다.

- 21 -

Page 30: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

분류정확도(accu racy) = a + dN

×100(%), 민감도(sen sitivity) = aa + c

×100(%),

특이도(sp ecificity) = db + d

×100(%), 상대변화율 = B - AA

×100(%)

이중 분류정확도, 민감도 그리고 특이도에 대한 상대변화율에서 A 를 비교하려

는 모형의 평가도구의 측정값으로 두고, B는 새로운 모형의 평가도구의 측정값으

로 둔다. 따라서 상대변화율은 기존 모형에 비해 얼마만큼 새로운 모형의 측정값

이 변하였는지를 의미한다.

위의 측정도구의 결과 값들을 통해 앙상블 알고리즘의 방법(Baggin g, Arc-x4)

과, 분류기 종류(Logristic regression , Cart, N eu ral N etw ork) 및 분류기의 개수(5

개, 50개, 150개, 300개)가 분류결과에 어떠한 영향을 미치는 지 관찰했다.

- 22 -

Page 31: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

제 4장 간암자료의 분류분석을 위한 사례연구

4.1. 연구대상

본 연구에서 사용되어진 자료는 1990년 1월부터 10년 동안 연세대학교 의과대

학 부속 세브란스병원 소화기내과에 방문하여 간암 발생 위험 군으로 판단되어

정기적으로 복부 초음파검사와 혈청 -FP검사를 포함한 검진을 받아온 환자를 대

상으로 설문조사 자료 및 초음파 진단을 통하여 기록한 자료 중 결측치가 없는

994명의 자료이다.

간암 발생 위험군 이란 만성 바이러스성 간질환(B형 및 C형 간염)과 그 이외에

만성 간질환자를 말한다. 만성 바이러스성 간질환은 6개월 이상 B형 간염 표면항

원(H bsAg)의 양성 또는 항 C형 간염 항체(anti-H CV)양성으로 간조직 생검을 받았

거나 임상적으로 만성 간질환이 진단된 환자로 크게는 만성 간염 바이러스 보유

자, 만성간염, 간경변증을 보이는 집단으로 분류된다

간암으로 확정된 환자는 진단 결과 조직 검사와 수술로 판정확인이 된 경우이

며 영상진단 시 간내 공간점유성 병소가 있고 혈청검사 시 -FP의 값 400 n g/ m l

이상인 경우와 추적영상 진단상 종괴의 증식이 관찰되거나, 혈관 조영술등으로 확

정이 되어진 경우로서 간암에 합당한 소견으로 판정되어진 경우이다.

분석에 사용된 설명변수는 기존 연구를 통하여 간암발생에 유의하게 영향을 줄

수 있는 인자로 알려져 있는 바이러스성 간질환과, 간경변, 음주습관, 초음파검사

결과, 혈청검사시 측정되는 ALT·AFP 지수, 연령, 성 등이다. 안상훈(2000)등의

연구에서 흡연력, 가족의 간암 질병력, IFN 치료여부, 식생활, 수혈, 약물복용 등의

내용은 단변량 분석에서 유의하지 않은 것으로 알려져 본 분석에서는 사용되지

않았다.

총 994명의 대상 환자의 임상적 특성의 분포를 살펴보면, 전체 대상 환자 중

90(9.5%)명이 간암으로 진단되었고 남자 683명(68.7%), 여자 311명(31.3 %)이었다.

진단명으로는 만성간염으로 진단을 받은 경우가 540(54.3 %), 간경화로 진단을 받

- 23 -

Page 32: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

은 경우가 335(33.7%), 간염여부에 따라서는 만성 B형 간염이 781(78.6%), 만성 C

형 간염이 121(12.2%)명으로 나타났다.

총 994명에서의 남자의 연령분포는 48.5±10.7세 이었고 여자의 연령분포는

53.9±9.3세 이었다. 이중 간암으로 진단결과가 나온 90명에서의 남자의 연령분포는

54.4 ±9.9세 이었고 여자의 연령분포는 58.8±8.2세 이었다.

관찰되어진 변수들은 임상적 소견에 의해서 다음과 같은 10개의 입력변수와 한

개의 종속변수가 분석에 사용되어졌다. 대상환자 994명에 대한 임상적 특성의 분

포가 <Table 2>에 정리되어있다.

Table 2. Clin ical ch aracter istics of su bjects

T ot al H CC

n =994 (% ) n =90 (% )

Chronic hepat it is 540 (54.3) 39 (43.3)

Liv er cirrh osis an d Eco high 212 (21.3) 29 (32.2)

HBV 781 (78.6) 67 (74.4)

HCB 121 (12.2) 17 (18.9)

S ex (m ale) 683 (68.7) 65 (72.2)

Heavy Drink 149 (15.0) 20 (22.2)

Non Drink 651 (65.5) 57 (63.3)

A ge ≥ 40 837 (84.2) 86 (95.6)

AF P ≥ 20 191 (19.2) 32 (35.6)

ALT ≥ 40 555 (55.8) 56 (62.2)

본 연구에서 사용되어진 자료는 총 994명의 자료 중 596명의 자료(60%)가 학습

자료로 사용되어졌으며, 398명의 자료(40%)가 검증용 자료로 사용되었다.

4.2. 분석결과

본 장에서는 간암 조기 진단을 위한 단일분류기의 성능에 대해 기술하고 앙상

블을 적용한 모형의 분류성능에 대하여 분산분석과 던칸(Du n can)의 검정결과를

이용하여 분류성능에 영향을 미치는 요인에 대해 기술했으며 단일분류기에 비해

앙상블의 분류성능이 어떻게 변하는지를 기술하였다. 본 분석은 SAS 8.01와

- 24 -

Page 33: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

En terp rise DATA MIN ER 4.0을 사용하였다.

4.2.1 단일 분류 기 (single classifier)의 결과

간암분류분석에 Logistic Regression , CART, N eu ral N etw ork를 각각 적용한

분류성능을 보면 다음의 <Table 3>과 같다.

Table 3. Sin gle Classifier의 성능측정 (간암/ 전체 : 36/ 398)

Sin gle Classifier S en sit iv ity Specificity A ccuracy

Logist ic Regression 55.56% 72.10% 70.60%

Cart 52.78% 70.72% 69.10%

Neural Netw ork 51.35% 67.31% 65.83%

위의 결과에 따르면 분류정확도 민감도 특이도의 관점에서 보았을 때 Logistic

Regression이 가장 높았다. 따라서 단일분류기에서는 세 가지 관점에서 모두 높은

Logistic Regression이 CART와 N eu ral N etw ork에 비해 좋은 결과를 보여 준다고

할 수 있다. 측정결과가 기존 연구의 결과에 비해 비교적 높지 못한 이유는 학습

자료의 결과가 아닌 검증용 자료의 결과이기 때문인 것으로 보인다.

4.2.2 Ensem ble algorithm의 결과

본 절에서는 앙상블 알고리즘의 수행성능을 평가하기 위해 분류정확도와 민감

도 그리고 특이도를 특정하였으며 이를 이용한 삼원배치법의 AN OVA를 시행하였

고 각 실험인자에 대한 Du ncan의 다중비교를 실시하였다. 단일분류자에 비해 앙

상블 알고리즘의 분류성능이 얼마나 향상되었는지를 평가하기 위해서 상대변화율

을 측정하였다.

설명의 명확성을 위해 Logistic Regression을 기반으로 한 Baggin g의 경우

Baggin g-Logistic Regression 으로, Logistic Regression을 기반으로 한 Arc-x4는

Arc-x4-Logistic Regression 으로 표기하며 이와 동일하게 CART와 N eu ral

N etw rok을 기반으로 한 Baggin g과 Arc-x4도 같은 방법으로 표기하였다.

- 25 -

Page 34: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

자료분석에 사용된 분류기의 종류는 Logistic Regression , CART, N eu ral

N etw ork을 사용하고, 앙상블 방법으로 Baggin g과 Arc-x4를 사용하였으며, 분류기

의 수를 5개, 50개, 150개, 300개로 변화시켰을 때 정확도, 민감도, 특이도 관점에

서 성능을 측정하였다.

그 결과 Baggin g-CART와 Baggin g-N eu ral N etw rok는 분류기의 개수가 증가할

수록 분류정확도와 특이도가 높아졌으나 민감도는 낮아졌다. Baggin g-Logistic

Regression은 분류기의 개수에 따라 세 가지 분류성능에서 변동이 없었다<Table

4>. 다음은 세 가지 모형에 Baggin g을 적용한 분류 결과이다.

Table 4 . Baggin g classifier의 성능측정

Typ e of ClassifierN u m ber of

classifierAccu racy

(%)Sen sitivity

(%)Sp ecificity

(%)

Baggin g - Logistic

Regression

5 76.63 61.11 78.18

50 76.63 61.11 78.18

150 76.63 61.11 78.18

300 76.63 61.11 78.18

Baggin g - CART

5 72.70 41.67 75.78

50 70.52 40.74 73.48

150 73.37 35.19 77.16

300 73.70 36.11 77.44

Baggin g - N eu ral

N etw ork

5 71.61 59.26 72.84

50 75.29 50.00 77.81

150 75.80 46.30 78.73

300 76.05 47.22 78.91

또한 Arc-x4를 이용한 모형의 분류에서는 Arc-x4 Logistic Regression , Arc-x4

CART 그리고 Arc-x4 N eu ral N etw ork에서 분류기의 개수가 증가할수록 분류정

확도와 특이도는 증가하였으나, 민감도의 경우에는 감소하였다<Table 5>. 다음은

세 가지 모형에 Arc-x4를 적용한 분류 결과이다.

- 26 -

Page 35: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Table 5. Arc-x4 classifier의 성능측정

Typ e of ClassifierN u m ber of

classifierAccu racy

(%)Sen sitivity

(%)Sp ecificity

(%)

Arc-x4-Logistic

Regression

5 76.63 61.11 78.18

50 79.98 48.15 83.15

150 82.33 35.19 87.02

300 83.67 31.48 88.86

Arc-x4-CART

5 74.70 44.44 77.71

50 76.30 39.81 79.92

150 79.98 35.19 84.44

300 79.31 38.89 83.33

Arc-x4-N eu ral

N etw ork

5 74.79 45.37 77.72

50 76.88 44.44 80.11

150 78.98 40.74 82.78

300 78.48 45.37 81.77

다음은 각 방법의 분류성능을 비교하기 위해 분산분석과 던칸검정을 이용한 결

과이다. 먼저 정확도(Accu racy)에 대한 분산분석의 결과는 분류기의 방법(A)과 앙

상블 기법(B), 그리고 분류기의 개수(C)에 해당하는 주효과가 모두 통계적으로 유

의한 차이를 보였다<Table 6>.

Table 6. Three-w ay AN OVA for classifier accu racy

S ource ofv ariance

Degree ofF reedom

Sum ofS qu are

M eanS qu are F - V alu e P - v alue

A * 2 165.16 82.58 9.37 0.0004*

B† 1 270.08 270.09 30.66 < .0001*

C‡ 3 148.35 49.45 5.61 0.0022*

B×C 3 34.53 11.51 1.31 0.2831

B×A 2 17.59 8.79 1.00 0.3761

A×C 6 18.25 3.04 0.35 0.9092

B×A×C 6 29.61 4.94 0.56 0.7596

*A : Classifier s (Logistic regression·CART·N eu ral N etw ork)†B : En sem ble Algorithm (Baggin g·Arc-x4)‡C : N u m ber of Classifiers (5·50·150·300)§p -v alu e < 0.05

- 27 -

Page 36: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

정확도에 영향을 미치는 주효과에 대해 던칸의 검정 결과가 다음과 같다.

분류기의 방법(A)에 대한 다중비교 결과는 Logistic Regression의 경우 평균 정

확도가 각각 78.64 %으로 다른 두 방법에 비해 통계적으로 유의하게 높은 정확도

를 보였으나 CART와 N eu ral N etw ork의 경우에는 평균 정확도가 각각 75.98 %와

75.07%으로 유의한 차이를 보이지 않았다.

앙상블 기법(B)에 대하여 평균 정확도는 Arc-x4가 78.50%, Baggin g이 74.63 %로

Arc-x4의 경우 통계적으로 유의하게 더 높은 값을 보여주고 있었다.

분류기의 개수(C)에 대하여 평균 정확도는 분류기 300개, 150개, 50개의 경우는

각각 77.97%, 77.85 %, 75.94 %로 높게 나왔으나 서로간에 유의한 차이를 보이지 않

고, 5개의 경우 74.51%로 통계적으로 유의하게 가장 낮은 차이를 보였다.

민감도(Sen sitiv ity)에 대한 분산분석의 결과에 따르면 주효과인 분류기의 방법

(A)과 앙상블 기법(B), 그리고 분류기의 개수(C)와 교효효과인 분류기의 방법(A)×

앙상블 기법(B)이 통계적으로 유의한 차이를 보였다 <Table 7>.

Table 7. Three-w ay AN OVA of classifier sen sitiv ity

S ource ofv ariance

Degree ofF reedom

Sum ofS qu are

M eanS qu are F - V alu e P - v alu e

A * 2 2239.58 1119.79 10.92 0.0001*

B† 1 1029.24 1029.24 10.04 0.0027*

C‡ 3 1084.53 361.51 3.52 0.0217*

B×C 3 129.03 43.01 0.42 0.7399

B×A 2 1009.73 504.87 4.92 0.0114*

A×C 6 184.11 30.69 0.30 0.9343

B×A×C 6 820.69 136.78 1.33 0.2608

*A : Classifier s (Logistic regression·CART·N eu ral N etw ork)†B : En sem ble Algorithm (Baggin g·Arc-x4)‡C : N u m ber of Classifiers (5·50·150·300)§p -v alu e < 0.05

민감도에 영향을 미치는 주효과에 대해 던칸의 검정 결과가 다음과 같다.

분류기의 개수(C)에 대하여 평균 민감도는 분류기 5개의 경우는 52.16%로, 50개

- 28 -

Page 37: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

의 경우와는 유의한 차이를 보이지 않았으나 300개와 150개의 경우보다는 높은

성능을 보였다. 그러나 분류기 50개, 150 개, 300개는 사이에는 유의한 차이를 보

이지 않았다.

분류기의 방법(A)×앙상블 기법(B)에 관한 교호효과에 대해 살펴보면,

Baggin g-Logistic Regression이 평균 민감도 61.11%로 다른 방법에 비해 유의하게

높은 값을 보였다<Table 8>. 반면 Baggin g-CART와 Arc-x4-CART가 가장 낮은 값

을 보였다.

Table 8. Resu lt of Du ncan m u ltip le r an ge test for in teraction (B×A)of sen sitiv ity

Classification M eth od M eanS en sitiv ity

Duncan ' s Mult ipleRan ge T est

Bag ging - Logist ic r egression 61.11

Bag ging - Neural Net w ork 50.69

Arc- x4- Neural N et w ork 43.98

Arc- x4- Logistic r egres sion 43.98

Arc- x4- CART 39.58

Bag ging - CA RT 38.43

특이도(Sp ecificity)에 대한 분산분석의 결과 역시 분류기의 방법(A)과 앙상블 기

법(B), 그고 분류기의 개수(C)에 해당하는 주효과가 모두 통계적으로 유의한 차이

를 보였다<Table 9>.

- 29 -

Page 38: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Table 9. Th ree-w ay AN OVA for classifier sp ecificity

S ource ofv arian ce

Degree ofF reedom

Sum ofS qu are M ean S quare F - V alu e P - v alue

A * 2 99.71 49.86 2.88 0.0660*

B† 1 451.94 451.94 26.09 < .0001*

C‡ 3 276.64 92.21 5.32 0.0030*

B×C 3 57.47 19.16 1.11 0.3559

B×A 2 21.57 10.79 0.62 0.5407

A×C 6 25.89 4.32 0.25 0.9573

B×A×C 6 74.37 12.40 0.72 0.6388

*A : Classifier s (Logistic regression·CART·N eu ral N etw ork)†B : En sem ble Algorithm (Baggin g·Arc-x4)‡C : N u m ber of Classifiers (5·50·150·300)§p -v alu e < 0.05

특이도에 영향을 미치는 주효과에 대한 던칸 검정 결과가 다음과 같다.

분류기의 방법(A)에 대한 다중비교 결과로 Logistic Regression과 CART는 평균

특이도가 각각 81.24 %와 78.66%로 통계적으로 유의한 차이를 보였으며 N eu ral

N etw ork의 경우에는 평균 특이도가 78.83 %으로 다른 두 집단 사이에서 유의한

차이를 보이지 않았다.

앙상블 기법(B)에 대하여 평균 특이도로 Arc-x4가 82.08%, Baggin g이 77.07%로

Arc-x4의 경우 통계적으로 유의하게 더 높은 값을 보여주고 있었다.

분류기의 개수(C)에 대하여 평균 특이도로 분류기 300개, 150개, 50개의 경우는

각각 81.42 %, 81.38 %, 78.78 %로 높게 나왔으나 서로간에 유의한 차이를 보이지 않

고, 5개의 경우 76.73 %로 가장 낮았으며 통계적으로 유의한 차이를 보였다.

이상의 연구결과를 바탕으로 Baggin g-Logistic Regression의 방법이 세 가지 분

류 성능 관점 모두에서 가장 우수한 것으로 나와 이를 가장 우수한 단일모형과

비교한 결과, Baggin g-Logistic Regression은 단일 Logistic Regression에 비하여 분

류정확도는 8.54 %, 민감도는 9.99%, 특이도는 8.43 % 향상된 결과를 보였다.

- 30 -

Page 39: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

제 5장 고찰

임상증상이 없는 상태에서 간암이 진단될 경우 수술가능성과 생존율이 월등히

높아 임상증상이 없는 시기에 정기검진을 통한 조기진단이 중요함이 Tan g(1993)등

에 의해 알려졌다. 또한 선행된 선별검사의 유용성을 평가하는 연구에서 선별검사

를 받은 환자군이 간암으로 조기진단의 성적이 높으며 그에 따른 생존율이 높은

것이 확인되었고 조기진단시 치료효과가 높아 생존기간이 연장되었다. 이러한 관

점에서 조기진단의 분류성능을 높이기 위한 시도는 의미가 있다.

간암진단검사자료의 분류분석의 문제에 있어서 En sem ble 알고리즘이 줄 수 있

는 기대 효과는 분류의 분산과 편이를 줄여줌으로써 정확도와 신뢰도를 향상시켜

줄 수 있다는 점이다.

본 연구에서는 간암 진단의 분류예측 정확성을 높이기 위한 목적으로 En sem ble

알고리즘을 적용하였으며, 이의 성능을 분류정확성, 민감도, 특이도 관점에서 측정

하였다. 연구에 사용된 단일 분류기는 Logistic Regression , CART, N eu ral

N etw ork이며, 앙상블 방법으로써 Baggin g과 Arcin g을 사용하였다.

앙상블 기법간의 성능 우위를 파악하기 위하여 앙상블의 종류와 앙상블에 사용

된 단일 분류기의 종류, 개수에 따른 분산분석과 던칸 검정 결과를 수행하고, 이

를 바탕으로 가장 우수한 앙상블 방법과 가장 우수한 단일 분류기와의 성능 차이

를 상대 변화율 관점에서 비교하였다.

분산분석의 주효과 중, 앙상블의 종류에 따라 살펴보면, Arc-x4는 분류정확도와

특이도 관점에서 Baggin g보다 높은 성능을 보인 반면, 민감도 관점에서는

Baggin g의 성능이 우수한 것으로 나타났다.

분류기의 종류에 따라 살펴보면 정확도에서는 Logistic Regression이, 민감도에

서는 Logistic Regression과 N eu ral N etw ork가, 그리고 특이도에서는 Logistic

Regression과 CART가 높게 나왔다.

또한 분류기의 개수에 따른 영향을 살펴보았을 때에는 분류정확도와 특이도는

분류기의 개수가 늘어갈수록 높은 값을 보였으나, 민감도에서는 분류기의 개수가

- 31 -

Page 40: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

낮을수록 높은 값을 보였다.

교호효과 중에서는 민감도부분에서 유일하게 분류기의 방법(A)×앙상블 기법(B)

의 교호효과가 통계적으로 유의한 것으로 검정되었는데 던칸 검정에 따르면

Baggin g-Logistic Regression이 다른 방법에 비해 유의하게 높은 민감도를 보이고

있음을 알 수 있다. 즉, Baggin g-Logistic Regression이외의 분류방법들은 분류기의

개수가 증가함에 따라 분류정확도, 특이도가 증가하는 경향을 보이나 민감도의 경

우에는 감소하는 형태를 보였다. 그러나, Baggin g-Logistic Regression의 경에는 분

류기의 개수에 관계없이 높은 민감도의 값을 유지하는 특성을 보였다.

분류정확도의 증가는 간암의 정확한 예측성능이 증가했음을 의미하며 특이도의

증가는 정상인이 간암으로 오분류 되었을 때 드는 비용과 간암으로 판정 받은 정

상인의 심적 부담을 크게 줄일 수 있다는 장점을 나타낸다. 그러나 간암검진에 있

어서 무엇보다 중요한 점은 간암환자를 정확하게 간암으로 예측하여 효과적인 간

암의 치료와 사망률을 줄이는 데에 있다. 따라서 분류 성능의 향상에 있어서 민감

도가 감소하지 않는 Baggin g-Logistic Regression을 사용하는 것이 다른 모형을 사

용하는 것보다 의미가 있다고 할 수 있다.

이상과 같은 측면에서, 가장 우수한 En sem ble 방법인 Baggin g-Logistic

Regression과 가장 우수한 단일 분류기인 것으로 나타난 Logistic Regression의 성

능 차이를 상대 변화율 관점에서 비교한 결과, 세 가지 분류성능 관점 모두에서

앙상블 방법이 단일 분류기보다 높은 정확성을 보였다.

본 연구의 보완점으로는 다음과 같다. 연구에 사용되어진 자료는 실제 간암에

관련된 자료로 자료의 크기가 크지 못한 단점이 있다. 또한 간암의 유병률은 전체

자료에 비해 10%로 낮으므로 분류모형을 적합하기 어려운 형태를 갖는다. 따라서

유병률이 낮은 자료의 분류 정확도, 특이도 뿐만 아닌 민감도의 관점에서도 개선

할 수 있는 모형이 제시되어져야 하겠다.

간암 분류분석에 En sem ble 알고리즘을 적용할 경우 Logistic Regression과 같이

독립변수가 분류예측결과에 미치는 영향을 직접적으로 구하기 어려운 점이 있는

데, 간암분류분석을 통해 간암발생의 위험인자의 영향을 정확히 파악하여 간암질

병의 예방 및 관리에 적용하기 위해서 En sem ble 알고리즘을 이용한 분류성능의

- 32 -

Page 41: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

향상과 더불어 독립변수와 분류예측결과의 관계를 명확히 설명해 줄 수 있는 방

법을 고안할 필요가 있겠다.

이밖에 분류기의 종류로써, Logistic Regression , CART, N eu ral N etw ork의 경우

에만 비교를 해 보았으나 다른 종류의 분류기를 적용해 볼 필요가 있으며

En sem ble 알고리즘의 방법에 있어서도 Baggin g과 Arc-x4 이외에 Waggin g, Real

Ad aboost, Mu ltiboostin g 등의 다른 En sem ble 알고리즘의 비교도 함께 이루어 져

야 할 필요가 있다.

- 33 -

Page 42: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

제 6장 결 론

선별검사를 통한 간암검진자료의 분류분석에 Logistic Regression , CART,

N eu ral N etw ork를 이용한 En sem ble algorith m 을 적용해 본 결과 다음과 같은 결

론을 얻을 수 있었다.

1. 세 가지 단일분류모형에 비해 Baggin g과 Arc-x4의 경우에는 정확도와 특이도

가 증가하는 결과를 얻었다.

2. 그러나 민감도의 경우에는 모든 단일분류모형에 비해 baggin g Logistic

Regression의 경우에만 민감도가 증가하였으며 나머지 앙상블 방법은 단일 분류기

보다 낮은 민감도를 보였다.

3. 모든 조합된 방법의 분류특성을 비교하기 위해 실험인자는 분류기의 방법

(Logistic regression·CART·N eu ral N etw ork), 앙상블 기법(Baggin g·Arc-x4) 그

리고 분류기의 개수(5회·50회·150회·300회)로 구성되고 민감도·특이도·정확

도를 반응변수로 하여, 분산분석과 던칸 검정을 실시한 결과 분류기의 방법과 앙

상블의 기법, 분류기의 개수에 대한 주 효과는 모두 통계적으로 유의한 것으로 나

타났으며 민감도를 반응변수로 한 경우에 있어서는 분류기의 방법×앙상블의 기

법의 교호효과가 유의한 것으로 나타났다.

4. 분산분석을 통해 앙상블 모형 중 Baggin g-Logistic Regression이 가장 좋은

모형이었으며, 단일분류기 중 가장 좋은 모형이었던 Logistic Regression에 비해

분류정확도, 민감도 그리고 특이도 가 모두 증가하였다.

이와 같은 연구결과를 종합해 보았을 때 본 연구에 사용되어진 자료를 이용하

여 분류성능을 향상시키기 위한 방법으로 Baggin g-Logistic Regression을 사용할

경우 간암의 조기검진을 위한 분류정확도, 민감도와 특이도를 높여줌으로써 간암

환자의 조기치료의 기회를 높여주며, 정상인의 오분류에 따르는 비용을 절감해 주

고, 조기치료를 통하여 생존율을 높여주어 전반적으로 한국의 간암 사망률을 줄이

는 데 기여할 수 있을 것이다.

- 34 -

Page 43: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

제 7장 참고문헌

고희중 연세대학교 대학원 학위논문 보건의학 연구에서 Data Min in g 기법 적용시

ROC 곡선을 이용한 모형의 평가, 2000.

김일영 여문각 간암의 진단과 치료, 1999.

김병호 경희대 내과학교실 간암의 조기진단을 위한 검진대상 선정의 권고안 국립

암센터 심포지엄, 2001;http :/ / w w w .n cc.re .kr / sym p osiu m / liver / back .h tm .

이정환,엄순호,류호상,강창돈,허병원,진윤태등. 간세포암 선별검사로서 정기적인 초

음파 및 α-fetop rotein 검사의 유용성. 대한소화기학회지, 2000: 36(1):81-92.

예방의학과 공중보건 편집위원회 계축문화사 예방의학과 공중보건, 2000.

정정일, 한광협, 최병현, 안상훈, 김동기, 남정모, 정재복, 전재윤, 문영명. 고위험군

에서 간세포암의 조기진단을 위한 정기적인 초음파검사의 의의. 대한간학회지,

1998;4:330-345.

최대우, 규자용, 박헌진, 박재석 On the Im p rovem en t of classification accu racy

u sin g com bin in g learner s. 데이터마이닝 연구회 세미나 자료, 1999.

홍영선, 김훈교, 이경식. 암 조기진단. 대한내과학회지 1999:56(6):672-676.

SAS 2000, E-m in er 3.0 reference m anu al, Cary, N C, USA .

H an KH , Ahn SH , Kim DK, Son g KJ, Jen g JI, Lee KS, Chu n g JB, Jeon g CY,

Lee KS, Chu n g JB, Jh on Jy, M oon YM, Su h I, an d N am JM . Establishm ent

of a Screenin g Test System for Early d iagn osis of H ep atocellu lar Carcin om a

in H igh -Risk Patients an d eth Ev alu ation of Its Effectiveness. J Korean

Cancer A ssoc 2000;32(6):1084-1092.

Ah n SH , H an KH , You n YH , H on g SP, Paik YH , Ch on CY, Moon YM, Son g

KJ, Kim DK an d Su h I. Risk factors for h ep atocellu lar carcin om a in Korea .

Korean J Med icine 2001;60(2).

Ch o JY, Ch oi JH , Yoo N C, Lim H Y, Kim Jh, Roh JK, Lee JT, Kim BS.

- 35 -

Page 44: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Th erap eu tic effect of hep atic arter ial infu sion of cisp latin in p rim ary

hep atocellu lar carcin om a. J Korean Cancer Assoc 1993;25(6):865-872.

David P . H elm bold an d Robert E. Sch ap ire . Pred ictin g nearly as w ell as the

best p ru n in g of a d ecision tree . M achine Learn in g, 27(1):51-68, 1997.

David McAllester an d Robert E. Sch ap ire . On the convergen ce rate of

Good-Tu rin g estim ator s. In Proceed in gs of the Thir teen th Ann u al Conference

on Com p u tation al Learnin g Theory, 2000.

D .Mich ie,D .J.Sp iegelh alter ,C.C. Taylor Machine Learn in g,N eu ral an d Statistical

Classification 1994.

Dietter ich , T. G., An Exp erim ental Com p arison of Three Meth od for

Con stru ctin g En sem bles of Decision Trees: Baggin g Boostin g, an d

Ran d om ization . Mach ine Learnin g 2000;40(2):139-158.

Eric Bau er & Ron Koh avi. An em p irical com p arison of v otin g classification

algorithm s: Baggin g, boostin g, an d v ariants. Mach ine Learnin g, in p ress.

H an YS, Kim BH , Baek IY, Lee DK, Kim KJ, Don g SH , Kim H J, Ch an g YW,

Lee JI, Ch an g R. Th e Ch an ge of the Etiology, Com p lication s an d Cau se of

Death of th e Liver Cirrh osis in 1990s. Korean J H ep atology 2000;6(3):328-339.

H ay d on GH , H ayes PC, Screenin g for hep atocellu lar carcin om a [Review ]. Eu r J

Gastroenterol H ep atol 1996;8(9):856-860.

Kew MC, Ged d es EW . H ep atocellu lar Carcin om a in ru ral sou th ern African

blacks. Medicine 1992;61(2):98-108.

Korean N ation al Statistical Office . The Cau se of Death Statistics(Death s an d

Death rates/ 100th ou s). h ttp :/ / w w w .n so.go.kr / rep ort/ d ata/ svde9700.htm

Leo Breim an . Baggin g p redictors. Techn ical rep ort N o.421., Un iver sity of

California, Berkeley 1996a.

Leo Breim an . Baggin g Boostin g, an d C4.5.

ftp :/ / ftp .stat .berkeley .edu / p u b/ u ser s/ breim an . 1996b .

Leo Breim an . Arcin g classifiers. The An n als of Statistics, 1998;26(3):801-849.

- 36 -

Page 45: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Mich ael Collin s, Robert E. Sch ap ire an d Yoram Sin ger . Logistic regression ,

Ad aBoost an d Bregm an d istances. Exten ded abstr act ap p eared in Proceed in gs

of the Thirteenth An nu al Conferen ce on Com p u tation al Learnin g Theory,

2000.

Pae SW N ecessity of early diagn ose of H ep atocellu lar Carcin om a. first

sym p osiu m of N ation al Cancer Cen ter Korea . 2001

http :/ / w w w .ncc.re .kr/ sym p osiu m / liver/ back .h tm

Robert E. Sch ap ire . A brief in trodu ction to boostin g . In Proceedin gs of th e

Sixteenth Intern ation al Join t Conferen ce on Artificial In telligence, 1999.

Robert E. Sch ap ire . Th eoretical v iew s of boostin g an d ap p lication s. In Tenth

Intern ation al Con ference on Algorith m ic Learnin g Theory, 1999.

Robert E. Sch ap ire . Theoretical v iew s of boostin g . In Com p u tation al Learnin g

Th eory : Fou rth Eu rop ean Conferen ce, Eu roCOLT'99, 1999;1-10.

Robert E. Sch ap ire an d Yoram Sin ger . Im p roved boostin g algorithm s u sin g

confid ence-r ated p rediction s. Mach ine Learnin g, 1999;37(3):297-336.

Robert E. Sch ap ire . Usin g ou tp u t codes to boost m u lticlass learn in g p roblem s.

In M achin e Learnin g : Proceedin gs of th e Fou rteenth In tern ation al

Conference, 1997;313-321, .

Tan g ZY, Yu YQ, Zh ou XD, Yan g BH , M a ZC Lin Zy . Su bclin ical

hep atocellu lar carcin om ea: an an alysis of 391 p atients. J Su rg Oncol

1993:3(su p p l):55-58

Th e N ation al Can cer Center . Rep ort of The Cancer Registry System in Korea,

1999 http :/ / w w w .n cc.re .kr/ stat/ list / 암등록결과99.p p t

Yoav Freu n d an d Robert E. Sch ap ire . A sh ort in trod u ction to boostin g . Jou rn al

of Jap anese Society for Artificial In telligence, 1999;14(5):771-780, Sep tem ber .

Yoav Freu n d, Yish ay M an sou r an d Robert E. Sch ap ire . Why averagin g

classifiers can p rotect again st overfittin g . In Proceedin gs of the Eigh th

Intern ation al W orksh op on Artificial In telligen ce an d Statistics, 2001.

- 37 -

Page 46: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

Yoav Freu n d an d Robert E. Sch ap ire . Exp erim ents w ith a new boostin g

algorithm . In M achine Learnin g: Proceedin gs of the Th irteenth In tern ation al

Conference, 1996;148-156.

Sch w en k H . an d Ben gio Y. Boostin g neu ral netw ork s. N eu ral Com p u tation .

2000;12(8):1869-87.

William W . Cohen, Robert E. Sch ap ire an d Yoram Sin ger . Learnin g to order

th in gs. Jou rn al of Artificial In telligence Research , 1999;10:243-270.

Zoil M, M agalotti D, Bianchi G, Gu eli C, Marchesin i G, Pisi E. Efficacy of a

su rveillance p roram for early detection of hep atocellu ar carcin om a. Cancer

1996;78(5):977-985.

- 38 -

Page 47: Ensemble Algorithm을 이용한 간암진단의 분류분석 · 3.2.1. 앙상블 모형을 위한 용어정리 14 3.2.2. Bagging Algorithm 15 3.2.3. Arc-x4 Algorithm 17 3.3 학습자료

A BSTRA CT

Ensem ble for the Classification of H ep atocellu lar Carcinom a

in H igh-Risk Patien ts in Korea

Lee, Woo Su nDep t . of Biostatisticsan d Com p u tin gThe Gradu ate Sch oolYon sei Un iver sity

P urp os e : T he purpose of this stu dy is t o apply the en sem ble algorithm in an

effort t o in crease the accuracy of an in dividu al classifier for H epatocellu lar

Carcin om a in High - Risk P at ient s in Korea .

M a t e r ia ls and M e thod s : T h e data of 2,020 patient s w h o had ult r asonography

(U S ) du e to chronic liv er diseases w ere collect ed from 1990 t o 1998. A tot al of

994 pat ient s w ho hav e n o m is sin g input v alues is u sed to fit in div idu al

classificat ion m odels such as logist ic r egres sion , neural net w ork and decision

tree (CART ) for H epat ocellular Carcinom a . W e apply en sem ble algorithm s

(Baggin g an d Arc- x4) t o these indiv idual clas sifier s by v arying the num ber of

Boot st r ap resam ples from 5, 50, 150 t o 300. A three w ay ANOVA is perform ed

in order to com pare the perform ances of th e en sem bles alg orithm s in term s of

classificat ion accuracy , sen sit iv ity , an d specificity .

R es ul t : Result of the full fact orial design in dicat ed th e follow ing at 5%

significance lev el. En sem ble alg orithm is a significant fact or for the

classificat ion sen sit iv ity , specificity and accuracy . Only on e int er act ion effect

bet w een clas sifier and en sem ble alg orithm turn s out t o be significant .

Conclus ion : A ccordin g t o Dun can t est , both Bag ging and Arc- x 4 alg orithm s

perform bet ter than individual cla ssifier s . M ore specifically , Bag ging b ased on

logist ic r egression is recom m en ded for the cla ssificat ion of Hepat ocellu lar

Carcin om a in High - Risk P at ient s .

K ey W ord s : Logistic r egression , CART , N eural Netw ork , En sem ble ,

Bag ging , Arc- x4, Hepat ocellular Carcinom a

- 39 -