데이터마이닝contents.kocw.net/kocw/document/2014/chungbuk/...비즈니스 인텔리전스를...

21
비즈니스 인텔리전스위한 데이터마이닝 8나이브베이즈

Upload: others

Post on 05-Jan-2020

8 views

Category:

Documents


1 download

TRANSCRIPT

비즈니스 인텔리전스를 위한

데이터마이닝

제8장 나이브베이즈

비즈니스 인텔리전스를 위한 데이터마이닝

8.1 서론

8.2 단순규칙

8.3 완전한 베이지안 분류기의 적용

8.3 나이브 베이즈 분류기의 장점과 단점

2

목차

비즈니스 인텔리전스를 위한 데이터마이닝

8.1 서론

직관적으로 접근 가능한 3가지 단순 분류기법

(1) 기준모형(baseline)

주로 고급 모형들과 비교하기 위한 예측변수가 필요 없는 단순 규칙모형

(2) 나이브 베이즈모형(naïve Bayes)

(3) k-최근접이웃기법(k-nearest neighbor)

3

비즈니스 인텔리전스를 위한 데이터마이닝

예제 1: 분식 재무제표에 대한 예측

회계감사법인은 재무제표에 대한 법적 책임을 피하기 위해 그 회사가 분식 재무제표를 제출하였는지 여부를 찾아내려고 한다. 이와 관련된 자료에서 각 기업(고객)은 하나의 레코드에 해당되고, 주요 반응변수인 Y = {분식, 정상}는 두 가지 유형의 집단(C1 = 분식 재무제표 제출기업, C2 = 정상 재무제표 제출기업)을 의미한다.

감사법인이 고객에 대해 알고 있는 유일한 다른 정보는 이 기업에 대해 법적 책임소송이 제기되었는지 여부이다. 감사법인은 분식에 대한 추정을 향상시키기 위해서 이와 같은 정보를 이용하려고 할 것이다. 따라서 “X = 법적책임”는 법적책임에 대한 소송제기있음(1) 또는 소송제기없음(0) 등의 두 범주를 갖는 단일 범주형 예측변수에 해당한다.

법적 책임 소송 존재 (X = 1)

법적 책임 소송 없음 (X = 0)

총계

분식(C1) 50 50 100

정상(C2) 180 720 900

총계 230 770 1,000

4

비즈니스 인텔리전스를 위한 데이터마이닝

예제 2: 비행기 연착에 대한 예측

공항관리국, 항공사, 항공청 등은 비행기 연착에 대한 예측 을 통해 연착이

예상되는 비행기에 대해 사전 조치를 취할 수 있음

비행기 연착 데이터

연착은 15분을 초과해서 늦게 도착하는 것을 의미

미국 교통통계당국 (www.transtats.bts.gov)

2004년 1월중에 워싱턴 D.C.에서 뉴욕시까지 운항된 모든 비행기 자료를 포함

총 2,346대의 비행기중에서 연착된 비행기의 비율은 18%였다.

변수명 변수 내역

요일 1=월요일, 2=화요일, …, 7=일요일

출발시간 오전 6시와 오후 10시 사이를 18 구간으로 나눔.

출발공항 3개의 공항코드: DCA(레이건 내셔널공항), IAD(덜레스공항), BWI(볼티모어-와싱턴 국제공항)

도착공항 3개의 공항코드: JFK(케네디공항), LGA(라구아디아공항), EWR(뉴어크공항)

항공회사 8개의 항공사 코드: CO(컨티넨탈), DH(아틀란틱 코우스트), DL(델타), MQ(아메리칸 이글), OH(컴에어), RU(컨티넨탈 익스프레스), UA(유나이티드), US(유에스 에어웨이즈)

날씨 기상악화로 인한 연착이라면, 1을 부여함.

5

비즈니스 인텔리전스를 위한 데이터마이닝

8.2 단순 규칙(Naive Rule)

단순 규칙은 모든 예측변수 를 배제한 상태에서 어느 한 레코드를 m개

집단중의 하나로 분류하는 매우 단순한 규칙은 이 레코드를 규모가 가장 큰 집단에

속하는 것으로 분류하는 것이다.

예를 들어 위에서 제시한 재무보고서 감사 사례의 단순규칙은 모든 고객들을 신뢰할

만하다고 예측하는 것이다.

왜냐하면 학습용 집합에서 조사된 전체 기업중 90%가 신뢰할 만하다고 나타났기 때문이다

이와 비슷하게 단순규칙은 모든 비행기가 정시에 도착하는 것으로 분류한다.

그 이유는 데이터 집합에 있는 대다수의 비행기들이(82%) 연착하지 않았기 때문이다.

일반적으로 단순규칙은 좀더 복잡한 분류모형의 성과를 평가하기 위한 기준모형으로

서 사용된다.

분류문제에 적용되는 단순규칙을 정량적인 반응변수를 갖는 모형에 적용할 경우

새로운 레코드에 대한 y의 예측값은 표본평균인 을 사용한다. 이를 요약하면,

단순규칙의 예측값은 오직 y 값에만 의존하고 예측변수의 사용은 배제된다.

( )1 2, ,..., pX X X

y

6

비즈니스 인텔리전스를 위한 데이터마이닝

8.3 나이브 베이즈(Naive Bayes) 분류모형

나이브 베이즈 (Naïve Bayes) 분류모형

단순규칙보다는 좀더 정교한 방법

예측변수군에 포함된 정보들을 단순규칙에 결합

범주형 예측변수인 경우에만 적용 (수치형은 범주형으로 전환 필요)

나이브 베이즈 기법은 데이터 집합이 매우 클 경우 상당히 유용하다.

구글(Google)과 같은 웹 검색엔진의 예

사용자가 철자가 잘못 표기된 어구를 입력하면 철자오류를 수정한 글자가 제시

제시된 글들은 수백만명의 다른 사용자들이 입력한 유사 철자의 단어들의 빈도뿐만 아니라

사용자가 입력한 어구의 다른 글자들에 기초하여 제시됨

7

비즈니스 인텔리전스를 위한 데이터마이닝

(1) 조건부 확률과 피봇(Pivot) 테이블

분류문제의 목적은 예측변수군이 주어질 때 각 집단에 속할 확률을 추정하

는 것이다. 이러한 유형의 확률은 조건부 확률로 불리운다. 사건 B가 주어질

때 사건 A가 일어날 조건부 확률( )은 오직 사건 B가 발생하는 시나리

오에서만 사건 A가 발생할 기회를 말한다. 위에서 제시한 감사회사의 사례

에서는 P(분식/법적책임소송)에 관심을 둔다. 일반적으로 m개의 집단(C1,

C2, C3 …,Cm) 의 반응변수와 (X1,X2,…,Xn) 인 예측변수에 대해 다음의 확률

값을 측정하기를 원한다고 하자.

여기서 i=1,2,…, m이라고 가정한다. 하나의 레코드를 분류하기 위해서 각

집단 i에 대한 를 계산함으로써 각 집단에 속할 기회를 측정한

다. 그 다음에는 그 레코드를 가장 높은 확률을 갖는 집단으로 분류한다.

예측변수들이 모두 범주형 일 때, 소속집단의 조건부 확률을 추정하기 위해

피봇테이블을 사용할 수 있다. 이 피봇테이블은 모든 예측변수들과 반응변

수를 표로 나타낸다. 예를 들어 앞서 재무보고 감사 예제의 피봇테이블을 살

펴보았는데, 하나의 예측변수(“법적책임있음/법적책임없음”)가 이진분류의

반응변수(“분식보고/정상보고”)와 함께 표로 나타난다.

( )P A B

( )1 2, ,...,i pP C X X X

( )1 2, ,...,i pP C X X X

8

비즈니스 인텔리전스를 위한 데이터마이닝

(2) 실제 적용상의 어려움

조건부 확률을 추정할 경우 예측변수의 수(p)가 가령 20으로 매우 크고 집

단의 수(m)가 2이라면 모든 예측변수가 이진분류라 할 지라도 많은 레코드

들에 있어서는 자신들과 정확히 일치하는 규칙들을 찾을 수 없게 되는 문제

가 있다. 모든 셀이 0이 아닌 값을 갖는 피봇테이블을 만들려면 수백만 개의

관찰치를 갖는 큰 규모의 데이터 집합이 필요하게 된다. 예를 들어 2,346개

의 항공편 데이터베이스를 포함하고 오직 “요일”과 “항공회사”만을 보여주

는 비행기 연발착 예제의 경우, 3차원 피봇테이블(“요일”, “항공회사”, “연

착/정시도착”)은 많은 빈 셀을 갖는다.

다시 말해서 예측변수들의 조합으로 동시에 발생하는 레코드가 많이 관찰되

지 않는다.

9

비즈니스 인텔리전스를 위한 데이터마이닝

해결방안: 나이브 베이즈 분류모형

위에서 제시한 문제를 해결하기 위해 널리 사용되는 한 가지 방법은 각 집단

내의 예측변수에 대한 독립성의 가정을 단순화 시키는 것이다. 만약 각 집단

내에서 모든 예측변수들이 상호 독립적이라는 가정이 합리적이라면, 계산과

정을 상당히 단순화 시킬 수 있다. 피봇 테이블의 관점에서 독립성의 가정은

곧 분할표(해당 칸)를 살펴보는 대신에 각 예측변수의 한계변동분만을 이용

한다는 것을 의미한다. 예측변수들이 서로 독립적이라고 한다면 동시발생의

확률은 모든 관련 예측변수의 한계변동분을 서로 곱한 값과 같다.

원래 조건부 확률값 계산은 베이즈 규칙을 이용하여 계산된다. 그리고 이 확

률값은 독립성에 대한 가정을 단순화 함으로써 쉽게 가감될 수 있다. 베이즈

이론은 레코드가 집단 Ci에 속하는 확률을 계산하기 위해 다음과 같은 공식

을 사용한다.

( ) ( ) ( )( ) ( ) ( ) ( )

11

1 1 1 1

, ,, ,

, , , ,p i i

i pp p m m

P X X C P CP C X X

P X X C P C P X X C P C=

+ +

비즈니스 인텔리전스를 위한 데이터마이닝

해결방안: 나이브 베이즈 분류모형(계속)

( )( )( )( )

, 1/ 2 0.5,

, 2 / 2 1,

, 0 / 3 0,

, 1/ 3 0.33.

P

P

P

P

= = = =

= = = =

= = = =

= = = =

분식보고책임 예 크기 작음

분식보고책임 예 크기 큼

분식보고책임 아니오 크기 작음

분식보고책임 아니오 크기 큼

분식 재무보고서 예제 각 집단에서 예측변수가 나타날 확률은 법적 책임이 제소되었는지에

대한 추가정보를 통해서 다음과 같이 계산된다.

비즈니스 인텔리전스를 위한 데이터마이닝

정확한 베이즈 확률값

나이브 베이즈 확률값

( ) ( )( )

( ) ( )( )

( ) ( )( )

( ) ( )( )

1/ 4 4 /10, 0.5,

2 /102 / 4 4 /10

, 1,2 /10

0 / 4 4 /10, 0,

3 /101/ 4 4 /10

, 0.33.3 /10

P

P

P

P

= = = =

= = = =

= = = =

= = = =

분식보고책임 예 크기 작음

분식보고책임 예 크기 큼

분식보고책임 아니오 크기 작음

분식보고책임 아니오 크기 큼

( ) ( )( )( )( )( )( ) ( )( )( )

( )( )( )

3/ 4 1/ 4 4 /10,

3 / 4 1/ 4 4 /10 1/ 6 4 / 6 6 /10 0.53,

, 0.87,

, 0.07,

, 0.31.

NB

NB

NB

NB

P y

P y

P n

P n

= = =+

=

= = =

= = =

= = =

분식보고책임 크기 작음

분식보고책임 크기 큼

분식보고책임 크기 작음

분식보고책임 크기 큼

( ) ( ) ( ) ( ) ( )1 2 1 2 3, , , m i i i i m iP X X X C P X C P X C P X C P X C=

해결방안: 나이브 베이즈 분류모형(계속)

비즈니스 인텔리전스를 위한 데이터마이닝

출력값의 조건부 확률은 엑셀의 피봇 테이블을 이용하여 간단히 계산되며 전체 집단에서 각 셀의 레코드가 차지하는 비율을 보여줄 수 있음을 주목해야 한다. 이에 대한 예는 <표 6.4>에서 볼 수 있는데, 이 표는 도착 공항별 연착(또는 정시도착) 항공편의 비율을 전체 연착(또는 정시도착) 항공편의 비율로서 보여준다 -> 엑셀로 연습.

해결방안: 나이브 베이즈 분류모형(계속)

비즈니스 인텔리전스를 위한 데이터마이닝

해결방안: 나이브 베이즈 분류모형(계속)

비즈니스 인텔리전스를 위한 데이터마이닝

해결방안: 나이브 베이즈 분류모형(계속)

비즈니스 인텔리전스를 위한 데이터마이닝

해결방안: 나이브 베이즈 분류모형(계속)

나이브 베이즈의 평가용 데이터를 이용한 분류결과

비즈니스 인텔리전스를 위한 데이터마이닝

해결방안: 나이브 베이즈 분류모형(계속)

나이브 베이즈의 평가용 데이터를 이용한 분류결과

비즈니스 인텔리전스를 위한 데이터마이닝

해결방안: 나이브 베이즈 분류모형(계속)

나이브 베이즈의 평가용 데이터를 이용한 분류결과

비즈니스 인텔리전스를 위한 데이터마이닝

해결방안: 나이브 베이즈 분류모형(계속)

단순 베이즈의 평가용 데이터를 이용한 분류결과

Lift Chart ROC

비즈니스 인텔리전스를 위한 데이터마이닝

8.4 나이브 베이즈 분류모형의 장단점

나이브 베이즈 분류모형의 장점

모형이 단순하고, 계산이 효율적이며 분류성과가 좋다.

예측변수의 독립성에 대한 가정이 위배될 때도 적용가능하며 더 정교한 분류모형보다

높은 성과를 보이는 경우가 많다. 특히 예측변수의 개수가 매우 많을 때 높은 성과를

나타낸다.

나이브 베이즈 분류모형의 단점

첫째, 나이브 베이즈 분류모형은 좋은 성과를 얻기 위해서 많은 수의 레코드를 필요로

한다.

비즈니스 인텔리전스를 위한 데이터마이닝

8.4 나이브 베이즈 분류모형의 장단점

둘째, 예측변수의 범주가 학습용 데이터에서 존재하지 않는 경우 나이브 베이즈는 이러한 예측변수의 범주를 갖는 새로운 레코드는 0의 확률값을 갖는다고 가정한다. 이처럼 거의 존재하지 않는 예측변수값이 중요하다면 이 가정은 문제를 일으킬 수 있다. 예를 들어 목표변수가 “고액 생명보험상품 구매”이고 예측변수의 범주가 “요트 소유”라고 가정하자. 만약 학습용 데이터가 “요트 소유 = 1”인 레코드를 갖고 있지 않다면 “요트 소유 = 1”인 새로운 레코드에 대해서는 나이브 베이즈는 목표변수 “고액 생명보험상품 구매”에 0의 확률값을 부여할 것이다. 물론 학습용 데이터에 “요트 소유 = 1”인 레코드가 없다고 한다면 이렇게 잠재적으로 중요한 변수를 분류모형에 포함시킬 데이터마이닝 기법은 존재하지 않는다. 즉 그 변수는 무시될 것이다. 그러나 나이브 베이즈에서는 이렇게 예측변수가 없다는 것이 레코드의 다른 어떤 정보보다 발생빈도에서 앞서기 때문에 목표변수값에 0을 부여한다. 이 사례에서는 1일 가능성이 상대적으로 높다. 학습용 집합의 크기가 크고 필요한 경우 연속형 변수를 판별력이 있는 이진분류 변수로 만드는 것은 이러한 효과를 완화시키는데 도움을 준다.

셋째, 정확한 확률값이 아니라는 것이다. 분석의 목적이 집단을 분류하는 것이거나 또는 어느 특정 집단에 속할 확률에 기초해서 레코드의 순위를 정하는 것이라면, 나이브 베이즈 분류모형은 좋은 성과를 얻을 수 있다. 그러나 그 목적이 실제로는 집단에 속할 확률을 추정하는 것일 때에는 이 방법은 매우 편향된 결과를 낳는다. 이러한 이유로 인해서 나이브 베이즈 방법은 신용평가에서는 거의 사용되지 않는다(Larsen, 2005).