비즈니스 인텔리전스를...

29
비즈니스 인텔리전스위한 데이터마이닝 2데이터마이닝 프로세스 개요

Upload: others

Post on 20-Jan-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

비즈니스 인텔리전스를 위한

데이터마이닝

제2장 데이터마이닝 프로세스 개요

비즈니스 인텔리전스를 위한 데이터마이닝

2.1 서론

2.2 데이터마이닝의 핵심 아이디어

2.3 교사학습과 비교사학습

2.4 데이터마이닝 단계

2.5 데이터마이닝 사전 단계

2.6 모델 구축: 선형 회귀분석을 이용한 예제

2.7 엑셀을 이용한 데이터마이닝

2

목차

비즈니스 인텔리전스를 위한 데이터마이닝

2.1 서론

비즈니스 인텔리전스(business intelligence) 기능의 핵심요소 분류 및 예측 문제해결을 위한 예측분석(predictive analytics)

기술적인(descriptive) 분석을 위한 데이터베이스 기법

OLAP(online analytic processing)과 SQL(structured query language)

예) 매년 2만 달러이상을 지출하고 본인 소유의 집이 있으며, 특정시점에서 기한내에 월별 청구액을 모두 결제하는 비율이 최소 95%이상인 지역에 거주하는 모든 신용카드 사용자들을 찾는 문제

비즈니스 인텔리전스를 위한 데이터마이닝

2.2 데이터마이닝의 핵심 아이디어

분류 데이터를 집단으로 구분하기 위함,

마케팅에 반응/반응X, 네트워크를 통한 데이터 전송이 안전하거나 위험한 전송으로 분류

예측 예측은 집단(예를 들어, 구매자 또는 비구매자)변수보다는 수치형(정량) 변수(예를 들어, 구

매량)의 값을 예측하는 것을 뜻한다.

연관 규칙(Association Rules) 대량의 고객거래 데이터베이스는 구매항목들간의 연관성, 즉 어떤 항목이 어떤 항목과 관련

되는지에 대한 분석을 의미한다.

데이터 축소 대량의 변수들을 작은 변수군으로 병합하는 과정을 말한다. 분별있는 데이터분석이 되기 위

해서는 복잡한 데이터를 단순한 데이터로 정제시켜야 한다.

데이터 탐색 데이터를 완전하게 이해하기 위해서는 세부적인 데이터 특성을 유지하면서 데이터 전체의

특성을 파악할 수 있도록 데이터의 척도 또는 차원을 축소시킬 필요가 있다. 즉 비슷한 정보를 내포하고 있는 서로 유사한 변수들은 이를 통합하여 하나의 단일 변수로 병합되거나 이와 비슷하게 레코드 관점에서는 서로 비슷한 레코드들을 하나의 레코드 그룹으로 통합시킬 수 있는데, 이를 데이터 탐색이라 한다.

4

비즈니스 인텔리전스를 위한 데이터마이닝

2.2 데이터마이닝의 핵심 아이디어(계속)

데이터 시각화

데이터가 어떤 정보를 갖고 있는지를 보기 위한 데이터 탐색의

또 다른 기법으로서 그래프 분석을 뜻한다. 이 기법은 변수간의

관계를 보는 것뿐만 아니라 각각의 변수를 개별적으로 조사한다.

수치형 변수에 대해서는 그 변수값의 분포를 파악하고 극단치

(outliers)를 찾아내며, 분석업무와 관련된 다른 정보를 발견하기

위해 히스토그램(histogram)과 상자그림(boxplot)을 이용한다.

범주형 변수에 대해서는 차트(charts)와 원형 차트(pie charts)를

이용한다. 또한 변수간의 가능한 관계들, 관계유형 그리고 극단

치를 찾기 위해 한 쌍의 수치형 변수에 대한 산점도(scatter

plots)을 조사할 수 있다.

5

비즈니스 인텔리전스를 위한 데이터마이닝

2.3 교사학습과 비교사학습

교사(지도)학습 알고리즘

분류와 예측을 위해 사용되는 알고리즘

주요 출력변수의 값(예를 들어, 구매 또는 비구매)이 알려져 있어야 함

분류 또는 예측 알고리즘은 학습용 자료를 이용하여 예측변수와 출력변수간의 관계를 학습, 훈련함

학습용 자료로부터 학습된 후에는 다른 모형과 비교하여 얼마나 좋은 성과를 나타내는지를 살펴보기 위해 출력변수를 가진 또 다른 데이터 표본(검증용 자료)에 이 알고리즘을 적용함

여러 후보 모형들을 적용해 본 후, 최종 모형이 얼마나 좋은 성과를 가질 지를 예측하기 위해서는 최종 선택모형에서 사용될 출력변수를 포함한 제3의 표본(검증용 데이터)을 준비해 둘 필요가 있음.

그 다음에는 모형을 이용하여 출력값이 알려지지 않은 새로운 사례에 대하여 출력값을 분류 또는 예측함

교사학습 기법에는 단순 선형 회귀분석, 판별분석, 역전파 신경망 등이 있음

비교사(자율)학습 알고리즘(unsupervised learning algorithms)

예측 또는 분류를 위해 필요한 출력변수가 없는 경우에 사용되는 알고리즘

출력변수가 알려져 있는 사례들과 같은 학습과정은 존재하지 않는다.

자율학습 기법의 예로는 연관성규칙, 데이터 축소기법, 군집분석 등이 있다.

6

비즈니스 인텔리전스를 위한 데이터마이닝

2.4 데이터마이닝 단계

1단계: 데이터마이닝 프로젝트의 목적을 파악하거나 데이터마이닝 프로젝

트의 적용가능성을 파악한다.

2단계: 분석에서 사용될 데이터를 획득한다.

이 단계는 분석에 사용될 자료를 파악하기 위해 대량의 데이터베이스에서 무작

위로 표본을 추출하는 것을 말한다.

3단계: 데이터를 탐색, 정제, 그리고 전처리한다.

데이터가 타당한 조건에 있는지를 검증하는 것으로서, 결측치, 극단치를 처리하

고, 변수간의 관계를 산점도 등으로 검토하고, 변수에 대한 정의, 측정단위, 측정

기간 등에 대해 일관성을 체크한다.

4단계: 필요한 경우 데이터를 축소하고 지도학습의 경우 데이터를 학습용,

검증용, 평가용 데이터 집합으로 분할한다.

불필요한 변수를 제거하고, 변수를 변환하며(예: 연속형 -> 범주형), 새로운 변

수를 생성시키는 등의 작업을 포함한다. 각 변수가 무엇을 의미하는 지와 모형에

서 변수를 포함하는 것이 타당한 지 여부를 확인한다

7

비즈니스 인텔리전스를 위한 데이터마이닝

2.4 데이터마이닝 단계(계속)

5단계: 데이터마이닝의 분석유형(분류, 예측, 군집 등)을 결정한다.

이 단계는 제1단계에서의 일반적인 질문을 좀더 상세한 통계적 질문으로 변환하

는 것을 포함한다. 즉 데이터마이닝 프로젝트의 목적에 맞는 분석유형을 선택해야

한다.

6단계: 사용될 데이터마이닝 기법들(회귀분석, 인공신경망, 계층적 군집분

석 등)을 선택한다.

7단계: 알고리즘을 적용하여 데이터마이닝 작업을 수행한다.

이 단계는 전형적으로 반복적인 과정으로서 하나의 알고리즘내에서 다른 변수

또는 알고리즘의 선택조건 등을 달리하여 적용하는 등 다양한 변인들을 시도해

본다. 이러한 조건들이 적절한 경우 검증용 데이터를 이용한 알고리즘의 성과로

부터 피드백을 받아서 적절하게 개선되는 변인들을 사용하도록 한다.

8단계: 알고리즘의 결과를 해석한다.

적용하기에 가장 좋은 알고리즘을 선택하고 가능한 경우 모형이 얼마나 좋은 성

과를 갖는지에 대한 아이디어를 얻기 위해 평가용 데이터를 이용하여 최종 선택

한 알고리즘을 평가하는 과정을 포함한다.

8

비즈니스 인텔리전스를 위한 데이터마이닝

2.4 데이터마이닝 단계(계속)

9단계: 모형을 활용한다.

모형을 운영시스템과 통합시키고 이를 의사결정하고 실행하는데 실제 자료를 적용하여 운영하는 것. 예를 들어, 모형은 발생 가능한 고객의 구매목록에 적용하여 예측된 구매액이 10달러보다 큰 경우 우편발송 대상 고객에 포함시키는 행위를 실행할 수 있다.

이상의 데이터마이닝의 수행 단계들은 SAS가 개발한 방법론인 SEMMA의 각 단계와 유사하다.

표본추출(Sample): 데이터 집합에서 표본을 추출하고, 표본을 학습용, 검증용, 평가용 데이터 집합으로 분할한다.

탐색(Explore): 데이터 집합을 통계 및 그래프를 활용하여 조사한다.

수정(Modify): 변수를 변환하고 결측치를 대체한다.

모형화(Model): 예측모형을 적합시킨다(예: 회귀나무, 협업 필터링).

평가(Access): 검증용 데이터 집합을 이용하여 모형들을 비교한다.

SAS와 같은 데이터마이닝 업체인 SPSS의 클레멘타인은 이와 유사한 방법론인 CRISP-DM(CRoss-Industry Standard Process for Data Mining)을 갖고 있다.

9

비즈니스 인텔리전스를 위한 데이터마이닝

2.5 데이터마이닝 사전 단계

데이터 집합의 구성

데이터 집합에서는 일반적으로 변수들은 열기준으로 자료는 행기준으로 표기된다. 예를 들어 2.6절의 예제(보스톤 주택 데이터)에서 볼 수 있듯이 수많은 인구조사 표준 지역에 대해 14개 변수에 대한 값들이 기록되고 있다. 작업 시트의 각 행은 하나의 인구조사 표준 지역을 나타내는데, 첫 번째 지역은 일인당 범죄율(변수명: CRIM)이 0.00632이고, 2만5천 평방피트 이상을 차지하는 주거지역비율(변수명: ZN)이 18%인 것을 보여준다. 지도학습의 경우에 이 변수들 중에 하나는 출력변수가 되며, 일반적으로 목록의 처음 또는 마지막 열에 위치한다. 이 예제에서는 출력변수로서 주택가격(변수명: MEDV)이 마지막 열에 위치한다.

데이터베이스로부터 표본추출하기

대개의 경우 우리는 이용 가능한 모든 전체 자료보다 작은 크기의 자료를 이용하여 데이터마이닝작업을 수행하기를 원한다. 자료와 변수의 크기(개수)에 따라서 처리할 수 있는 크기에 대한 한계범위가 데이터마이닝 알고리즘에 따라 다르다. 이런 범위내에서도 많은 알고리즘은 좀더 작은 크기의 데이터 집합으로 좀더 빠르게 실행될 수 있을 것이다.

아래에서 보는 바와 같이 통계학적 관점에서는 대개 수백 개의 작은 자료로도 정확한 모형들을 구축할 수 있다. 따라서 일반적인 모형구축에서는 자료의 일부분만 표본추출한다.

10

비즈니스 인텔리전스를 위한 데이터마이닝

2.5 데이터마이닝 사전 단계 (계속)

희소 사건의 과대 표본추출

관심을 갖는 사건(예를 들어 메일링에 반응하여 제품을 구매한 고객정보)이 희소할 경우, 이 자료를 그대로 표본추출할 경우 그 사건(예를 들어 구매정보)의 수를 상대적으로 더 적어지기 때문에 해당 사건을 파악하기가 더 어려워진다. 따라서 이런 상황에서는 표본이 추가적으로 구매자의 자료를 충분히 가질 수 있도록 비구매자들과 비교해서 상대적으로 구매자들에게 더 많은 비중을 부여하는 표본추출과정이 필요하다

모형을 학습시키기 위해 적절한 반응자의 수 또는 성공 사례의 수를 확보하는 것은 전체 모형학습의 일부 과정에 불과하다. 이보다 더 중요한 요인은 오분류 비용이다.

보다 일반적으로는 가치가 있는 반응고객들을 더 많이 찾아내기 위해서 분석모형의 알고리즘은 상대적으로 더 많이 비반응고객을 반응고객으로 분류해야 한다. 이를 위해서 비반응고객을 반응고객으로 분류했을 때의 오분류 비용은 반응고객을 비반응고객으로 분류했을 때의 오분류 비용보다 상대적으로 낮은 값을 가져야 한다. 따라서 비대칭적인 오분류 비용을 모형에 반영하여 모형을 학습시키는 것이 필요하다.

11

비즈니스 인텔리전스를 위한 데이터마이닝

2.5 데이터마이닝 사전 단계 (계속)

데이터의 전처리와 정제과정

1) 변수의 유형

수치형 변수 또는 텍스트형(또는 문자형) 변수

연속형(대개 주어진 범위내의 실수로 간주함), 정수형(오직 정수값을 취함), 그리고 범주형(일정 범위의 값을 하나로 범주로 가정함)로 나뉜다.

범주형 변수는 수치형(1,2,3) 또는 텍스트형(현금결제, 비현금결제, 파산)으로 구분되며, 북 아메리카, 유럽, 그리고 아시아 등의 순위정보를 갖지 않는 범주형(명목형 변수)과 높은 값, 낮은 값, 0의 값 등으로 순위정보를 갖는 범주형(순위형 변수)으로 나뉜다.

2) 범주형 변수의 처리

범주형 변수의 경우 특별한 처리가 요구된다. 범주형 변수가 순위정보를 갖고 있다면(나이범주, 신용정도 등), 마치 연속형 변수인 것처럼 변수를 있는 그대로 사용한다. 범주의 수가 작을수록, 그리고 값의 증가분이 균등하지 않을수록 절차가 더 복잡한 문제가 될 것이지만 데이터마이닝에서는 대개 잘 처리된다.

범주형 변수가 명목형인 경우에는 이진분류의 더미변수로 분할된다.

12

비즈니스 인텔리전스를 위한 데이터마이닝

데이터의 전처리와 정제과정(계속)

3) 변수 선정

모형의 변수선정에 대해 말하자면, 변수가 많을수록 모형이 꼭 더 좋은 것은 아니라는 점이다. 다른 조건이 동일할 때 모형에 바람직한 특징은 단순성(parsimony) 또는 간결성(compactness)이다. 한 가지 이유는 변수를 많이 포함할수록 변수들간의 관계를 평가하기 위해 필요한 레코드의 수가 더 크게 증가한다는 것이다. 단일변수 X를 이용하여 X와 Y의 관계에 대한 대략적인 개념을 보여주기 위해서는 15개의 레코드로도 충분하다. 만약 Y와 15개 변수들, 간의 관계에 대한 정보를 알고 싶은 경우 15개의 레코드로는 불충분할 것이다(여기서 각 변수별 Y와의 추정된 관계는 오직 하나의 레코드의 정보가치를 평균값으로 사용하게 되며, 이로 인해서 추정치는 매우 신뢰할 수 없게 된다.).

4) 과적합화(Overfitting)

모형에 많은 변수를 포함시킬수록 데이터를 과적합화 시킬 위험은 더 커지게 된다. 과적합화는 무엇인가?

5) 얼마나 많은 변수와 데이터가 사용되어야 하는가?

통계학에서는 데이터 집합과 모형의 신뢰성을 달성하기 위해 얼마나 많은 레코드가 필요한지 어느 정도 알 수 있는 절차를 제공한다. 데이터마이닝의 요구사항이 비교적 상세하지 않으므로 대개의 경우 경험에 의한 법칙(rules of thumb)에 의존해서 데이터마이닝 작업을 수행한다. 한 가지 유용한 경험에 의한 법칙은 모든 예측변수는 각각 10개의 레코드를 가져야 한다는 것이다. 분류모형 절차에 대해 Delmaster and Hancock(2001, p. 68)가 사용한 또 다른 규칙은 최소한 6*m*p 개의 레코드를 가져야 한다는 것으로서 m은 출력변수의 집단의 수이고 p는 변수의 개수를 뜻한다.

13

2.5 데이터마이닝 사전 단계 (계속)

비즈니스 인텔리전스를 위한 데이터마이닝

<그림 2.1> 광고비와 매출액 데이터의 X-Y 산점도 <그림 2.2> 평활화된 X-Y 산점도

14

2.5 데이터마이닝 사전 단계 (계속)

비즈니스 인텔리전스를 위한 데이터마이닝

데이터의 전처리와 정제과정(계속) 6) 극단치(Outliers)

대부분의 데이터로부터 멀리 떨어진 값들은 극단치(Outliers)로 불리운다. 분석가들은 “평균으로부터 표준편차의 3배보다 더 멀리 떨어져 있는 값은 극단치에 해당한다.”와 같이 경험에 의한 법칙을 사용한다.

극단치가 적을 경우, 이를 제거하거나 최소, 최대값을 벗어나는 경우, 이 값들로 대체된다.

7) 결측치(Missing Values) 일반적으로 일부 레코드들은 결측치를 포함한다. 결측치를 갖는 레코드의

수가 적다면 그 레코드는 제외될 수 있다. 그러나 변수의 수가 많은 경우 결측치의 비율이 적다 하더라도 많은 레코드에 영향을 미칠 수 있다.

결측치를 갖는 레코드를 해결하는 하나의 대안은 변수의 결측치를 다른 레코드의 한 값 중에서 선택하여 대체값으로 교체하는 것이다.

8) 데이터의 정규화(표준화) 어떤 알고리즘의 경우에는 모형을 효과적으로 학습시키기 위해서 사전에 데

이터에 대한 정규화 작업을 필요로 한다. 데이터를 정규화 시키기 위해서는 각 데이터에서 평균값을 뺀 후, 그 값을 표준편차로 나눈다. 사실상 정규값은 평균으로부터 벗어난 표준편차의 수를 말하며, Z 점수(Z-Score)로 불리운다

15

2.5 데이터마이닝 사전 단계 (계속)

비즈니스 인텔리전스를 위한 데이터마이닝

분할 표본의 사용과 생성 학습용 집합(Training partition)

학습용 집합(training partition)은 일반적으로 가장 크기가 큰 집합으로서 분석대상인 다양한 모형을 구축하기 위해 사용되는 데이터를 말한다. 다수의 모형을 개발하기 위해 일반적으로 동일한 학습용 집합이 사용된다.

검증용 집합(Validation partition) 이 데이터 집합은 때때로 평가용 집합(test partition)으로 불리

며 모형을 비교하여 가장 좋은 모형을 선택하기 위해 각각의 모형의 성과를 검증하기 위해 사용된다. 어떤 알고리즘[예를 들어 분류와 회귀나무(CART)]에서는 모형을 조율하고 향상시키기 위해 자동화된 방식으로 검증용 집합(validation partition)을 사용할 수 있다.

평가용 집합(Test partition) 이 데이터 집합은 가끔씩 예비용 집합(holdout partition)으로

불리며 새로운 데이터를 가지고 선택된 모형의 성과를 평가할 필요가 있을 때 사용된다.

16

2.5 데이터마이닝 사전 단계 (계속)

비즈니스 인텔리전스를 위한 데이터마이닝 17

2.5 데이터마이닝 사전 단계 (계속)

비즈니스 인텔리전스를 위한 데이터마이닝

2.6 모형 구축: 선형 회귀분석을 이용한 예제

보스톤지역의 주택 데이터는 여러 개의 측정지표들(예를 들어 범죄율, 학생/교사 비율 등)을 포함한, 보스턴 인근지역의 정보를 담고 있다. 관심대상의 출력변수는 보스톤 인근지역의 주택가격의 중앙값이다.

변수명 변수 내역

CRIM 범죄율

ZN 25,000 평방피트를 초과하는 거주지역의 비율

INDUS 비소매 상업지역에 의해 점유되는 토지의 비율

CHAS 찰스강에 대한 더미변수 (강의 경계에 위치한 경우는 1이고, 그곳에 위치하지 않는 경우에는 0임.)

NOX 10ppm 당 농축 일산화 질소

RM 주택 1가구당 평균 방의 개수

AGE 1940년이전에 건축된 소유주택의 비율

DIS 5개의 보스톤 직업센터까지의 가중평균거리

RAD 방사형 도로까지의 접근성 지수

TAX 10,000달러당 재산세율

PTRATIO 자치시(town)별 학생/교사 비율

B 1000(Bk-0.63)2, 여기서 Bk는 자치시별 흑인의 비율을 말한다.

LSTAT 모집단의 하위계층의 비율(%)

MEDV 본인소유의 주택가격(중앙값, 단위: $1000)

18

비즈니스 인텔리전스를 위한 데이터마이닝

모형구축 프로세스

1. 목적을 설정한다.

데이터마이닝 프로젝트의 목적이 보스턴 인근지역의 주택가격(중앙값)을

예측하는 것이라고 가정한다.

2. 데이터를 획득한다.

이 예제에서는 보스톤 주택자료를 사용한다. 예제의 데이터 집합은 별도로

표본추출할 필요가 없을 만큼 데이터의 크기가 작다. 따라서 데이터 모두

를 사용할 수 있다.

3. 데이터를 탐색, 정제, 전처리한다.

모든 변수들을 파악하기 위해 변수들의 내역(예를 들어 범죄율, 주택 1가

구당 방의 개수 등)을 먼저 살펴보자. 이 변수내역들은 웹사이트

(http://lib.stat.cmu.edu/datasets/boston) 에서 제공되고 있으며

BonstonHousing.xls의 ‘변수내역(description)’ 시트에서 확인 가능하다.

19

2.6 모형 구축: 선형 회귀분석을 이용한 예제

비즈니스 인텔리전스를 위한 데이터마이닝

모형구축 프로세스

3. 데이터를 탐색, 정제, 전처리한다.

WEKA에서 보스톤 주택 데이터를 로드하게 되면 CHAS 변수는 Numeric(

연속형) 변수로 인식한다. 즉, csv 형식으로 된 파일을 WEKA에서 로드 시

킬 때, 정수로 된 Nominal(범주형)변수는 Numeric(연속형) 변수로 인식한

다. 따라서, 분석을 시작하기 전에 정수형 Nominal(범주형) 변수들의 타입

을 변경해 주어야 한다.

20

2.6 모형 구축: 선형 회귀분석을 이용한 예제

비즈니스 인텔리전스를 위한 데이터마이닝

모형구축 프로세스

3. 데이터를 탐색, 정제, 전처리한다.

Numeric 변수를 Nominal 변수로 전환하기

1. Filter의 Choose를 클릭

2. weka → unsupervised → attribute → NumericToNominal 선택

3. Choose 아이콘 오른쪽의 텍스트 상자를 더블 클릭

4. attributeIndices 항목의 초기값인 first-last를 전환하고자 하는 변수

(CHAS의 번호는 4)의 번호를 입력하고 OK를 클릭

5. Apply 클릭

21

2.6 모형 구축: 선형 회귀분석을 이용한 예제

비즈니스 인텔리전스를 위한 데이터마이닝

모형구축 프로세스

4. 데이터를 축소하고 데이터를 학습용, 검증용, 평가용 데이터 집합으

로 분할한다.

이 사례의 데이터 집합은 오직 13개의 데이터를 가지며, 데이터 축소는

필요하지 않다. 좀더 많은 변수들이 있다면 이 단계에서 다수의 유사

변수들을 좀더 작은 수의 변수들로 병합시키기 위해 주성분 분석

(principal components analysis)과 같은 변수축소기법을 적용할 수 있

다.

22

2.6 모형 구축: 선형 회귀분석을 이용한 예제

비즈니스 인텔리전스를 위한 데이터마이닝

<그림 2.6> 데이터의 분할 (데이터를 학습용 데이터 60%, 평가용 데이터를 40%로 한다)

23

2.6 모형 구축: 선형 회귀분석을 이용한 예제

비즈니스 인텔리전스를 위한 데이터마이닝

모형구축 프로세스

5. 데이터마이닝의 업무(분류, 예측, 군집 등)를 결정한다.

이미 언급한 본 사례의 업무는 13개의 예측변수를 사용하여 MEDV의 값을 예측

하는 것이다.

6. 사용될 데이터마이닝 기법(회귀분석, 인공신경망, 계층적 군집분석 등)을

선택한다.

데이터를 학습용과 평가용 집합으로 분할한 후, XLMiner와 학습용 데이터를 이

용하여 다중 선형 회귀모형을 구축할 수 있다. 여기서는 모든 다른 값들을 고려

하여 주택가격(중앙값)을 예측한다.

7. 데이터마이닝 작업에 수행될 알고리즘을 적용한다.

WEKA에서 Classify 탭을 선택하면 분류모형의 알고리즘을 선택할 수 있다.

Choose를 클릭하여 weka → classifiers → functions → LinearRegression 알

고리즘을 선택한다. MEDV를 출력(종속)변수로 선택하고 More options에서 출

력값을 설정한다. 알고리즘을 실행하게 되면 오른쪽 텍스트 상자에 결과가 출력

된다.

24

2.6 모형 구축: 선형 회귀분석을 이용한 예제

비즈니스 인텔리전스를 위한 데이터마이닝

<그림 2.7> 다중 선형 회귀모형을 위한 WEKA의 사용

<그림 2.8> 출력값 설정하기

25

2.6 모형 구축: 선형 회귀분석을 이용한 예제

비즈니스 인텔리전스를 위한 데이터마이닝 26

2.6 모형 구축: 선형 회귀분석을 이용한 예제

학습용 데이터를 통한 회귀식

비즈니스 인텔리전스를 위한 데이터마이닝 27

2.6 모형 구축: 선형 회귀분석을 이용한 예제

평가데이터의 예측

비즈니스 인텔리전스를 위한 데이터마이닝 28

2.6 모형 구축: 선형 회귀분석을 이용한 예제

평가데이터 요약 보고서

비즈니스 인텔리전스를 위한 데이터마이닝

모형구축 프로세스

8. 결과를 해석한다.

이 단계는 일반적으로 다른 예측알고리즘(예: 회귀나무)을 시도해 보고 어

떠한 오차결과를 보여주는 지를 살펴본다. 또한 다양한 모형들에 대해서

여러 가지 모형의 조건 설정사항들을 적용해 본다(예를 들어 검증용 데이

터에서 더 좋은 성과를 나타내는 축소된 변수군들을 선택하기 위해 다중

회귀모형의 최적 변수군(best subsets) 옵션을 사용할 수 있다). 최선의 모

형(전적으로 검증용 데이터에 대해 가장 낮은 오차를 가지면서 또한 성과

가 더 좋은 단순화된 모형)을 선택한 후에 이를 사용하여 새로운 데이터에

대한 출력 변수를 예측한다.

9. 모형을 활용한다.

최선의 모형이 선택된 후에 MEDV값이 알려지지 않은 레코드를 갖는 새로

운 데이터에 이 모형을 적용하여 MEDV를 예측한다.

29

2.6 모형 구축: 선형 회귀분석을 이용한 예제