enterprise miner 맛보기1 - kocwcontents.kocw.net/kocw/document/2014/korea/choijonghu/3.pdf ·...

27
≪ 3주차 ≫ Enterprise Miner 맛보기1 Getting Started with SAS Enterprise Miner1 빅데이터 분석을 위한 데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로 최종후, 강현철

Upload: others

Post on 08-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

≪ 3주차 ≫ Enterprise Miner 맛보기1

Getting Started with SAS Enterprise Miner1

빅데이터 분석을 위한

데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

Page 2: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 2 -

차례

2.1 프로젝트 생성과 분석흐름도 작성

2.2 데이터 분할 : Data Partition 노드

2.3 모형 구축

2.4 모형 평가 : Model Comparison 노드

Page 3: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 3 -

데이터마이닝 수행 방법롞

Sample

Extract the data necessary for

building a prediction model.

Explore

Investigate features of the data that

are relevant to the modeling process.

Modify

Change the form of the data to

enhance the performance of the models.

Model

Fit a logistic discriminant, neural network,

or decision tree to the data.

Assess

Determine how well the model generalizes.

Assess (of data)

Understand the context of

your data.

Access

Get to the data you need.

Analyze

Analyze your data.

Act

Make confident recommendations and present results clearly.

Automate

Customize a system to fit your needs.

5A / www.spss.com SEMMA / www.sas.com

Page 4: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 4 -

데이터마이닝 수행 방법롞

CRoss Industry Standard Process of Data Mining

평가

모델링

데이터 준비

데이터 이해 비즈니스 이해

전개 Data

Page 5: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

Enterprise Miner의 구성요소

- 5 -

분석흐름도

다이어그램 작업영역

프로젝트 패널

속성 패널

메뉴바, 단축 아이콘

도움말 패널

도구 팔레트

다이어그램 탐색 툴바

Page 6: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

2.1.1 프로젝트 생성

- 6 -

Page 7: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

2.1.2 SAS 라이브러리 등록

- 7 -

Page 8: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

2.1.3 다이어그램 생성

- 8 -

Page 9: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

2.1.4 데이터 소스 정의

- 9 -

Page 10: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

데이터 소스 정의

Page 11: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

데이터 소스 정의

Page 12: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

2.1.5 변수들의 분포에 대한 탐색

- 12 -

Page 13: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

데이터 소스: 탐색

- 13 -

Page 14: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

변수 탐색: RESPOND

- 14 -

Page 15: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

변수 탐색: AGE

- 15 -

Page 16: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

2.1.6 분석흐름도 작성

- 16 -

다이어그램의 속성 패널

Page 17: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 17 -

차례

2.1 프로젝트 생성과 분석흐름도 작성

2.2 데이터 분할 : Data Partition 노드

2.3 모형 구축

2.4 모형 평가 : Model Comparison 노드

Page 18: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

데이터 분할(Data Partition) 노드의 속성 패널

- 18 -

데이터 분할 노드의 속성 패널

데이터를 분석용(train), 평가용(validation), 검증용(test)로 분할하여 분석용 데이터로 모형을 구축하고 평가용 또는 검증용 데이터를 이용하여 방법들간의 우월성을 비교.

데이터셋 할당 영역에서 분석용 40%, 평가용 30%, 검증용 30%로 설정되어 있는지를 확인.

난수초기값 필드에 1310 입력(초기값을 동일하게 유지하면 매번 같은 데이터로 분할).

Page 19: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

데이터 분할(Data Partition)

분석용 데이터(Training Data):

데이터를 분석(학습)하여 모형을 만드는 데 직접적으로 사용되는 데이터.

평가용 데이터(Validation Data):

모형의 성능을 감독하고 개선하기 위하여 간접적으로 사용되는 데이터.

검증용 데이터(Test Data):

모형의 생성에 전혀 사용되지 않으며, 일반화의 검토를 위해 남겨 두는 데이터.

- 19 -

과대적합

과소적합

Page 20: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 20 -

표본추출

단순임의추출(Simple Random Sampling)

비례배분(Proportional Allocation)

균등배분(Equal Allocation)

0

1

Page 21: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 21 -

과대적합(Overfitting)

Training Data Validation Data

90.5%

78.5% 83.0%

75.5%

과대적합

좋은적합

Page 22: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 22 -

차례

2.1 프로젝트 생성과 분석흐름도 작성

2.2 데이터 분할 : Data Partition 노드

2.3 모형 구축

2.4 모형 평가 : Model Comparison 노드

Page 23: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 23 -

의사결정트리 노드와 회귀 노드의 속성 패널

의사결정트리(Decision Tree) 노드 회귀(Regression) 노드

Page 24: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

- 24 -

차례

2.1 프로젝트 생성과 분석흐름도 작성

2.2 데이터 분할 : Data Partition 노드

2.3 모형 구축

2.4 모형 평가 : Model Comparison 노드

Page 25: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

모델비교(Model Comparison) 노드의 실행

- 25 -

모델 비교 노드의 속성 패널

Page 26: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

모델비교(Model Comparison) - 결과

- 26 -

Page 27: Enterprise Miner 맛보기1 - KOCWcontents.kocw.net/KOCW/document/2014/korea/choijonghu/3.pdf · 2016-09-09 · Enterprise Miner 맛보기1 Getting ... tandard P rocess of D ata M

모형평가 결과의 요약

- 27 -