enterprise miner 맛보기1 - kocwcontents.kocw.net/kocw/document/2014/korea/choijonghu/3.pdf ·...
TRANSCRIPT
≪ 3주차 ≫ Enterprise Miner 맛보기1
Getting Started with SAS Enterprise Miner1
빅데이터 분석을 위한
데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로
최종후, 강현철
- 2 -
차례
2.1 프로젝트 생성과 분석흐름도 작성
2.2 데이터 분할 : Data Partition 노드
2.3 모형 구축
2.4 모형 평가 : Model Comparison 노드
- 3 -
데이터마이닝 수행 방법롞
Sample
Extract the data necessary for
building a prediction model.
Explore
Investigate features of the data that
are relevant to the modeling process.
Modify
Change the form of the data to
enhance the performance of the models.
Model
Fit a logistic discriminant, neural network,
or decision tree to the data.
Assess
Determine how well the model generalizes.
Assess (of data)
Understand the context of
your data.
Access
Get to the data you need.
Analyze
Analyze your data.
Act
Make confident recommendations and present results clearly.
Automate
Customize a system to fit your needs.
5A / www.spss.com SEMMA / www.sas.com
- 4 -
데이터마이닝 수행 방법롞
CRoss Industry Standard Process of Data Mining
평가
모델링
데이터 준비
데이터 이해 비즈니스 이해
전개 Data
Enterprise Miner의 구성요소
- 5 -
분석흐름도
다이어그램 작업영역
프로젝트 패널
속성 패널
메뉴바, 단축 아이콘
도움말 패널
도구 팔레트
다이어그램 탐색 툴바
2.1.1 프로젝트 생성
- 6 -
2.1.2 SAS 라이브러리 등록
- 7 -
2.1.3 다이어그램 생성
- 8 -
2.1.4 데이터 소스 정의
- 9 -
데이터 소스 정의
데이터 소스 정의
2.1.5 변수들의 분포에 대한 탐색
- 12 -
데이터 소스: 탐색
- 13 -
변수 탐색: RESPOND
- 14 -
변수 탐색: AGE
- 15 -
2.1.6 분석흐름도 작성
- 16 -
다이어그램의 속성 패널
- 17 -
차례
2.1 프로젝트 생성과 분석흐름도 작성
2.2 데이터 분할 : Data Partition 노드
2.3 모형 구축
2.4 모형 평가 : Model Comparison 노드
데이터 분할(Data Partition) 노드의 속성 패널
- 18 -
데이터 분할 노드의 속성 패널
데이터를 분석용(train), 평가용(validation), 검증용(test)로 분할하여 분석용 데이터로 모형을 구축하고 평가용 또는 검증용 데이터를 이용하여 방법들간의 우월성을 비교.
데이터셋 할당 영역에서 분석용 40%, 평가용 30%, 검증용 30%로 설정되어 있는지를 확인.
난수초기값 필드에 1310 입력(초기값을 동일하게 유지하면 매번 같은 데이터로 분할).
데이터 분할(Data Partition)
분석용 데이터(Training Data):
데이터를 분석(학습)하여 모형을 만드는 데 직접적으로 사용되는 데이터.
평가용 데이터(Validation Data):
모형의 성능을 감독하고 개선하기 위하여 간접적으로 사용되는 데이터.
검증용 데이터(Test Data):
모형의 생성에 전혀 사용되지 않으며, 일반화의 검토를 위해 남겨 두는 데이터.
- 19 -
과대적합
과소적합
- 20 -
표본추출
단순임의추출(Simple Random Sampling)
비례배분(Proportional Allocation)
균등배분(Equal Allocation)
0
1
- 21 -
과대적합(Overfitting)
Training Data Validation Data
90.5%
78.5% 83.0%
75.5%
과대적합
좋은적합
- 22 -
차례
2.1 프로젝트 생성과 분석흐름도 작성
2.2 데이터 분할 : Data Partition 노드
2.3 모형 구축
2.4 모형 평가 : Model Comparison 노드
- 23 -
의사결정트리 노드와 회귀 노드의 속성 패널
의사결정트리(Decision Tree) 노드 회귀(Regression) 노드
- 24 -
차례
2.1 프로젝트 생성과 분석흐름도 작성
2.2 데이터 분할 : Data Partition 노드
2.3 모형 구축
2.4 모형 평가 : Model Comparison 노드
모델비교(Model Comparison) 노드의 실행
- 25 -
모델 비교 노드의 속성 패널
모델비교(Model Comparison) - 결과
- 26 -
모형평가 결과의 요약
- 27 -