enterprise minor...

E-Minor ▼ 1

1. DM 소프트웨어 (SAS E-minor 중심)

1.1 SAS

SAS 의 역사는 미국 North Carolina주 Raleigh에 있는 NCSU(North Carolina State University) 통계학과 대학원 과정 학생들이 주축이 되어 Statistical

Analysis System을 완성하던 1966년으로 거슬러 올라간다. 1972년 SAS72가 각 대학에

Shareware 버전으로 제공되어 사용되다가, 1976년 Cary (NCSU에서 15분 거리의 도시)

에 SAS Institute를 설립하면서 SAS 제품을 판매되기 시작했다. 초기에는 자료를 검색

하고 통계 분석 및 해석을 위한 소프트웨어였으나 제품이 개발되면서 통합 응용패키지

(SAS 약어 바꿈: Strategic Application System)로 발전하였다. 현재 SAS는 전세계 118개

국 (미국, 57개국 지사), 40,000 업체(기업, 정부, 연구소, 학교)에서 사용되고 있으며,

Fortune 500 기업 중 90%가 SAS를 사용하고 있다. 현재 SAS version 8이 주로 사용

(version 9 시험판 출시)

주요기능 제 품 명

데이터 추출/변형 SAS/ACCESS, BASE SAS

데이터 전송 SAS/CONNECT, SAS/SHARE(SHARE*NET)

다차원 OLAP용 데이터 서버 SAS/MDDB Server

대용량 DSS 서버 Scalable Performance, Data Server

QUERY & REPORTING Enterprise Reporter

데이터 조회 및 관리 SAS/FSP

데이터 추출 및 메타데이터관리 SAS/Warehouse Administrator

데이터마이닝 Enterprise Miner

분석 지원 모듈

SAS/STAT, SAS/IML, SAS/OR,

SAS/ETS, SAS/INSIGHT,

SAS/LAB, SAS/CALC,

시각화 SAS/GRAPH, SAS/SPECTRAVIEW

대화형 어플리케이션 개발 툴 SAS/AF

Enterprise Minor (E-Minor)

E-Minor ▼ 2

웹 어플리케이션 개발 SAS/IntrNet

IT 서비스 통합 평가 툴 IT SERVICE VISION

통합 재무 재표 관리 CFO VISION

지리정보시스템 구축 SAS/GIS

편리한 사용자 인터페이스 지원 SAS/ASSIST

통계적 공정 관리 SAS/QC

품질관리를 위한 실험계획 도구 JMP

1.2 SAS E-minor

Data Mining 도구로 SAS는 E-Minor를 제공한다.

특징

(1)사용자는 SAS/Enterprise Miner 가 기본적으로 제공하는 기능별 작업 툴을 작업의

순서와 동일하게 늘어 놓음으로써 PFD(Process Flow Diagram)를 구성하고 작업의

전체 과정을 한 화면에서 제어 /관리 할 수 있다. 다음은 PDF 예제이다.

(2)기본적으로 제공되는 작업 툴 이외의 별도작업이 필요한 경우 사용자 정의 프로그

램을 부분적으로 삽입할 수 있다.

(3)Neural Networks, Decision Trees, Regression, Forecasting 등의 전통적인 통계분석

방법뿐 아니라 최근에 등장한 다양한 Mining 기법을 제공한다.

E-Minor ▼ 3

(4)Mining 과정에서 구축된 두 개 이상의 모형을 그래프화하여 시각적으로 비교, 평가

할 수 있는 Lift Chart, ROI Chart, Profit Chart 를 제공한다. 이를 이용하여, 구축한

모형 중 성능이 가장 좋은 모형을 손쉽게 선택할 수 있다.

(5)대용량 데이터 모형화(Modeling)을 위한 원격지 수행(Remote Processing) 가능

(6)다양한 DB(DB2, Informix, Oracle, Sybase, DB2 등)를 SAS/ACCESS,

SAS/Warehouse Administrator, SAS의 Query Window를 통하여 추출, 사용 가능

1.3 DM 흐름도에서 SAS 사용 실례

SEMMA

SAS에서는 데이터 마이닝을 대량의 데이터에서 알려지지 않은, 비즈니스에 유용한

데이터의 패턴을 선택(selecting), 탐색(exploring), 변형(modifying), 모형화(modeling)하는

과정이라 정의한다. 데이터 마이닝은 다양한 산업에 적용되어 사기검출(fraud detection),

가계 분석(households), (고객 유지)customer retention, (고객 니탈)attrition, 데이터베이스

마케팅, 시장 분석, 위험 분석(risk analysis), (유사 그룹 분석)affinity analysis, 고객 만족

도, 파산 예측, 포트폴리오(port-folio) 분석 등과 같은 분야의 비즈니스 문제에 대한 방

법을 제공한다. Enterprise Miner는 데이터 마이닝에 대한 모든 비즈니스 솔루션을 제공

하는 통합적 상품이다. 아래의 데이터 마이닝 프로세스 SEMMA에 관해 Graphical user

interface(GUI) 환경으로 친근하게 접근할 수 있게 한다.

SEMMA에서 Assess과정을 마친 후에는, 선택된 모형에 대해 target을 포함할 수도

포함하지 않을 수도 있는 새로운 데이터를 넣고 scoring formula를 적용해 보아야 한다.

새로운 데이터의 점수화는 모형 training 과정에서는 가능하지 않지만, 대부분의 데이터

마이닝의 마지막 과정이다.

SEMMA 데이터 마이닝 프로세스는 flow diagram 프로세서에서 얻어지며 변형과 저장

이 가능하다. 통계적 경험이 거의 없는 경영 기술자가 쉽게 사용할 수 있도록 GUI 환

E-Minor ▼ 4

경으로 만들어졌으며, 계량 분석 전문가는 분석프로세스를 조정할 수 있도록 구성하였

다.

Enterprise Miner는 일반 사용자가 쉽게 다변량 모형을 만들고 비교할 수 있도록

sophisticated 분석도구의 집합을 포함한다. Statistical tools은 군집분석, self-organizing

maps/Kohonen, 변수 선택, trees, linear and logistic regression, Neural Network 등의 포함

한다. Data preparation tools은 outlier detection, 변수변환, 데이터 imputation, 임의추출,

train, test, validate Dataset으로의 데이터 셋의 분리 등을 포함한다. Advanced

visualization tools는 다량의 데이터를 빠르고 쉽게 그래프로 모형의 결과를 비교할 수

있도록 다차원 히스토그램으로 볼 수 있도록 한다.

•Sample: 데이터를 하나 또는 그 이상의 데이터 테이블에서 추출한다. 표본들은 유

의한 정보를 포함할 수 있도록 충분히 커야 한다.

•Explore: 데이터를 이해하고 아이디어를 얻기 위하여 기대되는 관계, 기대되지 않는

경향, anomalies를 살펴보며 데이터를 탐색한다.

•Modify: 모형을 선택하기 위해 변수들을 만들고 선택, 변형한다.

•Model: 분석도구를 이용하여 데이터의 믿을만한 예측 값을 생성하는 데이터의 조합

을 찾아 데이터를 모형화한다.

•Assess: 데이터 마이닝 프로세스에 대한 유용성과 신뢰성을 통해 데이터를 검토한

다.

E-Minor ▼ 5

분석과정에서 위의 모든 과정을 모두 포함하지 않을 수도 있으며 만족할 만한 결과

를 얻기 위해 위의 과정을 여러 번 반복할 수도 있다. SEMMA에서 Assess과정을 마친

후 선택된 모형에 대해 target을 포함할 수도 포함하지 않을 수도 있는 새로운 데이터

를 넣고 scoring formula를 적용해 보아야 한다. 새로운 데이터의 점수화는 모형 training

과정에서는 가능하지 않지만 대부분의 데이터 마이닝의 마지막 과정이다.

SEMMA 데이터 마이닝 프로세스는 flow diagram 프로세서에서 얻어지며 변형과 저장

이 가능하다. 통계적 경험이 거의 없는 경영 기술자가 쉽게 사용할 수 있도록 GUI 환

경으로 만들어져 있다. Enterprise Miner는 일반 사용자가 쉽게 다변량 모형을 사용하고

비교할 수 있도록 특화된 분석 도구를 제공한다. 군집분석, self-organizing maps, 변수

선택, trees, linear and logistic regression, Neural network 등이 포함한다. Data preparation

tools은 outlier detection, 변수변환, 데이터 imputation, 임의추출, train, test, validate,

subset 만들기 등을 포함한다. Advanced visualization tools는 다량의 데이터를 빠르고

쉽게 그래프로 모형의 결과를 비교할 수 있도록 다차원 그래프를 제공한다.

E-Minor ▼ 6

E-Minor ▼ 7

E-Minor ▼ 8

1.4 설치 및 시작하기

SAS 설치 시 “전 제품”을 설치를 선택하더라도 “E-Minor”는 포함되지 않으므로 사용

자 설치에 가서 “E-minor”을 선택하여야 한다. 제품이 설치되더라도 License가 없는 제

품은 실행이 되지 않는다. SAS는 Module 별로 라이센스를 따로 판매한다. 현재 우리

학교에서는 SAS/BASE, GRAPH, STAT만 라이센스를 갖고 있어 학교 갱신 코드로는

SAS 기능 중 일부만 사용할 수 있다. 전 제품을 사용할 수 있는 갱신 코드는 내 홈페

이지에서 올려져 있다.

SAS가 설치되면 다음과 같이 E-Minor를 시작하면 된다.

E-Minor ▼ 9

2. E-Minor 개요

2.1 PFD(Project Flow Diagram) Logic

Node 의 기능

Node는 E-Minor의 Mining 각 단계를 (Sample, Explore, Modify, Model, Assess) 담당하

는 기능 적절한 node를 사용하여 PFD 작성한다.

Node 종류

(1)Sample Node 자료 선택 및 모델 평가를 위해 자료 분할

Input Data Source / Sampling / Data Partition

(2)Explore Node 자료 탐색

Distribution / Multi-plot / Insight / Variable Selection / Association

(3)Modify Node 자료 속성 변형 및 변수 군집

Data Attributes / Transformation / Filter Outliers / Data Replacement / Clustering

(4)Modify Node 모형화

Regression / Decision Tree / Neural Network / User Defined Model / Ensemble

(5)Assess Node 평가

Assessment / Score / Reporter

(6)Utility Node

Group Processing / Data Mining Database / SAS code / Control point / Sub-diagram

E-Minor ▼ 10

2.2 SASUSER의 CLASS 예제 자료

(1)새로운 프로젝트를 만든다.

위와 같이 Project를 만들면 C:\Temp\class 폴더 아래 다음과 같이 폴더와 파일이 생

성된다.

(2)분석할 데이터 불러오기를 실시한다.

우선 Input Data Source 아이콘을 끌어다가 Diagram Workshop 화면 창에 놓는다.

E-Minor ▼ 11

자료 소스를 지정하기 위하여 Input Data Source Node 선택한 후 오른쪽 마우스 Pop-

up 메뉴를 선택하여 Open을 선택한다.

자료가 저장된 Library와 SAS data 이름을 지정한다.

데이터를 성공적으로 읽어 오면 아래와 같이 데이터 내 변수(Variable) 속성과 각 변

수에 대한 기초 통계량이 나타난다.

WEIGHT를 종속 변수로 사용하여 회귀 분석을 실시하려면 변수 역할(Model Role)을

바꾸어 주어야 한다. WEIGHT 변수의 input에 마우스를 놓고 오른쪽 마우스를 누르면

팝업 메뉴가 나타난다. 종속 변수는 “target”을 지정해 주면 된다.

E-Minor ▼ 12

“View Distribution of Weight” 보면 변수에 대한 히스토그램이 그려진다.

Interval Variables 폴더에는 측정형 변수에 대한 기초통계량이 Class Variables 폴더에

는 범주형 변수에 대한 기초 통계량이 요약되어 있다.

설정이 끝나면 화면 오른쪽 부분 에서 을 눌러 창을 닫으면 다음 화면이 나타난다.

예(Y) 누르면 “INPUT DATA SOURCE” node가 Diagram Workshop 화면 창에 나타난다.

Regression (회귀 분석)을 하기 위하여 (1)Regression node를 Diagram Workshop 화면에

끌어다 놓고 (2)두 node를 연결한다. node 연결은 시작 node에 마우스를 올려 놓고 마

우스를 누른 상태로 종료 node에 연결하면 화살표가 생긴다. 잘되지 않으면 시작 node

E-Minor ▼ 13

에서 오른쪽 마우스를 눌러 나타난 팝업 메뉴에서 을 선택하여 연결하면

된다.

회귀분석 node의 환경을 설정하기 위하여 Regression node에서 오른쪽 마우스 버튼

을 눌러 Open 메뉴를 선택한다.

회귀 모형에 포함되지 않을 변수를 제외한다. (예를 들어 몸무게를 종속 변수, 성별,

키를 설명변수로 사용할 경우 age 변수는 제외하여야 한다.) AGE 변수에서 오른쪽 마

우스 버튼을 눌러 SET Status 메뉴를 선택하고 “don’t use” 선택한다.

Model Options 폴더에서는 모형 관련 옵션을 Selection Method 폴더에서는 변수 선택

방법 등을 설정할 수 있다.

설정이 끝나면 화면의 오른쪽 부분 에서 을 눌러 창을 닫으면 설정 변경 확인 창이 나타나고 예(Y)를 선택하면 Model 이름(name)과 내용(description)을 적는 화

면이 나타난다.

E-Minor ▼ 14

Regression node 설정이 끝나면 RUN을 선택하여 회귀 분석을 실시한다.

실행(RUN)이 시작되면 실행되는 node 초록색 박스가 나타난다.

실행이 완료되면 결과(results)를 저장할 것인가를 묻는 화면이 나타나면 YES를 선택

한다.

Estimates 폴더에는 회귀 계수 추정치와 회귀 계수 상대적 중요도(표준화 회귀 계수

와 동일)가 나타난다.

E-Minor ▼ 15

PLOT 폴더에는 회귀 분석 관련 산점도가 있다. 다음은 예측치(predicted)와 잔차

(residual)의 산점도를 선택한 예이다.

E-Minor ▼ 16

Statistics 폴더에는 회귀 분석 관련 통계량이 출력되어 있다.

CODE 폴더에는 SAS 프로그램이 출력되어 있고 에는 SAS의 로그 윈도우와 OUTPUT 윈도우가 출력되어 있다.

프로젝트 분석 작업이 끝나면 이를 다음 메뉴에서 저장하면 된다.

“July23” 프로젝트를 위하여 만들었던 폴더에는 아래와 같이 폴더가 자동 생성되고

분석 관련 결과들이 각 폴더에 저장된다. July23.DMD를 누르면 July23 프로젝트가 자동

실행된다.

E-Minor ▼ 17

2.3 Project

2.3.1 PFD Logic

프로젝트(project)는 Enterprise process flow diagrams와 information에 관한 것의 집합

이다. 프로젝트는 분석하고자 하는 자료의 종류에 따라 다르므로 분석하고자 하는 데이

터 마이닝 항목에 따라 프로젝트를 따로 만드는 것이 좋은 방법이다. 사용하는 기계에

서 데이터가 국지적으로 사용될 가능성이 높으면 local 프로젝트를 사용하는 것이 유용

하다. remote host에서 데이터베이스를 접근할 필요가 있거나 더 힘있는 remote host를

사용하기 위해서 데이터 intensive processing을 나눠서 쓸 필요가 있다면 클라이언트-서

버 프로젝트를 만들어야 한다.

Local과 클라이언트/서버 프로젝트가 모두 shareable 하므로 다중 사용자가 동시에

같은 프로젝트에서 사용이 가능하다. 프로젝트가 shareable 하기 위해서는 모든 부분이

같은 클라이언트 파일에 접근해 있어야 한다. Server.cfg 클라이언트 파일은 서버와

remote 서버를 가리키고 다중 사용자 들이 같은 프로젝트를 클라이언트와 서버에서 사

용할 수 있게 한다.

프로젝트를 공유하더라도, 동시에 한 사람 만이 diagram을 열 수 있다. 각각의

diagram은 공유하는 다른 사람들과의 충돌 없이 diagram을 만들고 편집하고 지울 수

있다. 노드 복사와 한 사람에 의한 target profile은 다른 사용자들과 함께 공유된다.

프로젝트 시작이나 끝마침 코드, Warehouse 패스 또는 서버 프로파일을 갱신은

project를 이용하는 한 사람에 의해서만 이루어질 수 있다. Enterprise Miner 클라이언트

서버 project에서 서버 프로파일은 프로젝트에 저장되고, 모든 사람들이 공유할 수 있다.

이로 인해 공유하는 프로젝트 환경에서 profile 유지가 쉬어진다.

2.3.2 프로젝트 Directory Structure

각 프로젝트에 대해 Enterprise Miner는 자동적으로 다음과 같은 구조를 같은

subdirectory들을 만든다.

NOTE: 프로젝트에 대해 Window Explorer 를 열려면, Enterprise 창의 프로젝트

Navigator 프로젝트 아이콘에서 오른쪽 마우스를 누르고 Explorer pop-up 메뉴 항목

을 선택한다.

E-Minor ▼ 18

프로젝트를 만들 때 Enterprise Miner는 자동적으로 EMDATA 와 EMPROJ 라이브러리

를 EMDATA와 EMPROJ subdirectory에 대해 할당한다. 사전에 정의된 디렉터리 구조를

사용하고 프로젝트의 위치에서 모든 프로젝트를 저장하면(the root 프로젝트 directory),

local 프로젝트를 만드는 것이 간단해진다. 각각의 프로젝트는 자신을 포함하므로, 하나

의 프로젝트를 다른 위치에 복사하는데 windows explorer와 같은 external application을

사용할 수 있다. Enterprise Miner는 프로젝트의 수에 제한이 없고 한 프로젝트 당

100.000 개의 diagram이 가능하다.

2.3.3 프로젝트 Location

프로젝트 location 디렉터리에는 프로젝트 정의하는 .dmp 파일과, 프로젝트 내에서 다

양한 diagram을 나타내는 .dmd 파일이 있다. .dmp 파일은 프로젝트의 이름을 정의한다.

이 프로젝트는 My diagram.dmd라는 diagram을 갖고 있다.

EMDATA Directory

이 디렉터리에는 프로젝트에서 다양한 process flow를 만들 때 만들어지는 많은 잠재

파일들이 있다. 클라이언트/서버 모드에서 프로젝트를 기동시킬 때는 파일들이 서버 데

이터 디렉터리에 만들어진다. 그러나, remote location에서 얻어진 샘플들은 local 디렉터

리에 저장되어 서버를 사용할 수 없을 때 계속 사용이 가능하다.

EMPROJ Directory

프로젝트 파일은 각각의 diagram과 노드, target profiler에 대한 정보를 가지고 있고,

다양한 registries이 EMPROJ에 저장된다. 또한, 동시에 같은 diagram이 열리는 것을 막

기 위해 diagram이 열릴 때 마다 diagram lock(.lck) 파일들이 여기에 저장된다. Lock 파

일의 이름은 .lck extention을 제외하고는 diagram의 이름에 따라 항상 같다. 예를 들면

My diagram.dmd는 My diagram.lck 파일을 만들게 된다. USERS subdirectory는 현재 프

로젝트를 공유하는 사용자들을 나타내는 파일을 갖고 있다.

E-Minor ▼ 19

REPORT Directory

HTML 리포트는 디렉터리에 저장되는 Reporter 노드에 의해 만들어진다. 각각의 리포

트는 자신의 subdirectory를 지닌다. subdirectory의 이름은 리포트의 이름을 결정한다.

2.3.4 Client/Sever 프로젝트 만들기

(1)File pull-down 메뉴를 선택하시오. New 프로젝트 만들어진 새로운 프로젝트 창

은 다음과 같다 :

(2)프로젝트와 name에 대해서는 클라이언트 location을 주고 클라이언트/서버 프로젝

트 체크박스를 누른다. 위치를 적으려면 location field에 path를 적는다.

E-Minor ▼ 20

(3)create new 프로젝트 창에 있는 [create] 버튼을 누른다. 새로운 Enterprise Miner

프로젝트 - 클라이언트/서버 settings 창은 다음과 같다.

(4)이미 있는 server 프로파일을 정하거나 새로운 것을 만드시오. 서버 프로파일을 적

기 위해서는, [browse] 버튼을 이용하여 찾고 서버 프로파일이나 서버 프로파일

path 의 이름을 기입한다. 새로운 서버 프로파일을 만들려면 [new] 버튼을 누르고

defining a New Server Profile의 순서를 따른다.

(5)서버 프로파일을 정의하면 [finish] 버튼을 눌러서 클라이언트/서버 프로젝트를 선택

한다. NOTE: 선택된 (또는 새로운) 서버 파일은 새로운 프로젝트 location에 복사되

고 EMPROJ subfolder에 server.cfg로 저장된다.

(6)서버에 연결하고자 하면 메시지 창이 prompting 을 열어야 한다. 서버에 연결하려

면 [YES]버튼을 선택하고 프로젝트를 local 로 연결하려면 [NO] 버튼을 선택한다.

프로젝트는 자동적으로 SAS Enterprise Miner 창에서 활성 프로젝트로 로드된다. 창

의 오른쪽 아래에 있는 연결상태 지표는 프로젝트가 서버에 연결되었는지의 여부

를 나타낸다.

E-Minor ▼ 21

서버에의 연결을 끊으려면 프로젝트 Navigator의 프로젝트 폴더 안에서 오른쪽 마우

스를 누르고 pop-up 메뉴에서 disconnect from server를 선택한다. 메시지 창에서 [YES]

버튼을 누른다.

서버에 연결하려면, 프로젝트 Navigator의 프로젝트 폴더 안에서 오른쪽 마우스를 누

르고 pop-up 메뉴 항목에서 Connect to server를 선택한다. 또는 connection status

indicator를 두 번 눌러도 된다.

Enterprise Miner를 시작하는 application을 가지고 있지만 미리 연결하지 않았으면,

EMPROJ 서브 디렉토리안의 server.cfg 파일을 편집해서 연결이 기존 연결이 가능하도

록 할 수도 있다. CONID 옵션으로 기존의 연결에 대한 conid value를 입력한다. 예를

들자면, application이 conid=myhost를 이용해서 서버에 연결되어있다면 server.cfg 파일

에서 CONID 옵션에 대한 값으로 입력할 수 있다. 연결이 이미 되어있는 상태에서 프

로젝트를 열면 연결이 안될 것이다. 마찬가지로 Enterprise Miner의 연결이 끊어지지 않

는다.

Using a Server Profile in Batch Mode to connect to a Server

SAS program edit창에서 다음의 코드를 실행하여 배치 모드에 있는 서버 프로파일을

이용하여 서버에 연결할 수도 있다.

%let profile=c:\profiles\my server.srv;

proc display c=sashelp.dmcon.connect.scl;

run;

/*NOTE: 이 코드에서는 서버 프로파일 이름이 my.server.srv 이고 c:\profiles 에 저장

된다.*/

E-Minor ▼ 22

Explorer NODE (탐색 노드)

데이터를 탐색할 수 있는 부분으로 이 단계에서는 데이터의 분포를 시각적으로 확인

하고 변수 상호간의 관계를 살펴볼 수 있다. 다음은 탐색 노드를 구성하는 하위 노드의

일부이다.

2.4 예제 데이터

E-Minor ▼ 23

2.4.1 Distribution Explorer nodes

변수의 분포를 시각화 하여 보여 준다. 그리고 산점도와 3차원 그래프를 그려 변수들

간의 관계를 볼 수 있다.

Distribution Explorer node 열기(OPEN)

아이콘을 두 번 클릭하면 다음 옵션 창이 열린다.

TAB: 사용되는 자료를 보여주고 자료의 테이블을 볼 수 있음

Tab: 자료테이블을 나타내주며 변수이름, 지정된 축, 변수의 사용유무, 변수타입, 변수 등을 나타내 주고 있음. 처음에 창이 열리면 target 변수가 default로 X축으

로 지정되어 있다. 지정하고자 하는 변수를 선택하고 Axis열에서 마우스 오른쪽을 클릭

Set Axis 선택 X, Y, Z, <Clear> 중에 하나를 선택하면 된다.

E-Minor ▼ 24

X Axis, Y Axis, Z Axis Tab: 각 축에 지정된 변수에 대하여 막대그래프, 히스토그램을

보여줌

Distribution Explorer node 실행(RUN)

각 축에 변수를 지정이 끝나면 이를 다음과 같이 실행하면 된다.

다음은 X-축에 LOAN 변수 Y-축에 MORTDUE 변수를 지정한 후 실행한 결과이다. 그

래프를 원하는 형태로 조절할 수 있도록 팝업 메뉴를 제공한다. 그래프에 마우스를 놓

고 오른쪽 마우스를 눌러 보라.

아이콘 위에 마우스를 놓고 오른쪽 마우스를 클릭한다.

E-Minor ▼ 25

2.4.2 Multi-plot nodes

목표변수가 이산형인 경우에 막대도표와 목표변수가 연속형인 경우에 산점도를 이용

하여 목표변수와 입력변수와의 관계를 다양하게 살펴볼 수 있는 노드로 막대그래프와

산점도를 그릴 수 있게 구성되어 있음. 노드를 설정하는 방법은 마우스로 끌어다 놓으

면 된다.

Multi-plot nodes 열기(OPEN)

Multi-plot 노드 아이콘을 더블 클릭하거나 오른쪽 마우스를 눌러 OPEN을 선택하면

된다.

Training은 모형설정, Validation은 각 모형에 평가, Test는 모형들간 평가를 위해 사용

되는 데이터로 DATA PARTITION 노드에서 하게 된다. 오른쪽 마우스 버튼을 눌러 팝업

메뉴가 나타나면 그래프 메뉴를 설정한다. Bar 차트는 분류형 변수(interval 제외한 모든

E-Minor ▼ 26

변수)만 출력된다.

Multi-plot nodes 실행(RUN)

일단 실행되면 그래프 하나만 보인다. 오른쪽 마우스 버튼을 눌러 팝업 창이 나타나

면 다음과 같이 설정한다.

E-Minor ▼ 27

그래프가 계속 나타난다.

원하는 그래프에서 마우스를 클릭

하면 멈춘다.

위의 것은 산점도이고 왼쪽은 바

차트이다. 바 차트는 목표 변수에

따라 나타난다.

E-Minor ▼ 28

2.4.3 Insight 노드

자료를 메뉴방식으로 탐색, 분석할 수 있다. 자료를 직접 보면서 입력, 수정을 할 수

있고 히스토그램/수평막대그래프, 상자그림/모자이크도표, 선도표, 산점도, 등고선, 회전

도표 등 그래프 기능을 가지고 있다. 자료의 분포, 통계량 값 등을 보여주고 분산분석,

회귀분석 등의 분석 기능도 포함되어 있음

Insight nodes 열기(OPEN)

다른 것은 설정할 것이 없다. 그러나 모든 데이터(Entire data set) 사용하라는 것을 선

택하자.

Insight nodes 실행(RUN)

SAS 위의 분석 메뉴에서 적절한 그래프를 선택하면 된다.

E-Minor ▼ 29

2.3.4 Association nodes

항목들 사이의 지지도(support), 신뢰도(confidence), 리프트(lift)에 기초하여 연관성 규

칙발견이나 순차적 연관성 규칙발견에 사용하는 노드이다. Input Data Source 노드나

Data Set Attributes 노드에 적어도 하나의 Id 변수와 목표변수(target)를 지정해 주어야

한다.

여러 개의 ID 변수가 있는 경우에는 첫번째 ID 변수가 가장 중요한 관측치 구분 변

수로 인식되고, 나머지 변수는 그 다음으로 중요한 구분 변수로 인식하고 있다. 목표변

수는 interval 변수이어서는 안된다. 여러 개의 목표변수를 분석하지 못함.

Association nodes 열기(OPEN)

Association nodes는 Data, Variables, General, Sequences, Time Constraints, Sort,

Output, Selected Output, Notes 등 9개의 Tab으로 구성되어 있음

(1)Data Tab: Association nodes에서 사용되는 자료에 대해 보여주고 있음

E-Minor ▼ 30

(2)Variables Tab: 자료의 변수들에 대한 정보를 보여준다. Status 열에서 변수의 사용

여부를 use, don’t use로 지정할 수 있다. (변수 선택 Status열에서 마우스 오른

쪽 클릭 Set Status 선택 use/don’t use 선택) Status 이외의 변수의 속성과 관

련된 내용들은 변경 불가능

(3)General Tab: 연관성 규칙을 분석하는 종류 선택, 지지도의 하한, 신뢰도의 하한을

설정하고 연관성규칙에 사용하는 최대 항목 수를 지정

• Analysis mode : 연관성규칙을 분석하는 종류

By Context : 입력된 자료의 변수에 따라 분석내용을 선택함

Id 변수와 목표변수만 존재하면 일반적인 연관성규칙 분석 수행

Id변수, 목표변수, Sequence변수 함께 존재하면 순차적 연관성규칙 분석 수행

Association : 일반적 연관규칙 분석 수행

Sequences : 순차적 연관성규칙 분석 수행

• Minimum Transaction Frequency to Support Association: 지지도의 하한 설정

−전체 항목 개수가 증가하면 가능한 연관성규칙 개수도 증가하기 때문에 하한설정

−지지도의 하한을 퍼센트(Specify as a percentage)나 빈도(Specify a count)로 정의

•Maximum number of items in an association : 연관성규칙 발견 시 고려할 최대 항목

수 지정

−기본값은 4이고 변경 시 입력 필드에 직접 원하는 값을 입력하면 됨

•Minimum confidence for rule generation : 신뢰도의 하한 설정 기본값은 10%

(4) Sequences Tab: 순차적 연관성 규칙의 분석을 위한 옵션 지정, General Tab에서

Sequences를 선택해야만 이 대화상자가 나타남

• Minimum Transaction Frequency to Support Sequence

2% of total transaction count: 전체 자료에서 순차적인 연관성 규칙 발생비율이 2%

보다 작은 규칙은 출력 자료셋에 포함시키지 않도록 정의함

Specify as a percentage, Specify smallest count to use: 순차적인 연관성 규칙 발생

을 퍼센트나 빈도로 변경

•Number of items in longest chain : 순차적 연관성 규칙에 포함될 수 있는 항목의 최

대수 지정(디폴트는 3, 최대 10까지 지정)

(5)Time Constraints Tab: 순차적 연관성 규칙을 발견할 때 사용되는 기준시간의 설정

에 대한 옵션을 지정, General Tab에서 Sequences를 선택해야만 나타남

E-Minor ▼ 31

•Transaction Window Length: 순차적 연관성 규칙을 발견하기 위해 고려하는 시점 수

지정

Maximum duration : Sequence 변수가 포함하는 모든 시점을 고려

Specify duration to use : 기준시점수를 원하는 값으로 변경

•Consolidate time differences < : 같은 날의 여러 구입시점을 하나의 구입시점으로 처

리

−디폴트는 0 : 기록된 모든 시점을 구별

(6)Sort Tab: Id 변수들에 대한 우선순위를 지정, Id 변수가 한 개일 경우에는 자동적으

로 Selected로 이동됨

(7)Output Tab: ASSOC(관련된 항목들을 결정), SEQUENCE(시간변수를 사용해 순차적

연관성 규칙생성), RULEGN(일반적인 연관성 규칙생성) procedure를 실행한 결과를

볼 수 있음, Association 노드를 실행하면 SAS procedure 수행을 통해서 Output 대

화상자에 수행결과가 저장됨

(8)Selected Output Tab: Association 노드 실행한 후에 그 결과를 SAS 데이터로 저장

Association nodes 실행(RUN)

E-Minor ▼ 32

E-Minor ▼ 33

2.4.4 Variable Selection node

데이터마이닝 과정에서 목표변수와 관련이 있다고 생각되는 변수들을 선택

결정계수나 카이 제곱 통계량을 이용하여 변수선택을 수행

Regression node/Neural Network node/Decision Tree node등의 모형 구축 노드에 선행

하여 사용

Variable Selection node 열기(Open)

(1) Data Tab: 사용할 자료의 사용형태(시험용, 평가용, 스코어용)를 지정

E-Minor ▼ 34

(2)Variables Tab: Status 열만이 활성화되어 있으며, 각 변수의 사용여부를 지정, 기본

값은 Model Role 이 input 인 경우에는 사용(use), rejected 인 경우에는 비사용(don’t

use)

사용여부에 대한 변경은 해당변수의 status열에서 마우스 오른쪽버튼을 선택 Set

Status use/don’t status 지정

목표변수는 반드시 하나만을 지정 : 선행노드에서 목표변수가 여러 개인 경우에는 하

나의 목표변수만을 use로 지정

(3)Manual Selection Tab: 변수 선택 시 해당변수에 대한 사용여부를 지정(Role

Assignment)

Role Assignment를 변경하고자 하는 경우 해당변수에 대하여 마우스 오른쪽버튼을

선택 Set Role Assignment <automatic>/rejected/input 지정

<automatic>: 변수선택 결과에 따라 다음노드에서의 사용을 결정

rejected: 변수선택에 처음부터 포함시키지 않으며 다음분석 노드에서도 제외

E-Minor ▼ 35

input: 변수선택 과정에 포함되며 변수선택의 결과에 관계없이 다음 분석노드에서

사용

Reason열에는 라벨이나 변수에 대한 제거이유 등을 기입가능

(4)Target Association Tab: 목표변수와 관련 없는 변수의 제거여부 지정, 변수선택방

법의 기준(결정계수/카이제곱 통계량)을 지정, 점수화 데이터(score data set)의 생성

여부 지정

•결정계수(R-square)에 의한 변수선택 지정 : 변수선택 기준(Criterion)을 지정

•목표변수에 대한 입력변수의 상관계수 제곱이 0.005(기본값)보다 작은 변수를 제거

•결정계수의 증가량(improvement)이 0.0005(기본값)보다 작은 변수를 제거

모든 가능한 2차 교호작용의 포함여부를 지정

단계적 선택법에서 AOV16변수의 사용여부를 지정(AOV16변수 : 연속형변수를 16등

분하고 각 등분을 가수화(1~16)한 변수로 목표변수의 비선형성 파악에 효과가 있는

변수)

Group변수의 사용여부를 지정

•카이제곱 통계량에 의한 변수선택 지정

E-Minor ▼ 36

목표변수가 연속형인 경우에는 사용불가, 범주형 입력변수는 그대로 사용할 수 있으

나 연속형 입력변수는 N등분(Bins)하여 사용

•각 입력변수와 목표변수에 대한 카이제곱 통계량을 계산

•가장 큰 카이제곱 통계량을 갖는 조합을 선택

•나무구조의 단계(Passes)를 지정 크게 하면 입력변수의 수가 증가

(5) General tab

Remove variables with more than N% missing values : N% 이상의 결측치를 포함하고

있는 변수를 변수선택에서 제외함(기본값 : 50%)

Remove variables in hierarchies :

종속관계에 있는 변수의 제거여부를 지정

종속관계에 있는 변수를 제거하지 않은 경우에는 어느 변수를 사용할 것인지 지정

E-Minor ▼ 37

Least Detailed : 상세하지 못한 정보를 갖는 변수를 선택

Most Detailed : 가장 상세한 정보를 갖는 변수를 선택

(6) Output Tab: 출력결과에서 보여질 데이터 셋을 지정(Training, Validation)

Variable Selection node 실행(Run)

Variable Tab: 변수선택 결과에 대한 요약

− Name : 변수이름

− Role : 선택된 변수는 input, 제거된 변수는 rejected

− Dependencies : 종속적 관계로 기각된 변수에 대한 정보

− % Missing : 결측치가 있는 변수에 대한 결측치의 비율

− Number of Levels : 각 변수에 대한 수준(Level)표시

출력 데이터의 성질

(정보)을 보여줌

E-Minor ▼ 38

− Rejection Reason : 변수가 제거/삽입된 이유 명시

Rejected(or Included)manually : 사용자가 직접 조작한 경우

Missing % : 지정된 %보다 많은 결측치가 있는 경우

Duplicate Info : 중복되는 변수가 있는 경우

Low 2R with target : 결정계수가 낮은 경우

Group(or AOV16) variable preferred : 입력변수보다 Group변수(AOV16)가 선호되는

경우

small Chi-Square : 2χ 값이 작은 경우

(2) R-Square Tab: 각각의 모형 항에 대한 결정 계수값을 수평막대도표로 보여줌

(3) Effects Tab: 모형에서 선택된 입력변수에 대한 결정계수값을 수평막대도표에 크기

순으로 나타냄

E-Minor ▼ 39

(4) Code Tab: 변수선택을 위해 사용된 SAS 프로그램 Code

(5) Output Tab: 결정계수에 의한 변수선택 결과

•R-Squares for Target Variable: 입력변수와 목표변수와의 1:1 결정계수 계산 결과.

• Effects Chosen for the Target

−R-Squares for Target Variable에서 선택된 변수 가지고 Stepwise 변수 선택 실시

−EMS(Error Mean Square) : 변수선택법에서 새로운 입력변수 추가 시 모형에 추가

되지 않은 변동량 중요한 입력변수가 추가된 경우에는 매우 작아짐

E-Minor ▼ 40

• Final ANOVA Table for the Target: 선택된 변수들을 이용한 분산분석표

• Effects not chosen for target: 선택되지 않은 변수들에 대한 제곱합과 결정 계수 값

•Estimating Logistic: 선택된 입력변수에 의한 예측치를 통해 목표변수와의 로지스틱

회귀분석을 실시

enterprise minor...

Documents