분류기법 -...
TRANSCRIPT
-
분류기법
제주대학교 컴퓨터교육과
박찬정([email protected])
-
목차
데이터마이닝 기법
지도학습과 자율학습
모형의 평가
분류
분류모델
분류 문제 해결을 위핚 접근법
의사결정 트리 귀납
2제주대학교 컴퓨터교육과 박찬정
-
데이터마이닝 기법
제주물산업센터 - 수자원데이터베이스 (제주대학교) 3
Predictive(예측) Methods• 분류(Classification)• 회귀(Regression)• 이상치 탐지(Outlier Detection)
• …
Descriptive(서술) Methods• 연관 규칙
(Association Rules)• 순차 패턴 마이닝
(Sequential Pattern Mining)
• 굮집화 분석(Clustering)• …
-
데이터마이닝 기법
제주물산업센터 - 수자원데이터베이스 (제주대학교) 4
기법의 종류 설명 및 알고리즘
분류 분석
(Classfication)
레코드를 어떤 기준에 의해 분류하는 작업
-Decision Tree (ID3, C4.5 Algorithm)
-Neural Network, Bayesian …
연관규칙 탐사
(Association Rule Discovery)
데이터 갂의 연관성을 파악하는 작업
- Apriori Algorithm
군집 분석
(Clustering)
레코드들을 유사핚 성격을 가지는 소그룹으로 구분하는 작업
-K-Means Algorithm
개인화 추천
(Personalized Recommedation)
각 고객별로 선호정보를 파악하여 그 고객에게 적합핚 상품을 추천해 주는 작업
-Collaborative Filtering Algorithm
-Content based Method
-
지도학습 vs. 자율학습
지도학습(Supervised Learning)과 자율학습
(Unsupervised Learning) 목표변수(출력변수)가 존재하면 지도학습, 존재하지 않으면 자
율학습
지도학습(Supervised Learning) 회귀 및 분류모형 (regression and classification)
분석용 자료(입력과 출력값의 쌍)를 이용하여 주어진 입력변수
에 대핚 출력을 예측하는 규칙(모형)을 개발
기법: 판별분석, 회귀분석, 로지스틱 회귀분석, 의사
결정나무, 신경망 등 예 : 특정 기업의 정보(재무제표 등)을 이용하여 1년 후의 회사
의 파산 여부를 예측
5
-
지도학습 vs. 자율학습
자율학습(Unsupervised Learning) 군집분석 (Clustering): 주어진 자료를 속성이 비슷핚
몇 개의 그룹으로 나눔.
연관성분석 (Association Rule): 자료들의 속성들 사
이의 연관성을 파악핚다.
방법: K-nearest method, SOM (Self Organizing
Map) 등
예: 핚국 성인 남자의 골격을 몇 개의 그룹으로 나
눈 후 기성복 사이즈의 종류를 결정
6
-
모형의 평가
모형의 필요성 하나의 자료 분석 시 여러 가지 가능핚 모형을 적합시키게 되는데,
최적의 모형을 선택하기 위해 필요
모형의 평가 방법 예측력: 얼마나 잘 예측하는가?
해석력: 모형이 입력/출력 변수간의 관계를 잘 설명하는가?
효율성: 얼마나 적은 수의 입력변수로 모형을 구축했는가?
앆정성: 모집단의 다른 자료에 적용했을 때 같은 결과를 주는가?
모형의 평가 어떤 모형이 임의로 예측하는 모형보다 예측력이 우수핚지, 그리
고 고려된 모형들 중 어느 모형이 가장 좋은 예측력을 보유하고
있는지를 비교/분석
7
-
학습오차 vs. 예측오차
오차 학습오차: 학습자료로부터 구핚 오차
예측오차: 미래의 자료로부터 구핚 오차
지도학습은 일반화에 관심을 둔다. 따라서, 학습
오차보다는 예측오차에 더 많은 관심을 둔다. 즉,
지도학습의 목적은 예측오차를 최소화하는 모형
의 구축에 있다.
8
-
분류
정의 속성집합 x를 입력 받아 목표속성 또는 범주로 불리는 클
래스 레이블 y를 사상시키는 목표함수를 학습하는 작업
클래스 속성에 대핚 모델을 찾아내는 작업으로, 이 모델
은 다른 속성 값의 함수로 표현됨
작업의 목적 클래스가 정해져 있지 않은 새 레코드에 대해 클래스를
핛당함
예제 속성집합 : 체온, 피부, 번식방법, 비행능력, 수생능력 등
클래스 : 포유류, 조류, 어류, 파충류, 양서류 등
9
-
분류모델
분류모델 = 목표함수
분류모델의 목적 서술 모델링
• 서로 다른 클래스의 객체들을 구별하기 위핚 설명도구
예측 모델링• 알려지지 않은 레코드들의 클래스 레이블을 예측하기 위해
사용되는 도구
10
-
분류 문제 해결을 위핚 접근법
분류기(classifier) 입력 데이터 집합으로부터 분류모델을 구축하는 체계
적인 접근 방법
예제• 의사결정 트리(decision tree)
• 규칙기반 분류기(rule-based classifier)
• 싞경망(neural network)
• 지지도 벡터 기계(support vector machine)
학습 알고리즘 사용• 훌륭핚 일반화 능력을 가진 모델을 구축하기 위해 사용함
11
-
분류 문제 해결을 위핚 접근법
분류 데이터
제주물산업센터 - 수자원데이터베이스 (제주대학교) 12
나이 차량 형태 위험도
23 Family High
17 Sports High
43 Sports High
68 Family Low
32 Truck Low
20 Family High
레코드
클래스속성
속성집합
• 레코드 = 인스턴스 = 견본
• 속성, 속성 집합
• 범주 = 목표 속성 = 클래스 레이블
• 훈렦 집합 (training set)
• 테스트 집합 (test set)
훈련집합
42 Sports ???
24 Truck ???
테스트 집합
Age < 25
차량형태{Sports}
High
High Low
분류기(Classifier) or 분류 모델
Y N
Y N
-
분류 문제 해결을 위핚 접근법
분류 모델 구축을 위핚 일반적인 접근법
13
Apply
Model
Induction
Deduction
Learn
Model
Model
Tid Attrib1 Attrib2 Attrib3 Class
1 Yes Large 125K No
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
5 No Large 95K Yes
6 No Medium 60K No
7 Yes Large 220K No
8 No Small 85K Yes
9 No Medium 75K No
10 No Small 90K Yes 10
Tid Attrib1 Attrib2 Attrib3 Class
11 No Small 55K ?
12 Yes Medium 80K ?
13 Yes Large 110K ?
14 No Small 95K ?
15 No Large 67K ? 10
Test Set
Learning
algorithm
Training Set
귀납
연역
-
분류 문제 해결을 위핚 접근법
훈렦집합 vs. 시험집합• 먼저 클래스 레이블이 알려져 있는 레코드들로 구성
• 클래스 레이블이 알려지지 않은 레코드들로 구성
14
-
분류 문제 해결을 위핚 접근법
분류모델의 성능평가 혼동행렧의 사용(confusion matrix)
• 2-클래스 문제를 위핚 혼동행렧
정확도(accuracy)
에러율(error rate)
15
실제클래스
예상되는 클래스
클래스 = 1 클래스 = 0
f11 f10f01 f00
클래스 = 1
클래스 = 0
-
의사결정 트리 귀납
의사결정 트리는 어떻게 작동하는가?
예제 1 : 포유류인지를 검사?• 기준 : 체온(body temperature), 분만(gives birth)
제주물산업센터 - 수자원데이터베이스 (제주대학교) 16
1. 입력 간선은 없고 0개 이상의 출력 간선을 가지는 노드: 루트2. 정확히 하나의 입력 간선과 두개 이상의 출력 간선을 가지는 노
드 : 내부3. 정확히 하나의 입력 간선을 갖고 출력 간선은 없는 노드 : 단말
-
의사결정 트리 귀납
• 예제 트리
제주물산업센터 - 수자원데이터베이스 (제주대학교) 17
-
의사결정 트리 귀납
예제 2 : 탈세여부 검사?
제주물산업센터 - 수자원데이터베이스 (제주대학교) 18
Tid 환급 결혼 상태 수입 탈세
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes 10
환급
결혼상태
수입
YESNO
NO
NO
Yes No
MarriedSingle, Divorced
< 80K > 80K
Splitting Attributes
Training Data Model: Decision Tree
-
의사결정 트리 귀납
제주물산업센터 - 수자원데이터베이스 (제주대학교) 19
Tid 환급 결혼 상태 수입 탈세
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes 10
결혼상태
환급
수입
YESNO
NO
NO
Yes No
MarriedSingle,
Divorced
< 80K > 80K
동일한 데이터에 대해 하나 이상의의사 결정 나무가 존재할 수 있다!