지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교...

21
Kim Jun Woo 지지지지지지지지지 1 지지지지지지 지 지지 09. 지지지지지지 지지지 지지 지지지지지 지지지지지지지 지 지 지

Upload: idania

Post on 05-Jan-2016

123 views

Category:

Documents


0 download

DESCRIPTION

지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우. 데이터 마이닝 (Data Mining) 데이터에 숨겨진 유용한 지식 , 규칙 , 패턴을 탐사 방대한 양의 데이터 자동 또는 반자동화된 분석 방법. 데이터 마이닝. MINING. DATA. Pattern, Information, Knowledge. 분류 위한 판정 방법 : 의사결정나무 유사한 레코드끼리의 군집 : k-means. 데이터 마이닝 분석 대상 데이터 필드와 레코드로 구성 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 1

지식정보처리 및 응용09. 데이터마이닝 기법과 응용

동아대학교 산업경영공학과김 준 우

Page 2: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 2

데이터 마이닝 (Data Mining)– 데이터에 숨겨진 유용한 지식 , 규칙 , 패턴을 탐사

방대한 양의 데이터 자동 또는 반자동화된 분석 방법

데이터 마이닝

DATA

MINING

Pattern, Informati

on,Knowledg

e

분류 위한 판정 방법 : 의사결정나무유사한 레코드끼리의 군집 : k-means

Page 3: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 3

데이터 마이닝 분석 대상– 데이터

필드와 레코드로 구성

데이터 마이닝 분석 종류– 교사 학습

Target 필드 ( 속성 ) 의 값 추정 방법 도출 미래 데이터 target 값 추정에 활용

– 비교사 학습 데이터의 특성 묘사 , 값 추정 없음

데이터 마이닝

ID F1 F2 F3 F4 F5

1 … … … … …

2 … … … … …

3 … … … … …

Page 4: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 4

교사 학습 (supervised learning)– 분류 (classification)

Target 속성 범주형

의사결정나무 , 규칙기반분류기 , 베이즈분류기 , 지지도벡터기계 등

– 예측 (forecasting) Target 속성 수치형

인공신경망 , 회귀분석 등

데이터 마이닝

ID F1 F2 F3 F4 F5 Target

1 … … … … … O

2 … … … … … X

3 … … … … … O

ID F1 F2 F3 F4 F5 Target

1 … … … … … 3.25

2 … … … … … 1.70

3 … … … … … 4.55

Page 5: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 5

비교사 학습 (unsupervised learning)– 군집 (clustering)

유사한 레코드끼리 집단 형성 K-means, 계층형 군집 , DBSCAN 등

– 연관 (association) 필드 간 인과관계 분석 Apriori, 시퀀스 마이닝 등

데이터 마이닝

ID F1 F2 F3 F4 F5

1 … … … … …

2 … … … … …

3 … … … … …

4 … … … … …

5 … … … … …

6 … … … … …

7 … … … … …

군집 1

군집 2

군집 분석

연관 분석

F3=O 일 때 , F5=X 가 되는 경향 존재

Page 6: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 6

데이터 마이닝 기법의 활용– 다양한 분야 , 산업에서 활용

제조업 서비스업 IT 업종 등

– 적절한 데이터의 정의 및 수집 필요 다양한 사례들을 묘사하는 필드 , target 속성 등의 정의 필요

데이터 마이닝

Page 7: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 7

데이터 마이닝 활용 예 )– 영상 데이터를 이용한 무인 자동차

– 장치 조작 규칙 필요 예 ) 전방 상황이 … 일 때 , 조향 장치 좌측 15 도 예 ) 전방 상황이 … 일 때 , 조향 장치 0 도 ( 직진 ) 예 ) 전방 상황이 … 일 때 , 조향 장치 우측 5 도

영상 데이터 분석

전방 영상 인식

조향 장치 조작

엑셀 , 브레이크 조작

Page 8: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 8

데이터 마이닝 활용 예 )– 무인 자동차 조향 장치 조작 규칙 도출

인간의 운전 통해 데이터 수집 인간의 운전 데이터에 숨겨진 패턴 , 규칙 추출하여 차량에 탑재

영상 데이터 분석

전방 영상 인식

전방 영상 정보 인간의 조작 내용

데이터 어떻게 구성 , 표현할 것인가 ?

Page 9: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 9

무인 자동차– 인간의 운전 데이터

전방 영상 : 도로인 부분 , 그렇지 않은 부분 나누어 표현 예 ) 전방 영상을 5X5 영역으로 표현

영상 데이터 분석

전방 영상 영역 별 표현

데이터 형식 표현 ( Fij : i 행 j 열 영역 도로 여부 )

F11F12F13F14F15F21F22F23F24F25F31F32F33F34F35F41F42F43F44F45F51F52F53F54F55X X X X X X X X X O X X X O O X X O O O X X O O X

Page 10: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 10

무인 자동차– 학습 데이터 (training set, 과거 데이터 ) 레코드 구성

전방 영상 데이터 + 인간 운전자의 조작 예 ) 조향 각도 : 좌측 (-), 직진 (0), 우측 (+)

영상 데이터 분석

F11

F12

F13

F14

F15

F21

F22

F23

F24

F25

F31

F32

F33

F34

F35

F41

F42

F43

F44

F45

F51

F52

F53

F54

F55

조향

X X X X X X X X X O X X X O O X X O O O X X O O X 15

전방 영상 영역 별 표현 해당 상황에서 인간의 조향 장치 조작

우측 15 도

학습 데이터 레코드

Page 11: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 11

무인 자동차– 학습 데이터 축적

장기간 인간 운전자 조종 데이터 수집 예 )

영상 데이터 분석

F11

F12

F13

F14

F15

F21

F22

F23

F24

F25

F31

F32

F33

F34

F35

F41

F42

F43

F44

F45

F51

F52

F53

F54

F55

조향

X X X X X X X X X O X X X O O X X O O O X X O O X 15X O O O X X O O O X X O O O X X O O O X X O O O X 0O O O X X X O O O X X O O O X X O O O X X O O O X -5… … … … … … … … … … … … … … … … … … … … … … … … … …

영역 별 표현

우측 15 도 학습 데이터

영역 별 표현

0 도

영역 별 표현

좌측 5 도

Page 12: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 12

무인 자동차– 패턴 및 규칙의 추출

데이터에 숨겨진 지식 추출 예 ) 수치형 target 의 추정 방법 필요 : 인공 신경망 등

영상 데이터 분석

F11

F12

F13

F14

F15

F21

F22

F23

F24

F25

F31

F32

F33

F34

F35

F41

F42

F43

F44

F45

F51

F52

F53

F54

F55

조향

X X X X X X X X X O X X X O O X X O O O X X O O X 15X O O O X X O O O X X O O O X X O O O X X O O O X 0O O O X X X O O O X X O O O X X O O O X X O O O X -5… … … … … … … … … … … … … … … … … … … … … … … … … …

학습 데이터

인공신경망 : 전방 상황에 따른 조향 각도 결정 규칙

Page 13: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 13

무인 자동차– 패턴 및 규칙의 활용

조향 각도 결정 규칙 : 미래 데이터 target 결정에 활용 가능 시스템 탑재하여 활용 예 ) 무인 자동차의 주행

영상 데이터 분석

전방 영상 정보

데이터 변환 , 입력

조향 각도 산출

조작 / 제어

Page 14: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 14

기타 영상 데이터에서 추출한 패턴 및 규칙 응용 예 )– 필기 문자 인식

– 제품의 분류 예 ) 수산물 영상 통해 자동 분류 등

영상 데이터 분석

A문자 영상 영역 별 표현 target

A

Page 15: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 15

설문 데이터의 구성– 설문 문항의 구성

적절한 구조화 바람직

– 1) 인구통계 정보 (socio-demography) 성별 , 나이 , 직업 , 주소 , 학력 , 소득 등

– 2) 주제 관련 세부 문항 영역별로 구성

– 3) target 에 해당하는 문항 종합적인 척도 예 ) 마케팅 분야 종합 척도 : 재구매 의사 , 추천 의사 , 전반적 만족도

설문 데이터

Page 16: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 16

설문 데이터의 구성– 예 ) 보험회사 설문 데이터 구성

고객 만족도 조사

설문 데이터

인구 통계 문항

1. 귀하의 성별은 ? ( 남 , 여 )

2. 귀하의 연령대는 ? (10 대 , 20 대 , 30 대 , 40 대 , 50 대 , 60 이상 )

3. 귀하의 직업은 ? ( 회사원 , 자영업 , 전문직 , 공무원 , 기타 )

4. 귀하의 연 소득 수준은 ? ( 2000 이하 , 2-3000, 3-4000, 4-5000, 5-6000, 6000 이상 )

5. 귀하의 결혼 상태는 ? ( 미혼 , 기혼 , 이혼 )

6. 자녀는 몇 명입니까 ? ( 0, 1, 2, 3 이상 )

Page 17: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 17

설문 데이터의 구성– 예 ) 보험회사 설문 데이터 구성

고객 만족도 조사

설문 데이터

주제 관련 문항

A. 가입 절차 관련A-1) 가입 경로는 무엇입니까 ? ( 영업 사원 , 인터넷 , 전화 , 기타 )A-2) 가입 당시 상담원은 친절했습니까 ? ( 1 2 3 4 5 )A-3) 가입 당시 충분한 설명을 들었습니까 ? ( 1 2 3 4 5 )A-4) 가입 절차가 편리했습니까 ? ( 1 2 3 4 5 )A-5) 가입과 관련된 정보를 찾기가 쉬웠습니까 ? ( 1 2 3 4 5 )

C. 요금 납부 관련C-1) 어떻게 요금을 납부하고 있습니까 ? ( 지로 , 이체 , 신용카드 , 기타 )C-2) 요금 납입액이 적정합니까 ? ( 1 2 3 4 5 )C-3) 요금 납부 방법이 편리합니까 ? ( 1 2 3 4 5 )C-4) 요금 납부와 관련된 정보를 찾기 쉽습니까 ? ( 1 2 3 4 5 )

B. 상품 관련B-1) 상품 선택 동기는 무엇입니까 ? ( 영업 사원 , 지인 , 인터넷 , 기타 )B-2) 상품 설명이 알기 쉬웠습니까 ? ( 1 2 3 4 5 )B-3) 상품에 대한 정보를 쉽게 얻을 수 있었습니까 ? ( 1 2 3 4 5 )B-4) 상품의 보장 범위에 만족하십니까 ? ( 1 2 3 4 5 )

D. 보험금 신청 관련D-1) 보험금을 신청해본 적이 있습니까 ? ( 예 , 아니오 )D-2) 보험금 신청 절차가 편리했습니까 ? ( 1 2 3 4 5 )D-3) 보험금 처리 직원의 응대는 친절했습니까 ? ( 1 2 3 4 5 )D-4) 보험금 산정 액수는 만족스러웠습니까 ? ( 1 2 3 4 5 )D-5) 보험금 수령까지 소요 기간은 적당합니까 ? ( 1 2 3 4 5 )

Page 18: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 18

설문 데이터의 구성– 예 ) 보험회사 설문 데이터 구성

고객 만족도 조사

설문 데이터

Target 문항

1. OO 보험사의 다른 상품에도 가입하실 의향이 있습니까 ? ( 1 2 3 4 5 )

2. OO 보험사의 상품을 지인에게 추천하실 의향이 있습니까 ? ( 1 2 3 4 5 )

3. OO 보험사에 대해 전반적으로 만족하십니까 ? ( 1 2 3 4 5 )

Page 19: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 19

설문 데이터와 데이터마이닝 기법– 응답자 군집

일반적으로 인구 통계 문항 이용하여 수행 인구 통계 특성이 비슷한 응답자끼리 군집 형성

설문 데이터

전체 응답자 군집 1 군집 2 군집 3

연령 , 직업 , 성별 등이 유사한 응답자끼리 군집

유사한 성향 공유할 가능성 높음

Page 20: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 20

설문 데이터와 데이터마이닝 기법– Target 문항 추정을 위한 분류 /예측 모형 생성

주제 관련 문항 : 일반 필드로 사용 Target 문항 : target 속성으로 사용 예 ) 재구매 의사를 target 으로 하는 의사결정나무

설문 데이터

보험금 신청 절차

상품의 보장 범위높은 재구매 의사

낮은 재구매 의사

높은 재구매 의사

>= 4 < 4

>= 3 < 3

중요 항목 선별 통한 고객 만족도 증진

기업 성과 개선 전략 수립

Page 21: 지식정보처리 및 응용 09.  데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우

Kim Jun Woo 지식정보처리및응용 21

참고 문헌

참고 자료

저자 제목 출처

김훈태 , 정재윤 , 강석호 (2003)

생산재고 정책수립을 위한 다품종모델 군집화의 실증적 분석 2003 한국경영과학회 /대한산업공학회 춘계공동학술대회

신원경 , 박민용 (2010) 라이프스타일에 의한 노인 사용자 그룹별 UI 품질 함수화 대한인간공학회 2010 추계 학술대회

곽주은 , 김창욱 (2013) 공정이상 진단을 위한 적응형 군집 기반 k-nearest neighbor 알고리즘

2013 한국경영과학회 /대한산업공학회 춘계공동학술대회

Harding, J.A., Shahbaz, M., Srinvas, S. and Kusiak, A. (2006)

Data Mining in Manufacturing: A Review Journal of Manufacturing Science and Engineering