지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교...
DESCRIPTION
지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우. 데이터 마이닝 (Data Mining) 데이터에 숨겨진 유용한 지식 , 규칙 , 패턴을 탐사 방대한 양의 데이터 자동 또는 반자동화된 분석 방법. 데이터 마이닝. MINING. DATA. Pattern, Information, Knowledge. 분류 위한 판정 방법 : 의사결정나무 유사한 레코드끼리의 군집 : k-means. 데이터 마이닝 분석 대상 데이터 필드와 레코드로 구성 - PowerPoint PPT PresentationTRANSCRIPT
Kim Jun Woo 지식정보처리및응용 1
지식정보처리 및 응용09. 데이터마이닝 기법과 응용
동아대학교 산업경영공학과김 준 우
Kim Jun Woo 지식정보처리및응용 2
데이터 마이닝 (Data Mining)– 데이터에 숨겨진 유용한 지식 , 규칙 , 패턴을 탐사
방대한 양의 데이터 자동 또는 반자동화된 분석 방법
데이터 마이닝
DATA
MINING
Pattern, Informati
on,Knowledg
e
분류 위한 판정 방법 : 의사결정나무유사한 레코드끼리의 군집 : k-means
Kim Jun Woo 지식정보처리및응용 3
데이터 마이닝 분석 대상– 데이터
필드와 레코드로 구성
데이터 마이닝 분석 종류– 교사 학습
Target 필드 ( 속성 ) 의 값 추정 방법 도출 미래 데이터 target 값 추정에 활용
– 비교사 학습 데이터의 특성 묘사 , 값 추정 없음
데이터 마이닝
ID F1 F2 F3 F4 F5
1 … … … … …
2 … … … … …
3 … … … … …
Kim Jun Woo 지식정보처리및응용 4
교사 학습 (supervised learning)– 분류 (classification)
Target 속성 범주형
의사결정나무 , 규칙기반분류기 , 베이즈분류기 , 지지도벡터기계 등
– 예측 (forecasting) Target 속성 수치형
인공신경망 , 회귀분석 등
데이터 마이닝
ID F1 F2 F3 F4 F5 Target
1 … … … … … O
2 … … … … … X
3 … … … … … O
ID F1 F2 F3 F4 F5 Target
1 … … … … … 3.25
2 … … … … … 1.70
3 … … … … … 4.55
Kim Jun Woo 지식정보처리및응용 5
비교사 학습 (unsupervised learning)– 군집 (clustering)
유사한 레코드끼리 집단 형성 K-means, 계층형 군집 , DBSCAN 등
– 연관 (association) 필드 간 인과관계 분석 Apriori, 시퀀스 마이닝 등
데이터 마이닝
ID F1 F2 F3 F4 F5
1 … … … … …
2 … … … … …
3 … … … … …
4 … … … … …
5 … … … … …
6 … … … … …
7 … … … … …
군집 1
군집 2
군집 분석
연관 분석
F3=O 일 때 , F5=X 가 되는 경향 존재
Kim Jun Woo 지식정보처리및응용 6
데이터 마이닝 기법의 활용– 다양한 분야 , 산업에서 활용
제조업 서비스업 IT 업종 등
– 적절한 데이터의 정의 및 수집 필요 다양한 사례들을 묘사하는 필드 , target 속성 등의 정의 필요
데이터 마이닝
Kim Jun Woo 지식정보처리및응용 7
데이터 마이닝 활용 예 )– 영상 데이터를 이용한 무인 자동차
– 장치 조작 규칙 필요 예 ) 전방 상황이 … 일 때 , 조향 장치 좌측 15 도 예 ) 전방 상황이 … 일 때 , 조향 장치 0 도 ( 직진 ) 예 ) 전방 상황이 … 일 때 , 조향 장치 우측 5 도
영상 데이터 분석
전방 영상 인식
조향 장치 조작
엑셀 , 브레이크 조작
Kim Jun Woo 지식정보처리및응용 8
데이터 마이닝 활용 예 )– 무인 자동차 조향 장치 조작 규칙 도출
인간의 운전 통해 데이터 수집 인간의 운전 데이터에 숨겨진 패턴 , 규칙 추출하여 차량에 탑재
영상 데이터 분석
전방 영상 인식
전방 영상 정보 인간의 조작 내용
데이터 어떻게 구성 , 표현할 것인가 ?
Kim Jun Woo 지식정보처리및응용 9
무인 자동차– 인간의 운전 데이터
전방 영상 : 도로인 부분 , 그렇지 않은 부분 나누어 표현 예 ) 전방 영상을 5X5 영역으로 표현
영상 데이터 분석
전방 영상 영역 별 표현
데이터 형식 표현 ( Fij : i 행 j 열 영역 도로 여부 )
F11F12F13F14F15F21F22F23F24F25F31F32F33F34F35F41F42F43F44F45F51F52F53F54F55X X X X X X X X X O X X X O O X X O O O X X O O X
Kim Jun Woo 지식정보처리및응용 10
무인 자동차– 학습 데이터 (training set, 과거 데이터 ) 레코드 구성
전방 영상 데이터 + 인간 운전자의 조작 예 ) 조향 각도 : 좌측 (-), 직진 (0), 우측 (+)
영상 데이터 분석
F11
F12
F13
F14
F15
F21
F22
F23
F24
F25
F31
F32
F33
F34
F35
F41
F42
F43
F44
F45
F51
F52
F53
F54
F55
조향
X X X X X X X X X O X X X O O X X O O O X X O O X 15
전방 영상 영역 별 표현 해당 상황에서 인간의 조향 장치 조작
우측 15 도
학습 데이터 레코드
Kim Jun Woo 지식정보처리및응용 11
무인 자동차– 학습 데이터 축적
장기간 인간 운전자 조종 데이터 수집 예 )
영상 데이터 분석
F11
F12
F13
F14
F15
F21
F22
F23
F24
F25
F31
F32
F33
F34
F35
F41
F42
F43
F44
F45
F51
F52
F53
F54
F55
조향
X X X X X X X X X O X X X O O X X O O O X X O O X 15X O O O X X O O O X X O O O X X O O O X X O O O X 0O O O X X X O O O X X O O O X X O O O X X O O O X -5… … … … … … … … … … … … … … … … … … … … … … … … … …
영역 별 표현
우측 15 도 학습 데이터
영역 별 표현
0 도
영역 별 표현
좌측 5 도
…
Kim Jun Woo 지식정보처리및응용 12
무인 자동차– 패턴 및 규칙의 추출
데이터에 숨겨진 지식 추출 예 ) 수치형 target 의 추정 방법 필요 : 인공 신경망 등
영상 데이터 분석
F11
F12
F13
F14
F15
F21
F22
F23
F24
F25
F31
F32
F33
F34
F35
F41
F42
F43
F44
F45
F51
F52
F53
F54
F55
조향
X X X X X X X X X O X X X O O X X O O O X X O O X 15X O O O X X O O O X X O O O X X O O O X X O O O X 0O O O X X X O O O X X O O O X X O O O X X O O O X -5… … … … … … … … … … … … … … … … … … … … … … … … … …
학습 데이터
인공신경망 : 전방 상황에 따른 조향 각도 결정 규칙
Kim Jun Woo 지식정보처리및응용 13
무인 자동차– 패턴 및 규칙의 활용
조향 각도 결정 규칙 : 미래 데이터 target 결정에 활용 가능 시스템 탑재하여 활용 예 ) 무인 자동차의 주행
영상 데이터 분석
전방 영상 정보
데이터 변환 , 입력
조향 각도 산출
조작 / 제어
Kim Jun Woo 지식정보처리및응용 14
기타 영상 데이터에서 추출한 패턴 및 규칙 응용 예 )– 필기 문자 인식
– 제품의 분류 예 ) 수산물 영상 통해 자동 분류 등
영상 데이터 분석
A문자 영상 영역 별 표현 target
A
Kim Jun Woo 지식정보처리및응용 15
설문 데이터의 구성– 설문 문항의 구성
적절한 구조화 바람직
– 1) 인구통계 정보 (socio-demography) 성별 , 나이 , 직업 , 주소 , 학력 , 소득 등
– 2) 주제 관련 세부 문항 영역별로 구성
– 3) target 에 해당하는 문항 종합적인 척도 예 ) 마케팅 분야 종합 척도 : 재구매 의사 , 추천 의사 , 전반적 만족도
설문 데이터
Kim Jun Woo 지식정보처리및응용 16
설문 데이터의 구성– 예 ) 보험회사 설문 데이터 구성
고객 만족도 조사
설문 데이터
인구 통계 문항
1. 귀하의 성별은 ? ( 남 , 여 )
2. 귀하의 연령대는 ? (10 대 , 20 대 , 30 대 , 40 대 , 50 대 , 60 이상 )
3. 귀하의 직업은 ? ( 회사원 , 자영업 , 전문직 , 공무원 , 기타 )
4. 귀하의 연 소득 수준은 ? ( 2000 이하 , 2-3000, 3-4000, 4-5000, 5-6000, 6000 이상 )
5. 귀하의 결혼 상태는 ? ( 미혼 , 기혼 , 이혼 )
6. 자녀는 몇 명입니까 ? ( 0, 1, 2, 3 이상 )
Kim Jun Woo 지식정보처리및응용 17
설문 데이터의 구성– 예 ) 보험회사 설문 데이터 구성
고객 만족도 조사
설문 데이터
주제 관련 문항
A. 가입 절차 관련A-1) 가입 경로는 무엇입니까 ? ( 영업 사원 , 인터넷 , 전화 , 기타 )A-2) 가입 당시 상담원은 친절했습니까 ? ( 1 2 3 4 5 )A-3) 가입 당시 충분한 설명을 들었습니까 ? ( 1 2 3 4 5 )A-4) 가입 절차가 편리했습니까 ? ( 1 2 3 4 5 )A-5) 가입과 관련된 정보를 찾기가 쉬웠습니까 ? ( 1 2 3 4 5 )
C. 요금 납부 관련C-1) 어떻게 요금을 납부하고 있습니까 ? ( 지로 , 이체 , 신용카드 , 기타 )C-2) 요금 납입액이 적정합니까 ? ( 1 2 3 4 5 )C-3) 요금 납부 방법이 편리합니까 ? ( 1 2 3 4 5 )C-4) 요금 납부와 관련된 정보를 찾기 쉽습니까 ? ( 1 2 3 4 5 )
B. 상품 관련B-1) 상품 선택 동기는 무엇입니까 ? ( 영업 사원 , 지인 , 인터넷 , 기타 )B-2) 상품 설명이 알기 쉬웠습니까 ? ( 1 2 3 4 5 )B-3) 상품에 대한 정보를 쉽게 얻을 수 있었습니까 ? ( 1 2 3 4 5 )B-4) 상품의 보장 범위에 만족하십니까 ? ( 1 2 3 4 5 )
D. 보험금 신청 관련D-1) 보험금을 신청해본 적이 있습니까 ? ( 예 , 아니오 )D-2) 보험금 신청 절차가 편리했습니까 ? ( 1 2 3 4 5 )D-3) 보험금 처리 직원의 응대는 친절했습니까 ? ( 1 2 3 4 5 )D-4) 보험금 산정 액수는 만족스러웠습니까 ? ( 1 2 3 4 5 )D-5) 보험금 수령까지 소요 기간은 적당합니까 ? ( 1 2 3 4 5 )
…
Kim Jun Woo 지식정보처리및응용 18
설문 데이터의 구성– 예 ) 보험회사 설문 데이터 구성
고객 만족도 조사
설문 데이터
Target 문항
1. OO 보험사의 다른 상품에도 가입하실 의향이 있습니까 ? ( 1 2 3 4 5 )
2. OO 보험사의 상품을 지인에게 추천하실 의향이 있습니까 ? ( 1 2 3 4 5 )
3. OO 보험사에 대해 전반적으로 만족하십니까 ? ( 1 2 3 4 5 )
Kim Jun Woo 지식정보처리및응용 19
설문 데이터와 데이터마이닝 기법– 응답자 군집
일반적으로 인구 통계 문항 이용하여 수행 인구 통계 특성이 비슷한 응답자끼리 군집 형성
설문 데이터
전체 응답자 군집 1 군집 2 군집 3
연령 , 직업 , 성별 등이 유사한 응답자끼리 군집
유사한 성향 공유할 가능성 높음
Kim Jun Woo 지식정보처리및응용 20
설문 데이터와 데이터마이닝 기법– Target 문항 추정을 위한 분류 /예측 모형 생성
주제 관련 문항 : 일반 필드로 사용 Target 문항 : target 속성으로 사용 예 ) 재구매 의사를 target 으로 하는 의사결정나무
설문 데이터
보험금 신청 절차
상품의 보장 범위높은 재구매 의사
낮은 재구매 의사
높은 재구매 의사
>= 4 < 4
>= 3 < 3
중요 항목 선별 통한 고객 만족도 증진
기업 성과 개선 전략 수립
Kim Jun Woo 지식정보처리및응용 21
참고 문헌
참고 자료
저자 제목 출처
김훈태 , 정재윤 , 강석호 (2003)
생산재고 정책수립을 위한 다품종모델 군집화의 실증적 분석 2003 한국경영과학회 /대한산업공학회 춘계공동학술대회
신원경 , 박민용 (2010) 라이프스타일에 의한 노인 사용자 그룹별 UI 품질 함수화 대한인간공학회 2010 추계 학술대회
곽주은 , 김창욱 (2013) 공정이상 진단을 위한 적응형 군집 기반 k-nearest neighbor 알고리즘
2013 한국경영과학회 /대한산업공학회 춘계공동학술대회
Harding, J.A., Shahbaz, M., Srinvas, S. and Kusiak, A. (2006)
Data Mining in Manufacturing: A Review Journal of Manufacturing Science and Engineering