머신러닝기반의 anomaly detection ( k사사례중심파일유통 영업가족 이탈...
TRANSCRIPT
머신러닝 기반의 Anomaly Detection
( K사 사례 중심 )
애자일소다 컨설팅사업본부 곽동헌 수석
2018. 04. 26.
1
Anomaly Detection
• Anomaly Detection (also outlier detection) is the identification of items, events or observations which do not conform to an expected pattern or other items in a dataset.
• 전체 사용자 행위 中, 극소수가 실질적인 의심 행위에 해당
출처 : Cisco 2017 Cybersecurity Report
Figure : Identifying User Behavior Patterns with Automation
“Advanced analytics을 이용하여
이상치(Anomalies)에 대한 사전 탐지 必要”
2
Knowledge Discovery & Management Process
• 이상징후를 탐지하기 위한 지식은 어떻게 도출해야 하는가?
Data Target Data Preprocessed Data Transformed Data Patterns/Models Knowledge
SYSTEM(Data기반)
Service
학습된메타 모델 생성
서비스 개발
DB 저장 /모델 API 개발
Business Rule
통계, ML 등
HUMAN(노하우,사례,
기준집등 기반)
Data 분석, 항목도출, 룰 모델링 관련 분석/설계/개발 진행
BRMS
ETL, OLAP, etc
비용IT/현업
사용자 편의성개발생산성 유지보수성능
Selection PreProcessing Transformations Data MiningInterpretation
Evaluation
3
K사 VOC
• Voice Of Customer
분석영역
관리/운영영역
✓모델링 수행 역량
▪ 분석 주제별 적합한 알고리즘 탐색 및 선택 능력
▪ 기 운영 모델에 대한 변경 및 추가 적용 알고리즘 검토
▪ 경험, 노하우, 알고리즘에 대한 개념 이해 등
✓개발 역량
▪ 분석용 프로그램 언어(R) 이해 [문법, 자료구조, 패키지 등]
▪ R을 활용한 알고리즘 구현
✓비즈니스 관점
▪ 변경 또는 추가 적용된 모델링 결과에 대한 모니터링 및
비즈니스 검증
✓시스템 관점
▪ 개발된 모델의 관리, 협업, 운영 시스템 적용
4
K사 구축 목표• 분석업무정의 -> 분석 모형생성, 검증 -> 결과 모니터링 등 일련의 과정을 담당자가 직접 수행
가능하도록 Self-Service 분석 체계 구축
개인정보 조회 패턴
비지니스 분석 & 모델링
임계치 예측 모델
영업가족 이탈예측 모델
Multiple Regression
업무 이상 예측 모델
Random Forest
GBM
Logistic Regression
군집 / 분류
K-Means
EDA (추이,분포,비교) Visualization( R-package )
상관 관계 분석2Depth SAR
Association Rules
분석 업무 확대(TBD)
지식 운영/관리 시스템 (Monitoring)
Decision Tree
운영 & 관리
분석 모델링 방법 및 알고리즘 고도화(분석 방법 도출, 신규 알고리즘 적용 등)
지속적 분석 역량 강화(분석트랜드, 교육, 분석과제수행 등)
모델 관리 (Maintenance)
분석 모델별 R코드 모듈화
담당자 개별 R 교육
모델 자동 갱신 적용
●●●
+ +
영업가족 이탈
개인정보 파일 유통
개인정보 파일명 vs 보유량
APP 비정상 접근
●●●
●●●
5
K사 구축 Framework
• 이상징후 탐지 Framework
EDA(전체 추이 분석,
특정 목적에 맞는 분석 등)
EDA(개인추이분석)
유형
AnomalyPattern
illogic
Self-patternchange
Extreme case
Comparativeness
Serviceduplication
Non-existence
Overflow
Entity eligibility
SuspiciousEntities
Suspicious Relationship
비즈니스개인정보
조회개인정보파일유통
영업가족이탈
개인정보파일명
●●●
정형 데이터 비정형 데이터데이터 유형
분석관점/목적/학습방법
&분석 모델
이상행위 패턴 도출 모델
조회 행위수 예측 모델
이탈 예측 모델
순차 패턴 분석 모델
비정형 Text 분석 모델
EDA (전체/개인 추이 분석)
● ● ●
권한(Authorities)
상황(Contextual)
관계(Relationship)
●●●
지도학습
비지도학습
운영&
관리 비즈니스검증
모니터링소명
프로세스지식갱신
●●●
임계치(Threshold)
모델에 의해 선정된이상징후 대상자
6
[접근방법-1]-> 군집-> 클러스터 정의 및 레이블링-> 분류-> 유의미한 이상행위 패턴 도출
K사 모델링 사례
• 모델링 사례 1 : 개인정보조회 이상행위 사전 탐지기존 시나리오 고도화를 위한
패턴 도출업무 이상행위 예측 과다 조회 행위수 예측
분석 목적
군집 모델 분류 모델
군집 및 분류를 통한이상행위 패턴도출
EDA (전체 추이 분석)
모델링
업무 이상행위 대상자 예측 ->대상자 선정 및 개인추이 분석
예측 모델
EDA (개인 추이 분석)
개인정보 과다조회 대상자 예측 ->대상자 선정 및 개인추이 분석
예측 모델
EDA (개인 추이 분석)
[접근방법-1]-> 조회행위수 예측
[접근방법-2]-> 학습변수 추가
[접근방법-3]-> 예측변수 추가
-> 조회행위수, 조회고객수
[접근방법-4]-> 조회행위수, 조회고객수 예측-> 분석 관점별 예측 모델링 (N개)
분석 모델
[접근방법-1]-> 직책 예측
[접근방법-2]-> 직책 및 과다조회 대상자 예측
[접근방법-3]-> 직책의 업무 이상 대상자 예측-> 비교 대상군 선정 후 모델링 (N개)
7
K사 모델링 사례
• 모델링 사례 2 : 영업가족이탈 시 개인정보유출 사전 탐지
이탈자 선정
시나리오 기반 이탈 예측 [ 기존 방법 ] 모델 기반 이탈 예측 [ 신규 적용 ]
✓ 전체 데이터 중 이탈자를 10%로 선정✓ 해당 무
예측 방법
데이터
예측 결과
장단점
✓ 알고리즘 성능 비교
▪ 3가지 알고리즘으로 모델링하여 비교 평가
✓ 성능이 제일 좋은 알고리즘으로 모델링 후 Daily 예측
✓ 기초 통계, 경험, 노하우, 사례 등을 기반으로시나리오 구성
▪ Ex) 3개월 전 대비 실적 300% 증대 & 근무일수 30% 감소
✓ 영업가족 행위를 잘 설명하는 수백 여개의항목으로 구성
✓ 3개월 전 대비 실적비율, 근무일수감소율 등시나리오에서 사용되는 조건 항목
✓ 모델의 정확도 (AUC) : 90% 이상
✓ TEST 데이터에 대한 모델의 이탈 예측률 : 60% 이상
✓ 시나리오 기반 이탈 예측률
▪ 실제 이탈자 중 10~20% 예측
✓ 장점
▪ 대용량 데이터 처리 시 계산 능력이 좋음
▪ 개인, 세그 등에 대한 패턴을 반영하여 예측
✓ 단점
▪ 모델은 데이터의 양질에 의존적이며, 오탐가능성이 존재
✓ 장점
▪ 직관적이며 설명력 좋음
▪ 신규 시나리오 반영 용이
✓ 단점
▪ 발생 가능한 모든 상황에 대한 시나리오구성이 어려움
8
K사 모델링 사례
• 모델링 사례 3 : 개인정보 파일유통 분석을 통한 이상행위 사전 탐지 (개인정보를 유출할 수 있는행위의 패턴을 도출하기 위해 보안매체 트랜잭션 로그를 이용하여 선후 관계를 고려한 순차 패턴분석 수행 )
내부메일
직후 사용
직
전
사
용
(1) 직전 사건(보안매체 사용)이 발생 시, 직후 사건이발생할 연관 관계 분석
. A B 에 대한 확률을 모두 계산
(2) 비정상 행위로 의심되는 패턴의 보안 중요도 분석
순차 패턴 분석
보안매체 사용 및 순차 패턴 분석
의심되는 순차 패턴의 보안 중요도 분석
□ 비정상 행위로 의심되는 패턴의 트랜잭션
데이터 분석
비정상(직전) -> 비정상(직후) , 정상(직전) ->
비정상(직후) , 비정상(직전) -> 정상(직후) 행위
패턴에 대한 이상징후 대상 개인 추이 분석
□ 보안 매체 사용 현황 분석
□ 직전, 직후에 사용하는 보안매체의 순차 패턴
분석
비정상 행위로 의심되는 패턴 분석
외부메일
팩스
외부반출
원본저장
망분리반출
출력
USB
9
K사 분석 사례
• 과거 데이터 분석 사례 1 : 전체 추이 분석을 통한 특이 케이스 도출
[ 1분 동안 화면 조회율이 적은 추이를 보이는 직원 ]
-> 주말에 5분 동안 특정 화면의 조회량 급증
[ 최근1달 요일별 화면 조회(1분) 추이 TOP 4 ]
10
K사 분석 사례
• 과거 데이터 분석 사례 2 : 모델링을 통한 이상징후 대상자 선정 후 개인 추이 분석
[ 타인PC 접속하여 화면 조회수 급증 : 개인추이 분석 ]
[ 개인정보 과다조회 대상자 추이 ]
[ 평상 시 조회량보다 조회수 급증 : 개인추이 분석 ]
11
How to use ML ?
• Means & One of Various Approaches
신뢰, 배려
소통
지식 공유
변화(프로세스,신기술 등)에 대한 공감대 형성
비젼 수립 및 추진 의지에 대한 확신
지식 도출을 위한 수단으로 활용
Not Change ! More Advanced !Machine running can not replace a person.
The final decision maker is a person and machine learning is the means for optimal decision making.
12
The best way to solve the problem
• 모든 문제 영역에 적합한 萬能 Algorithm? -> NO
• A person who makes good use of the experience and system
✓ 경험
✓ 규정
✓ 사례
✓ 노하우
✓ 기초통계
✓ 비즈니스 검증
✓ ETC
✓ 빅데이터
✓ 분석 환경
✓ 모델링 수행 경험
✓ 알고리즘 이해도
✓ 모델 개발 역량
✓ 비즈니스 검증
✓ ETC
감사합니다.