201206 데이터사이언스

29
DATA SCIENCE 권권권 [email protected]

Upload: byeungchun-kwon

Post on 07-Aug-2015

196 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 201206 데이터사이언스

DATA SCIENCE

권병천[email protected]

Page 2: 201206 데이터사이언스

구글 트랜즈의 키워드 검색량 비교

Page 3: 201206 데이터사이언스

이 세미나를 통해서

• Data Science 에 대한 이해

• Data Science 와 Big Data 의 차이를 이해

• Data Science 적용한 사례 ( 항공사 , 외환압력지수 예측 )

• 당행에의 시사점

• 참고할만한 Data Science 자료 및 사이트

Page 4: 201206 데이터사이언스

목 차

I. Data Science 정의

II. Data Science vs 전통 방법론

III. Data Science 필요성

IV. Data Science 응용

1. 항공사 공동운항 수익성 분석

2. 외환시장 조기경보 모형

V. Data Scientist

VI. 당행 시사점

Page 5: 201206 데이터사이언스

Data Science 정의

• 상품용 데이터 (Data Product) 를 생성할 수 있는 방법론을 제공하는 분야

• 복잡한 데이터 관련 문제를 해결하기 위해 통계학 , 전산학 ,

비주얼라이제이션을 융합한 학문 분야

전산학 Computer Pro-

gramming

업무지식Domain Knowl-

edge

통계학Statistics

DATA SCIENCE

DATA PRODUCT

Page 6: 201206 데이터사이언스
Page 7: 201206 데이터사이언스
Page 8: 201206 데이터사이언스

Data Science 정의

• 상품용 데이터 (Data Product) 를 생성할 수 있는 방법론을 제공하는 분야

• 복잡한 데이터 관련 문제를 해결하기 위해 통계학 , 전산학 ,

비주얼라이제이션을 융합한 학문 분야

전산학 Computer Pro-

gramming

업무지식Domain Knowl-

edge

통계학Statistics

DATA SCIENCE

DATA PRODUCT

Page 10: 201206 데이터사이언스
Page 11: 201206 데이터사이언스

출처 : 테라데이타

Page 12: 201206 데이터사이언스

Data Science 필요성

• 통계학은 미지의 대량 모집단에 대하여 기지의 소량 자료를 근거로 하여 추론하는 방법론을 연구하는 학문

모집단이 정규분포를 따르지 않는다면 ?

→ 홍수 , 지진 , 금융위기 , 테러

출처 : StockCharts.com - ChartSchool

Page 13: 201206 데이터사이언스
Page 14: 201206 데이터사이언스

Data Science vs 전통 방법론

• 데이터 마이닝 • 패턴 인식• 소셜 네트워크 분석

Data Science

분석기법

• 회귀 · 분산 분석• 확률변수 , 분포• 가설검정

전통 방법론

• 빅데이터• 비정형데이터

데이터 유형

• 소규모 데이터• 명목 · 범주 · 수치형 데이터

IT 지식분석가 능력 업무 지식

분석 기법

업무지식

분석기법

IT지식

Page 15: 201206 데이터사이언스

데이터 변천추세에 따른 분석 기법

• 일반질의 (Query)

• 시각화(Visualization)

• OLAP

• 전통적 통계(Statistics)

• 의사결정나무

• 인공 신경망

• 동시발생 매트릭스

• 발생 알고리즘

• K- 평균군집화

“ 대량의 데이터 집합으로부터 유용한

정보 를 추출하는 것”

(Hand et al., 2001).

데이터 마이닝

Page 16: 201206 데이터사이언스

Data Science 밴 다이어그램

출처 : Drew Conway, http://www.dataists.com

Page 17: 201206 데이터사이언스

Data Science 응용 – 항공사 공동운항 수익성 분석

• 공동 운항 (Codeshare)

– 거의 모든 항공사에서 Codeshare 는 광범위 하게 사용

실제 항공기를 운영하는 항공사에게는 좌석을 채움으로써 원가보전

좌석을 대여 받는 항공사는 미 취항 도시를 운항함으로써 자사 고객 서비스

제공함으로써 고객 유치 유리

– 하지만 과연 Codeshare 가 항공사 수익성에 기여하는가 ?

Major 항공사의 몰락 및 인수합병

Codeshare 가 없는 항공사들이 수익성 월등 (Southwest, Emirate)

2 구간 이상 연결될 시 , 복잡한 가격 산정으로 인해 Codeshare 구간이 이익인지

손실인지 추적 어려움

서울 LA Utah

대한항공 델타항공

Page 18: 201206 데이터사이언스

Data Science 응용 – 항공사 공동운항 수익성 분석

• 공동운항을 하는 항공사들의 관계를 파악할 수 있을까 ?

• OAG(Official Airline Guide) 에는 전세계 900 여개 항공사 스케줄 관련 모든 정보를 제공

– 공동운항 정보 포함

– 일주일마다 업데이트

파일크기 1.2 기가 텍스트 파일 ( 약 1,200 백만 라인 ) 을 어떻게 분석할 것인가 ?

적시성 유연성 직관성

Page 19: 201206 데이터사이언스

Data Science 응용 – 항공사 공동운항 수익성 분석

• 현 IT 조직의 소프트웨어 구축 방법의 한계

• 다음과 같은 상황 발생 시 , 시스템 변화관리 어려움 발생– 분석 방법 추가

– 데이터 변경

– 비정형 데이터 추가

요구사항 분석

설계

개발

품질측정

적용

사 용 자 요 구 사 항 에 충 실 한 시 스 템 을

구축하기 위한 최적화

가장 많이 사용되고 있는 개발 방법론은

변화에 매우 취약

단계별 기술 전문화로 인해 개발자의

의존성 심화

Page 20: 201206 데이터사이언스

Data Science 응용 – 항공사 공동운항 수익성 분석

추출

변환

분석

IATA 포맷의 스케줄 파일에서 Codeshare 정보 추출 , DB 저장

DB 에 저장된 데이터를 Ucinet 읽기 가능한 형식으로 변환

Codeshare 분석하여 Degree Centrality 를 계산

Page 21: 201206 데이터사이언스

Data Science 응용 – 항공사 공동운항 수익성 분석

• 공급좌석수가 많을 수록 탑승율은 높음

• OutDegree 가 큰 항공사 , 즉 Codeshare 를 제공하는 횟수가 높은 것과 Load Factor 는 관련이 없음

• 대신 , Codeshare 를 많이 제공받는 항공사일 수록 탑승율이 높음

• 그 외의 중앙성 지표 (Betweenness, Closeness) 와 LF 는 관련이 없음

종속변수 : Load Factor독립변수 회귀 값 (β) 표준오차 베타 (β) t- 값

공급좌석 수 .001 .0 .327 3.106***OutDegree -.026 .052 -.074 -.501InDegree .209 .089 .359 2.349**Betweenness -.936 .978 -.094 0.956InCloseness -.156 .0.76 -.181 -2.044**OutCloseness -.158 .071 -.199 -2.231**상수 70527R2(Adjusted R2) .402(.359)F 값 9.308****p<.10, **p<.05, ***p<.01

Page 22: 201206 데이터사이언스

Data Science 응용 – 외환시장 조기경보 모형

Data Science 전통 방법론

외환 위기를 가장 잘 예측하는

경제지표 선정

모형 설계

모수 추정

모형 검증

이론 완성

유전자 알고리즘을 사용한 최적 경제지표 조합 탐색

기존 모형에서 사용한 경제지표를 활용하거나 연구자의 배경지식을 활용하여 선정

지표의 비선형 특징 수용 선형 근사화

인공신경망을 이용한 모수 추정 회귀분석을 이용한 모수 추정

RMSE, R2, 상관계수 등을 통한 유의성 검증

Page 23: 201206 데이터사이언스

Leading Indicators of Currency Crisis, Kaminsky, Lizondo, ReinhartIMF Working Paper, 1997

Data Science 응용 – 외환시장 조기경보 모형

Page 24: 201206 데이터사이언스

Data Science 응용 – 외환시장 조기경보 모형

Page 25: 201206 데이터사이언스

Data Scientist

• 데이터를 분석하고 이를 통해서 패턴 ( 가치 ) 을 찾아내고 추천 , 추정 ,

예측 , 모델링을 함으로써 데이터 상품을 생산할 수 있는 역량을 갖춘 사람

출처 : EMC Data Scientist Study. 2011.

Page 26: 201206 데이터사이언스

당행 시사점

1. Data Science 는 금융∙경제 관련 다양한 데이터를 분석하여 보고서를 작성하는 당행 업무에 최적화된 방법론으로 활용가능

– 유연성 있는 분석 환경 구성

– 대량 데이터 분석 뿐만 아니라 비정형 데이터 처리 제공

– 통계 기법뿐만 아니라 다양한 분석 기법 활용

2. 데이터 사이언티스트 양성을 위한 방안을 마련하고 협업 (Collaboration)

이 가능한 환경 조성이 필요함

Page 27: 201206 데이터사이언스

당행 시사점

Page 28: 201206 데이터사이언스
Page 29: 201206 데이터사이언스

References

• Loukides, Mike, “What is data science?”, 2012, O’ Reilly

– http://radar.oreilly.com/2010/06/what-is-data-science.html

• Woods Dan, “What is a data scientist?(LinkedIn’s Monica Rogati)”, 2011, Forbes

– http://www.forbes.com/sites/danwoods/2011/11/27/linkedins-monica-rogati-on-what-is-a-data-scientist/

• Taylor, Chris, “Career of the future: data scientist[INFORGRAPHIC]”, 2012, Mashable Business

– http://mashable.com/2012/01/13/career-of-the-future-data-scientist-infographic/

• 김우승 , “ 빅데이터를 하기 위해서는 어떤 역량이 필요한가 ? 데이터 과학자 그리고 Devops”, 2012

– http://kimws.wordpress.com/2012/02/07/