빅데이터시각화 -...

55
2016.09 조완섭 충북대학교 빅데이터센터 [email protected] r 043-261-3258 빅데이터 시각화

Upload: others

Post on 03-Sep-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

2016.09

조완섭충북대학교

빅데이터센터[email protected]

043-261-3258

빅데이터 시각화

조완섭([email protected])2016-09-30 2

목차

• 개요

• 시각화 기술

– 시각시각화

– 분포시각화

– 관계 시각화

– 공간시각화

– 비교시각화

– 인포그래픽

• 시각화 도구

개요

• 시각화

– 데이터 시각화(Visualization)는 데이터 분석 결과를 직관적으로 이해할 수 있도록 표현하는 기술

• 예: 지역별, 시간대별 일기예보 기상도, 지하철 노선도 등

– 자료가 의미하는 바를 직관적으로 이해하도록 지원함으로써 즉각적인 상황 판단, 정보의 빠른 확산과 기억을 지원

– 빅데이터를 시각화하면 수많은 데이터들의 무질서 속에숨겨진 패턴을 발견하여 현상 파악은 물론 정보의 확산과미래 예측에 기여함

2016-09-30 3

개요

• 최근 시각화 동향

– 빅데이터 분석과 시각화를 반복하면서 방대한 데이터가의미하는 스트리가 만들어지게 되며, 분석과 시각화는 점차 하나의 영역으로 통합되어 가는 추세

• 시각화의 영역확대

– 빅데이터 분석 결과를 직관적으로 보여주는 것을 넘어 데이터의 수집, 정제, 분석, 공유하는 전 과정에서 시각화가중요한 역할을 하는 추세임

• 시각화 관련 자료– https://www.youtube.com/watch?v=NVwB_of8ZYs

– http://www.segye.com/content/html/2015/10/04/20151004000736.html

(신문기사)

2016-09-30 4

시각화 기술

• 빅데이터 시각화 기술에는 시간 시각화, 분포 시각화, 관계 시각화, 공간 시각화, 비교 시각화, 인포그래픽 등이 있음

– 시간 시각화 기술

• 이산형 : 특정 시점의 값이나 특정 시간 구간의 값을막대그래프, 누적 막대그래프, 점 그래프 등으로 표현하는 방식

• 연속형 : 기온 변화 같이 연속적으로 변화하는 값을시계열 그래프, 계단식 그래프, LOESS 곡선 추정 등으로 표현하는 방식

2016-09-30 5

시각화 기술

• 누적막대 그래프와 시계열 그래프

2016-09-30 6

시각화 기술 - 분포

• 분포 시각화 기술

– 전체분포 : 최대, 최소, 전체분포를 나타내는 그래프로 전체의 관점에서 각 부분이 차지하는 정도를 파이 차트, 도넛 차트, 누적 막대그래프, 인터랙티브 누적 막대그래프등으로 시각화

– 시간에 따른 분포 : 최근 50년간 연령별 인구 분포와 같이시간에 따라 어떤 변화가 있었는지 나타내는 기술로 누적연속 그래프, 누적 영역 그래프, 인터랙티브 누적 영역 그래프, 선 그래프 등

2016-09-30 7

시각화 기술

2016-09-30 8

도넛차트

누적영역 그래프

시각화 기술 - 관계

• 관계 시각화

– 변수들 사이에 존재하는 관계를 찾는 기술로 상관관계, 분포, 비교로 구분할 수 있으며, 상관관계는 스캐터플롯, 스캐터플롯 행렬, 버블차트 등으로 표현할 수 있음

– 상관관계는 한 변수의 변화가 다른 변수의 변화에 어떠한영향을 미치는지를 파악하여 한 변수의 값의 변화를 통해다른 변수의 변화를 예측할 수 있도록 함 (상관관계는 스캐트플롯, 버블차트 등으로 표현)

– 분포는 평균, 중앙값, 최빈값 등을 통해 데이터가 어떤 값을 기준으로 분포하는가를 표현하는 것으로 스템플롯, 히스토그램, 밀도함수 그래프 등으로 표현할 수 있음

– 비교는 분포를 여러개 배치하여 서로 비교할 수 있도록 하는 시각화 기법으로 히스토그램 등이 사용됨

2016-09-30 9

시각화 기술

• 미국 범죄 데이터 시각화

2016-09-30 10

> crime<-read.csv("http://datasets.flowingdata.com/crimeRatesByState2005.csv", sep=",", header=TRUE)

> plot(crime$murder, crime$burglary)

<그림> 스캐트플롯

시각화 기술

2016-09-30 11

<그림> 스캐트플롯 행렬의 예

시각화 기술 - 비교

• 비교 시각화 기술

– 여러 변수의 데이터 값들을 비교하는 방법으로 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프 등이 사용됨

– 다차원 척도법 : 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성과 비유사성을 측정하여 시각화하는 방법

2016-09-30 12

시각화 기술

2016-09-30 13

17 18 19시

7월

8월

9월

월별/시간대별 교통사고 발생현황

<그림 > 히트맵 –월별/시간대별 교통사고 발생 현황

시각화 기술

2016-09-30 14

> require(graphics)

> loc <- cmdscale(eurodist)

> x <- loc[,1]

> y <- loc[,2]

> plot(x, y, type="n", xlab="", main="cmdscale(eurodist)")

> text(x, y, rownames(loc), cex=0.8)

> abline(v=0, h=0)

<그림> 다차원 척도법 - 유럽도시간 거리

시각화 기술 – 공간(지도)

• 좌표값을 가진 데이터는 지도상에서 시각화하는 것이 직관적임

• 야후, 마이크로로소프트 등 글로벌 인터넷 업체들과 네이버나카카오 등 국내 업체들에서 지도를 제공하고 있으며, 지도상에서 다양한 정보를 시각화할 수 있도록 지원함

2016-09-30 15

시각화 기술 - 인포그래픽

• 인포메이션과 그래픽의 합성어로 차트, 지도 다이어그램, 로고, 일러스트레이션 등을 활용하여 다량의 정보를 한눈에 파악할 수 있도록 하는 기술

• 시각적인 효과와 직관적인 이해를 위해 뛰어난 디자인 감각이 있어야 하지만 더 중요한 것은 전달의 목적성을 살려 내는것이며, 데이터 이면에 숨겨진 insight의 전달이 중요함

• 인포그래픽의 장점은 흥미유발, 정보습득 시간의 절감, 기억지속시간 연장, 빠른 확산 등임

2016-09-30 16

시각화 기술 - 인포그래픽

• 인포그래픽의 종류

– 통계기반인포그래픽 : 통계자료를 기반으로 그래프, 버블차트 등을 직관적으로 표현하여 내용을 한눈에 파악할 수있게 함

– 타임라인기반 인포그래픽 : 시간 순서에 따라 발생한 데이터를 인프로그래픽으로 직관적으로 표시하여 시간에 따른변화를 한눈에 파악할 수 있게 함

– 프로세스기반 인포그래픽 : 일의 흐름 또는 작동방법을 그림으로 쉽게 파악할 수 있도록 함

– 위치기반인포그래픽 : 지도를 이용하여 공간상에서 직관적인 정보 습득이 가능하도록 함

2016-09-30 17

시각화 기술 - 인포그래픽

• 통계기반 인포그래픽

2016-09-30 18

(출처: columnfivemedia.com)

시각화 기술 - 인포그래픽

• 타임라인 기반의 인포그래픽

2016-09-30 19

(출처: awesome.good.is)

시각화 기술 - 인포그래픽

• 프로세스 기반의 인포그래픽

2016-09-30 20

(출처: www.facebook.com)

시각화 기술 - 인포그래픽

• 지도기반의 인포그래픽 사례

2016-09-30 21

(출처: www.goodenergy.co.uk)

시각화 도구

• 상용 도구

2016-09-30 22

업체 제품명

SASSAS Visual Analytics

- 인메모리 기반 시각화 도구

MicroStrategy MicroStrategy MSTR 9.3.1

Oracle Oracle Endeca Information Discovery

IBM

IBM Inforsphere Data Explorer

Concert On Cloud

Project Neo

Tableau Tableau

팁코 팁코 스폿파이어

위세아이텍 WISE Visual

솔트룩스 레인보우,아이비주얼(i-VISUAL)

시각화 도구

• 오픈소스

2016-09-30 23

R Project Statistical analysis Yes With pluginLinux, Mac OS X,Unix, Windows XPor later

4 Local No

Google FusionTables

Visualizationapp/service

Yes Yes Browser 1 External server Yes

Many EyesVisualizationapp/service

Yes Limited Browser 1Public externalserver

Yes

Tableau PublicVisualizationapp/service

Yes Yes Windows, OS X 3Public externalserver

Yes

VIDIVisualizationapp/service

Yes Yes Browser 1 External server Yes

Zoho ReportsVisualizationapp/service

Yes No Browser 2 External server Yes

Exhibit Library Yes YesCode editor andbrowser

4Local or externalserver

Yes

Google Chart Tools

Library andVisualizationapp/service

Yes YesCode editor andbrowser

2Local or externalserver

Yes

JavaScript InfoVisToolkit

Library Yes NoCode editor andbrowser

4Local or externalserver

Yes

D3 Library Yes YesCode editor andbrowser

4Local or externalserver

Yes

도구영역

범위

다용도

시각화

지도

기능플랫폼

기술

수준

데이터

저장방식/

처리방식

Web

Designer를

위한설계 ?

수많은 도구들이 있음

시각화 도구

• 시각화 프로그래밍

– Python에서 Matplotlib를 사용하면 파이썬으로 2D 혹은3D 그래프를 구현할 수 있으며, D3.js나 TopoJSON을 사용하여 지도 등 다양한 시각화를 할 수도 있음

– R, Java, PHP 등 다른 프로그래밍 언어도 시각화 라이브러리를 사용하여 다양한 시각화를 수행할 수 있다. HTML,자바 스크립트, CSS 등도 시각화를 지원하는 강력한 패키지로 사용되고 있다.

– 특히, D3.js는 손쉽게 웹에서 시각화를 할 수 있는 가장 강력한 도구이다(http://d3js.org). 이는 데이터 시각화를 위한 자바스크립트 라이브러리로써 SVG와 CSS를 자바스크립트와 함께 사용해 데이터를 표시해준다.

2016-09-30 24

시각화 도구

• Tableau

– 평가판 다운로드 (15일간)( http://www.tableau.com/ko-kr/products/desktop/download )

- 교육자료http://www.tableau.com/learn/training

2016-09-30 25

2015.02조완섭충북대학교 경영정보학과대학원 비즈니스데이터융합학과

[email protected]

ETL & Data Integration

목차

• 개요

• ETL Architecture

• 추출

• 정제

• 변형 및 통합

• 로딩

• 메타데이터

• 데이터품질

• 제품

2016-09-30 Wan-Sup Cho 27

개요

• ETL (Extraction, Transformation, Loading & Data Integration)– 다양한 데이터 소스로부터 분석에 필요한 데이터를 추출(Extract)하여 변환(Transformation) 작업을 거쳐 Target System)에 로딩 (Loading)하는 과정

– BI 시스템에서 방대한 운영 데이터를 얻기 위해서 운영시스템(OLTP)에 부담을 주지 않으면서 분석용 데이터를 ETL 할 수 있어야 함

– 데이터 소스 시스템들이 서로 다른 운영 시스템, 데이터 베이스, 하드웨어 플랫폼 및 네트워크 환경을 고려하면 ETL 과정은 복잡함

2016-09-30 Wan-Sup Cho 28

2016-09-30 Wan-Sup Cho 29

(출처) Talend 발표자료

개요

2016-09-30 Wan-Sup Cho 30

(출처) Talend 발표자료

ETL Architecture

• ETL 시스템 구조

2016-09-30 Wan-Sup Cho 31

빅데이터

(출처) IK솔루션즈(주) ppt자료를 수정함

ETL Architecture

• ETL 프로세스

2016-09-30 Wan-Sup Cho 32

(출처) IK솔루션즈(주) ppt자료를 수정함

ETL Architecture

• ETL의 소스 시스템– Mainframe applications, ERP applications, CRM packages, flatfiles, Excel spreadsheets, message queue

– 최근 빅데이터까지 수용 : SNS, IoT, Audio, Video, Documents,…

• 추출 방법– JDBC, ODBC 기술활용, Program, flat file 생성, CDC(change datacapture), Web Robot, …

– 다양한 도구가 보급 : 국산/외산, 상용/오픈소스

• 정제 및 통합– 추출된 데이터는 정제 후 연계 통합(DW), Refresh 방안 수립

• 타겟 시스템– 관계형 데이터베이스

– Hadoop/NoSQL (빅데이터)

2016-09-30 Wan-Sup Cho 33

추출

2016-09-30 Wan-Sup Cho 34

(출처) IK솔루션즈(주) ppt자료를 수정함

정제

2016-09-30 Wan-Sup Cho 35

(출처) IK솔루션즈(주) ppt자료를 수정함

변형 및 통합

2016-09-30 Wan-Sup Cho 36

(출처) IK솔루션즈(주) ppt자료를 수정함

검증

2016-09-30 Wan-Sup Cho 37

(출처) IK솔루션즈(주) ppt자료를 수정함

로딩

2016-09-30 Wan-Sup Cho 38

(출처) IK솔루션즈(주) ppt자료를 수정함

메타 데이터

2016-09-30 Wan-Sup Cho 39

(출처) IK솔루션즈(주) ppt자료를 수정함

메타 데이터

2016-09-30 Wan-Sup Cho 40

(출처) IK솔루션즈(주) ppt자료를 수정함

메타 데이터

2016-09-30 Wan-Sup Cho 41

(출처) IK솔루션즈(주) ppt자료를 수정함

데이터 품질

2016-09-30 Wan-Sup Cho 42

(출처) IK솔루션즈(주) ppt자료를 수정함

데이터 품질

2016-09-30 Wan-Sup Cho 43

(출처) IK솔루션즈(주) ppt자료를 수정함

ETL History

• 최근 빅데이터 ETL 까지 발전함

2016-09-30 Wan-Sup Cho 44

Cobol 언어

Hub 병목현상

제 4세대

빅데이터 플랫폼

빅데이터를 추출하여하둡,NoSQL 등빅데이터플랫폼으로이동시킴

ETL 도구

• 도구들의 분류

– Major database vendors• IBM, Microsoft, Oracle

– Independent companies• Informatica – currently among market leaders

– Open source• Clover ETL

• Talend

– 국산 패키지• DataStreams

2016-09-30 Wan-Sup Cho 45

IBM

• Product name: InfoSphere DataStage

• Main claims:

– variety of data sources (almost any database, text,XML, web services)

– capable of handling data arriving in real-time

– scalability

• Unix (Linux) and Windows Platforms

2016-09-30 Wan-Sup Cho 46

IBM

• InfoSphere – product line that includes software from WebSphere and Information Server lines.

• Includes lots of other things

– application integration and transformation

– online marketing tools

– mobile, speech middleware

– business process management

– change data capture

– information analyzer

– data quality tools

2016-09-30 Wan-Sup Cho 47

IBM

• InfoSphere Federation Server

– Federated (virtual) integration: “Access and integratediverse data and content sources as if they were asingle resource - regardless of where the informationresides.”

– Integration across different relational products (db2,Oracle, SQL server)

– Integrity and accuracy guarantees

– Distributed query optimizer

– XML support

– Security strategies

– These are expensive products (>US$60K license)

2016-09-30 Wan-Sup Cho 48

IBM

• IBM’s view of data integration

– Key tasks, with associated products

– Tasks:• Connect to information (products: information server; datapub-lisher)

• Understand information (data architect, models for ...(banking, insurance, retail, telecom))

• Cleanse information (QualityStage: matching engine, cleaningrules etc)

• Transform information (DataStage)

• Deliver information (Federation Server, DataStage)

2016-09-30 Wan-Sup Cho 49

Microsoft

• Integration Services – part of SQL Server (SSIS)

– Supports multiple formats; converts everything intotabular format

– Transformations:• join, union

• sort

• aggregate

• lookup

• convert

– Has a data quality tool

– Goes beyond traditional ETL: e.g., data and textmining tools

2016-09-30 Wan-Sup Cho 50

Informatica

• Market leader – Informatica PowerCenter

• Provides support for

– migration

– synchronization

– warehousing

– cross-enterprise integration

• Works with multiple data formats

• Provides support for metadata management

• Real-time capabilities

2016-09-30 Wan-Sup Cho 51

Informatica

• Main orientation: scalar value transformations

• Functions: change data in a mapping

• Operators: create transformation expressions

• Syntax is SQL-based

• Part of it is essentially a programming languagein a Java-like syntax for manipulating values.

• Roughly: looks at a portion of the source data,modifies it, and changes the target dataaccordingly.

2016-09-30 Wan-Sup Cho 52

Informatica

• DD_DELETE and DD_INSERT specify what to do withdata items.

• E.g., IIF(job=‘CEO’, DD_DELETE, DD_INSERT) says:items with job being CEO are marked for deleting,others for insertion.

• Operators:– Arithmetic

– String

– Comparisons

– Logical

– (almost) everything you can imagine

• Many functions for dealing with dates in differentformats.

2016-09-30 Wan-Sup Cho 53

Informatica

• Large number of functions

• Aggregates: AVG, COUNT, MIN, MAX, MEDIAN,PERCENTILE, STDDEV, SUM, etc.

• Character functions: CONCAT, LENGTH, TRIM, etc

• Conversion functions (e.g., TO_CHAR for Date,TO_DECIMAL, TO_FLOAT, TO_DATE)

• Date functions: ADD_TO_DATE, DATE_DIFF,DATE_COMPARE, etc

• Numerical: the usual suspects.

• Scientific: SIN, COS, TAN, etc

• Search for a value in the source: LOOKUP

• This was quick; full manual – almost 250 pages.

2016-09-30 Wan-Sup Cho 54

요약

• Complex tools; very good at transforming datavalues, and at working with specific formats (MSWord, Excel, PDF, UN/EDIFACT, RosettaNet, etc)and for specific industries (finance, insurance,health)

• Much better these days at getting real-time data;very good at bulk loading, supporting multipleformats

• Not so good:– virtual integration

– complex structural transformation

– query answering

– metadata management

• A lot of effort will be put there over the coming years2016-09-30 Wan-Sup Cho 55