what is‘big data’?

19
tp://insahara.tistory.com What is‘Big Data’? 60062340 김김김 60062378 김김김 60062408 김김김 김김김김 김김김 김김김김 - 김 김김김김 김김 김김김김 김김

Upload: leland

Post on 22-Feb-2016

34 views

Category:

Documents


0 download

DESCRIPTION

What is‘Big Data’?. - 빅 데이터에 대한 전반적인 이해. 네트워크 컴퓨팅 프로젝트. 60062340 김충현 60062378 이병권 60062408 홍수범. 서론 시대의 화두 빅 데이터 국내 · 외 빅 데이터 활용 현황 빅 데이터 분석 기법 빅 데이터 분석 인프라 기술 결 론. 1. 서론 - 양적 거대함. SNS. Social media. IT convergence. 데이터의 종류 와 양 의 급격한 증가. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: What  is‘Big  Data’?

http://insahara.tistory.com

What is‘Big Data’?

60062340 김충현60062378 이병권60062408 홍수범

네트워크 컴퓨팅 프로젝트

- 빅 데이터에 대한 전반적인 이해

Page 2: What  is‘Big  Data’?

http://insahara.tistory.com

INDEX1.서론2.시대의 화두 빅 데이터3.국내 · 외 빅 데이터 활용 현황4.빅 데이터 분석 기법5.빅 데이터 분석 인프라 기술6.결론

2

Page 3: What  is‘Big  Data’?

http://insahara.tistory.com 3

데이터의 종류와 양의 급격한 증가

1. 서론 - 양적 거대함

SNS Social media IT convergence

Page 4: What  is‘Big  Data’?

http://insahara.tistory.com 4

산업 시대 = 철 , 석탄 IT 시대 = 인터넷

모바일 스마트 시대 = ?

1. 서론 - 경제 변화의 핵심 자원 역할

빅 데이터 !

Page 5: What  is‘Big  Data’?

http://insahara.tistory.com

Volume( 양 )

Variety( 다양성 )Velocity( 속도 )

• 페타 (Peta : )• 엑사 (Exa : ) • 제타 (Zeta : )

5

2. 시대의 화두 빅 데이터 – 빅 데이터란 ?

3V

관련도구 , 플랫폼 , 분석기법까지 포괄하는 용어로 변화

의미 있는 결과 도출이 가능한 수십∼수천 TB 에 달하는 거대 데이터 집합

Page 6: What  is‘Big  Data’?

http://insahara.tistory.com 6

2. 시대의 화두 빅 데이터 – 어떻게 활용 할 수 있을까 ?

Social Graph 와 패턴• Network 구조와 정보 패턴 파악

트랜드의 감지와 예측• 사건의 징후와 전개과정을 감지

데이터에 근거한 의사결정• 경영자의 직관을 보완하는 효과적인 의사결정 지원

예측 모형과 시뮬레이션• 전략실행 효과의 최적화

Page 7: What  is‘Big  Data’?

http://insahara.tistory.com 7

3. 국내 · 외 빅 데이터 활용 현황 – 국가 (U.S.A)

국토보안 - 국토안보부• 9.11 이후 국토안보부를 중심으로 테러 · 범죄 방지를 위한 범정부적 빅 데이터 수집 , 분석 및 예측체계 도입

치안 - FBI 의 종합 DNA 색인시스템 (CODIS)

• DNA 포렌식 , 클라우드 DNA 분석 등 “빅 DNA 데이터 " 의 활용을 통해 2007 년 45,400 건의 범인 DNA Hit rate 달성

의료 - 오바마 Health.20 – 필박스 프로젝트 (Pillbox)

• 수집된 빅 데이터를 통해 후천성 면역결핍증 (HIV) 등 관리대상 주요 질병의 분포 , 연도별 증가 등에 대한 통계치 확보 가능

Page 8: What  is‘Big  Data’?

http://insahara.tistory.com 8

3. 국내 · 외 빅 데이터 활용 현황 – 국가 (U.K , Singapore)

정보공개 - 정부 사이트 (data.gov.uk)

• 공공부문의 정보 공유 및 활용을 위한 데이터 원스톱 서비스 제공• 일반인들의 참여를 장려하고 아이디어 수렴 , 앱 개발 , 데이터 공개 등의 주제에 대한 커뮤니티 제공

국가 위험관리 - RAHS(Risk Assessment & Horizon Scanning) 시스템• 질병 , 금융위기 등 모든 국가적 위험을 수집 및 분석하여 위험을 방지• 수집된 위험 정보는 시뮬레이션 , 시나리오 기법 등을 통해 분석되어

사전에 위험을 예측하고 대응 방안을 모색함

Page 9: What  is‘Big  Data’?

http://insahara.tistory.com 9

3. 국내 · 외 빅 데이터 활용 현황 – 국내

• 데이터와 같은 데이터의 증가보다 인터넷 트래픽의 증가를 더 심각하게 생각• 데이터의 활용이라는 측면의 연구는 상대적으로 부족

빅 데이터 활용 추진 방안

Page 10: What  is‘Big  Data’?

http://insahara.tistory.com 10

• 가장 정교한 검색결과 제공• 빅 데이터 처리 핵심기술 MapReduce 공개

• 빅 데이터 처리 최고 자리를 두고 구글과 경쟁 중• 2012 미 대선 - 부동층 파악 , 개인별로 맞춤형 선거 캠페인을 전개

ㅇㅇㅇ

3. 국내 · 외 빅 데이터 활용 현황 – 기업

• 사용자 정보처리를 통해 제안되는 ‘추천’ 시스템에서 전체 매출 30% 발생

Page 11: What  is‘Big  Data’?

http://insahara.tistory.com 11

4. 빅 데이터 분석 기법 – Text Mining

Text min-ing

• 의미 있는 정보 추출 • 다른 정보와의 연계성을 파악 • 텍스트가 가진 카테고리를 검색

텍스트 마이닝 과정

비 · 반정형 텍스트 데이터를 자연어 처리 기술에 기반하여 유용한 정보를 추출하여 가공

정보 검색 정보 재생산

Page 12: What  is‘Big  Data’?

http://insahara.tistory.com

주관성 분석

극성 분석극성의 정도 분석

12

4. 빅 데이터 분석 기법 – Opinion Mining

Opinion mining

• 특정 서비스 및 상품에 대한 시장 규모 예측 , 소비자의 반응 , 입소문 분석 등에 활용• 공공분야의 경우 민원의 원인이나 문제점 등을 파악하는 것이 용이해 서비스를 개선

Opinion Mining 3 단계

웹사이트와 소셜 미디어에 나타난 여론과의견을 분석하여 유용한 정보로 재가공하는 기술

선호도를 나타내는 표현 · 단어 자원의 축적이 필요

Page 13: What  is‘Big  Data’?

http://insahara.tistory.com

1. 소셜 네트워크의 위상학적 구조 분석 2. 네트워크 구조의 시간에 따른 진화를 분석

3. 네트워크상의 콘텐츠 흐름을 분석 , 종합 4. 관심사 , 성향 및 행동 패턴을 분석 추출

13

4. 빅 데이터 분석 기법 – Social Network Analytics

Social Net-work Analyt-

ics

- Social Network Analytics 4 단계 -

페이스북 , 트위터등의 소셜 네트워크 서비스에서 생산되는 데이터를 분석 , 의미 있는 정보를 추출하는 기술

프라이버시 보호 등 부작용 대응을 위한 기술개발 및 산업육성 필요

Page 14: What  is‘Big  Data’?

http://insahara.tistory.com 14

5. 빅 데이터 분석 인프라 기술 – Hadoop

Hadoop 오픈 소스 분산처리기술 프로젝트 . 현재 정형 / 비정형 빅 데이터 분석에서 가장 선호되는 솔루션

개발자는 맵리듀스 프레임워크 기반의 자바 프로그램을 개발하고 하둡 플랫폼에서 이를 실행해 대량의 데이터를 병렬로 처리

- 하둡 구조 & 대응하는 구글 분산처리기술 -

Page 15: What  is‘Big  Data’?

http://insahara.tistory.com

R 의 특징

• 그래프로 시각화 가능• Java, Python 등 다른 프로그래밍 언어와 연결도 용이• Mac OS, 리눅스 / 유닉스 , 윈도우 등의 대부분의 컴퓨팅 환경

을 지원15

5. 빅 데이터 분석 인프라 기술 – R

R 통계 계산 및 시각화를 위한 언어 및 개발환경 . 모델링 , 최신 데이터 마이닝 기법까지 구현 / 개선이 가능

시각화를 통해 데이터의 직관적인 분석과 이해 도움

Page 16: What  is‘Big  Data’?

http://insahara.tistory.com

NoSQL

MongDB

HbaseCassandra

SQL( 관계형 DB) NoSQL

정보 회계정보 , 고객정보 등 중요치 않으나 데이터 양이 많고 급격히 늘어나는 시스템

환경 보통 환경 클라우드 컴퓨팅처럼 수천 , 수만대의 서버로 이뤄진 분산 환경

장점 무결성 비용과 확장성처리방법 오라클 RAC 등으로 분산처리 페타바이트 수준의 데이터 처리예 오라클 RAC 빅 데이블 ( 구글 earth)특징 조인 (JOIN), 고정된 스키마 단순한 키와 값의 쌍으로만 이루어져 있음

16

5. 빅 데이터 분석 인프라 기술 – NoSQL(Not-only SQL)

NoSQL 전통적인 관계형 데이터베이스 RDBMS 와 다르게 설계된 비관계형 데이터베이스를 의미

- 대표적인 NoSQL 솔루션 -

Page 17: What  is‘Big  Data’?

http://insahara.tistory.com 17

장 점

미래에 능동적으로 대응하거나 변화 예측 가능

기존 사업의 효율적 지원을 위한 심층적인 데이터 기반 서비스

제공

기술이나 역량을 보유한 기업이나 국가가 미래의

경쟁력을 갖게 될 것

하지만기존 환경과의 연계 , 사용의 용이성 , 보안 , 시각화 등이

가능해야 함

볼륨의 폭증에 대한 기회를 확보할 수 있는 실질적인 방법은

미흡한 상황

빅 데이터 방식의 분석을 통해 더 많은 성과를 거둬야 한다는

압박감 증가

분석기술과 관리 능력에 초점을 맞춰 심층적인 개선에 주력해야 할 것 !

6. 결론 – 기업의 입장에서

빅 데이터를 활용해서 새로운 가치창출과 이익 극대화를 위한 연구가 필요 !

다양한 빅 데이터 관련 오픈소스 중기업에 적당한 기술을 선택 해야 할 것 !

Page 18: What  is‘Big  Data’?

http://insahara.tistory.com 18

Big Data

무수한 정보에 대한정보 분석력

다양한 정보에 대한 활용 능력

Big Data에 대한 팀원들과의 정보 이해도

시대에 변화에 따른 빠른 적응력

Developer

6. 결론 – 개발자의 입장에서

Page 19: What  is‘Big  Data’?

http://insahara.tistory.com 19

Thank you