pag 빅데이터-한국에도필요한가
DESCRIPTION
Platform AdTRANSCRIPT
빅데이터 , 한국에도 필요한가 ?
Platform Advisory Group김우승
빅데이터 ?
1952.5.21
The first IBM large-scale electronic computer
IBM 701
왜 지금 빅데이터 ?
구글 , 페이스북 , 야후 ! 등은 이미 PB 급 데이터 처리
글로벌 회사 ( 특히 금융 ) 들도 PB 급 데이터를 처리
다양한 분야에 응용
빅데이터의 속성
국내의 빅데이터 ?
SKT, KT, LGU+ 네트워트 다운 없이 ...꼬박꼬박 과금
국내통신사들은 이미 PB 급 네트워크 트랙픽을 처리
PB 급 데이터 프로세싱 ?
국내의 빅데이터 ?• 네이버 , 다음과 같이 검색과 서비스를 모두 갖추지 않은 인터넷
사업자는 기본적인 접속로그 분석으로 그치는 상황
• 대부분 사용로그는 여전히 RDBMS 에 저장하고 분석
• 많은 인터넷 스타업들은 구글 애널리틱스 서비스 활용
• 대기업 , 금융등 자본이 많은 회사는 전용 DW 솔루션으로 해결
• main-memory db
• 전용 appliance
• reporting tools
기초 통계 , UV, PV, 반응률 , 시청률 계산 수준소규모의 Hadoop 클러스터를
가지고도 직접적인 성능 , 경제적 이득을 얻을 수 있음
빅데이터의 진정한 가치는 ...
•검색
•상품 추천
•사용자 프로파일링
• SIRI?
개인화 서비스
국내에서 검색 /개인화 서비스를 제대로 하고 있는 회사는 ?
Association Rule
Collaboration Filtering
빅데이터 기술
•데이터 마이닝
•기계 학습
•분산 컴퓨팅
•OS(Linux)
상대적으로 저비용으로 빅데이터를 처리할 수 있는 MapReduce 프레임워크와 분산스토리지에 대한 기술이 구글논문을 통해 알려지고 이를 기반으로 오픈소스 Hadoop 이 만들어지게 되면서 매우 짧은 기간동안에 빅데이터 시장 형성을 위한 기술적인 에코시스템을 갖추게 됨
빅데이터를 할려면 ...
• Service
• Recommendation
• Advertisement
• Data Miner
• Statistics
• Data Mining
• S/W Developer
• Mining Algorithm
• Machine Learning
• DBMS
• MapReduce
• NoSQL
• System Engineer
• Linux
• H/W, Network Engineer
• Hadoop
Data Scientist
DevOps
Software Engineer
Future ?
Real-timeData Visualization
Privacy !!!
Melon 곡추천ImportImport 멜론로그파일 취합
( 종량 /프리 /스트리밍 )멜론로그파일 취합
( 종량 /프리 /스트리밍 )사용자별
구매 /플레이 곡 수집사용자별
구매 /플레이 곡 수집 연관규칙생성연관규칙생성 정렬정렬 RankingRanking 기준일생성기준일생성 ExportExportLift 값 변경Lift 값 변경
멜론 연관규칙 마이닝 Process 실례 프로세스 실행 결과 예
①
①
② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨
②
③
④
⑤
⑥
⑦
⑧⑨
①
①
사례
예전엔 ,지금도…
SAN Storage
FTPServer
서비스서버
ETLMachine
Oracle RDBMS
Usagelogs
데이터 요약 /통계
상용마이닝솔루션
데이터수집
데이터마이닝
추천정보
MySQL
API
Local FS
고가의 상용솔루션 도입HP/SUN High-End Multi-core Single Machine
EMC/SUN 의 SAN 스토리지 시스템상용 마이닝 솔루션 및 ETL Tool
용량 확장 상대적 어려움비용이 기하급수적으로 증대
기존 Architecture 의 변경 불가피
Infrastructure
지금은 ...
SPADE
HDFS
FTPServer
서비스서버
ETLProcessor
MapReduceFramework
Usagelogs
데이터 요약 /통계
MiningProcessor
데이터수집
데이터마이닝
추천정보
MySQL/NoSQL
API
Local FS
ORACLE
SAN SAN
FUSEFUSE
상용솔루션에서 hadoop 을 이용한 Cluster Computing 환경으로 단계적으로 업그레이드
System Architecture 의 변경없이 성능 및 용량을 확장할 수 있는 Infrastructure 확보
향후 MySQL 과 NoSQL 의 적용 범위를 넓히는 방향으로 추진
Infrastructure