빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11....

25
2019. 11.7 산업테마 2019-54 이 보고서는 코스닥 기업에 대한 투자정보 확충을 위해 발간한 보고서입니다. 산업테마보고서 빅데이터플랫폼/활용 요약 산업 생태계 분석 업계 환경 분석 기술 심층 분석 작성기관 한국기업데이터(주) 최지영 선임전문위원 작 성 자 ■ 본 보고서는 「코스닥 시장 활성화를 통한 자본시장 혁신방안」의 일환으로 코스닥 기업에 대한 투 자정보 확충을 위해, 한국거래소와 한국예탁결제원의 후원을 받아 한국IR협의회가 기술신용평가기 관에 발주하여 작성한 것입니다. ■ 본 보고서는 투자 의사결정을 위한 참고용으로만 제공되는 것입니다. 또한 작성기관이 신뢰할 수 있는 자료 및 정보로부터 얻은 것이나, 그 정확성이나 완전성을 보장할 수 없으므로 투자자 자신 의 판단과 책임하에 종목선택이나 투자시기에 대한 최종 결정을 하시기 바랍니다. 따라서 본 보고서를 활용한 어떠한 의사결정에 대해서도 본회와 작성기관은 일체의 책임을 지지 않습니다. ■ 본 보고서의 요약영상은 유튜브로도 시청 가능하며, 영상편집 일정에 따라 현재 시점에서 미게재 상태일 수 있습니다. ■ 본 보고서에 대한 자세한 문의는 한국기업데이터(주)(TEL.02-3215-2753)로 연락하여 주시기 바 랍니다. 특화된 분석을 지원하는 플랫폼 발전으로 수요 확대 전망 요약 영상 보러가기

Upload: others

Post on 17-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

2019. 11.7

산업테마 2019-54

이 보고서는 코스닥 기업에 대한 투자정보 확충을 위해 발간한 보고서입니다.

산업테마보고서

빅데이터플랫폼/활용

요약

산업 생태계 분석

업계 환경 분석

기술 심층 분석

작 성 기 관 한국기업데이터(주) 최지영 선임전문위원작 성 자

■ 본 보고서는 「코스닥 시장 활성화를 통한 자본시장 혁신방안」의 일환으로 코스닥 기업에 대한 투

자정보 확충을 위해, 한국거래소와 한국예탁결제원의 후원을 받아 한국IR협의회가 기술신용평가기

관에 발주하여 작성한 것입니다.

■ 본 보고서는 투자 의사결정을 위한 참고용으로만 제공되는 것입니다. 또한 작성기관이 신뢰할 수

있는 자료 및 정보로부터 얻은 것이나, 그 정확성이나 완전성을 보장할 수 없으므로 투자자 자신

의 판단과 책임하에 종목선택이나 투자시기에 대한 최종 결정을 하시기 바랍니다.

따라서 본 보고서를 활용한 어떠한 의사결정에 대해서도 본회와 작성기관은 일체의 책임을 지지

않습니다.

■ 본 보고서의 요약영상은 유튜브로도 시청 가능하며, 영상편집 일정에 따라 현재 시점에서 미게재

상태일 수 있습니다.

■ 본 보고서에 대한 자세한 문의는 한국기업데이터(주)(TEL.02-3215-2753)로 연락하여 주시기 바

랍니다.

특화된 분석을 지원하는 플랫폼 발전으로 수요 확대 전망

요약 영상 보러가기

Page 2: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

1

특화된 분석을 지원하는

플랫폼 발전으로 수요 확대 전망

▶ 빅데이터에 대해 특화된 분석을 지원하는 플랫폼 발전으로

빅데이터 플랫폼 수요 확대 전망

▶ 기존 빅데이터 문제점을 해결한 차별화된 플랫폼 구축 필요

▶ 데이터 공개와 공유, 수집 기반 조성 필요

특화된 분석을 지원하는

플랫폼 수요 확대 전망빅데이터 플랫폼은 빅데이터에서 가치를 추출하기 위한 일련의 과정(데

이터 수집→ 저장 → 처리 → 분석 → 시각화)을 지원하기 위한 프로세

스를 규격화한 기술이다.

데이터의 수집부터 시각화까지의 모든 단계를 포괄하는 범용적인 플랫

폼의 개발뿐만 아니라, 특화된 데이터에 대한 순차적 처리가 가능한 플

랫폼에 대한 수요도 확대될 전망이다. 의료기록 분석, 환경 모니터링, 범

죄 현황 분석, 무인자동차 자료 분석 등과 같이 특정 영역에서 발생하는

빅데이터에 대해 특화된 분석을 지원하는 플랫폼이 발전하는 추세이다.

기존 빅데이터 문제점을

해결한 차별화된 플랫폼 구축

필요

빅데이터 기술의 성공은 분석 단계에서의 기계학습, 인공지능과의 연계

하여 실시간으로 의사결정 지원 등의 가치를 창출할 수 있는 기술 역량

이 가장 중요성 성공요인으로 등장할 전망이다.

빅데이터 플랫폼 기업들은 빅데이터가 극복해야 하는 실시간 처리, 메

모리 기반 처리, 쿼리의 용이성, 다양한 파일 시스템 접근성 등의 문제

점을 해결하는 전략을 추진하며 기업 생태계를 형성하고 있다.

따라서 기존 문제점을 해결하여 차별화된 성능 구축으로 세계 수준의

경쟁력 확보가 필요하다.

데이터 공개와 공유, 수집

기반 조성 필요

빅데이터와 빅데이터 플랫폼은 아직은 인프라 구축과 데이터를 효율적

으로 축적하는 기술 발전에 머무르는 상황으로 평가되고 있으며, 빅데

이터의 장점인 비정형 데이터, 실시간 분석 영역은 현재 기술 개발 진

행 중으로, 본격적인 활용은 미흡한 상황이다.

오픈소스 기반의 플랫폼 기술 발전으로 빅데이터 플랫폼 생태계에서

전통적인 클라우드 기업뿐만 아니라 수요자 중심의 커스터마이징화된

SW를 제공하는 중소벤처기업들도 시장에서 성장할 수 있게 되었다.

국내 빅데이터 플랫폼의 경쟁력 확보를 위해서는 데이터 강국으로 진입

하기 위한 데이터 공개와 공유, 수집 기반을 조성하는 것이 중요하다.

오픈소스 역량 확보를 위한 사회적 분위기를 마련하고, 오픈소스 기반

빅데이터 분석 Tool도 한국형으로 개발하고 이를 기반으로 공공 빅데

이터 플랫폼의 역량을 제고할 필요가 있다.

Page 3: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

2

Ⅰ. 산업 생태계 분석

빅데이터 플랫폼의

정의

빅데이터 플랫폼은 빅데이터에서 가치를 추출하기 위한 일련의 과정(데이터 수집

→ 저장 → 처리 → 분석 → 시각화)을 지원하기 위한 프로세스를 규격화한 기술

이다.

빅데이터 플랫폼은 확장성 있는 대용량 처리 능력, 이기종 데이터 수집 및 통합 처

리 능력, 빠른 데이터 접근 및 처리 능력, 대량 데이터 저장 관리 능력, 대량의 이

기종 데이터를 원하는 수준으로 분석할 수 있는 능력 등을 갖춰야 한다.

[그림 1] 빅데이터 플랫폼 개념도

*출처: 네이버 지식백과

빅데이터 정의 및

분류

빅데이터(bigdata)란 기존 데이터베이스로 처리할 수 있는 역량을 넘어서는 초대

용량(테라바이트 또는 페타바이트급)의 정형, 비정형 데이터를 생성, 수집, 저장,

관리 및 분석하여 가치를 추출하고 지능화 서비스의 기반을 지원하는 기술이다.

[그림 2] 빅데이터의 특징

*출처: 빅 데이터 통합 솔루션, uBEANs, 2015

Page 4: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

3

데이터 수집·저장·처리 등 빅데이터 플랫폼 운영기술과 빅데이터 분석·예측 기

술을 활용하여 빅데이터를 활용할 수 있도록 가공하거나, 분석한 데이터를 시각화

하여 새로운 통찰력과 비즈니스 가치를 창출하는 빅데이터 분석·활용 기술로 분

류 가능하다.

[표 1] 빅데이터의 분류

기술 내용

빅데이터 수집/유통

Ÿ 빅데이터 수집/정제/융합/가공Ÿ 실시간 ETL/ELTŸ 데이터 생성/증강Ÿ 민간정보 은닉, 비식별화 및 필터링Ÿ 센서/머신 데이터 수집 및 정제Ÿ 웹/소셜 데이터 수집 및 정제Ÿ 데이터 품질 및 생명주기 관리Ÿ 데이터 유통 및 공유

빅데이터 저장/처리/관리

Ÿ 대규모 데이터 분산 저장Ÿ 대규모 데이터 분산 처리Ÿ 복합 스트림/이벤트 데이터 실시간 처리Ÿ 인메모리 기반 실시간 데이터 관리Ÿ 운영/분석 통합형 데이터 관리Ÿ 데이터 큐레이션 자동화Ÿ 가상 데이터맵 관리

빅데이터 분석/예측

Ÿ 통계 분석 및 데이터 마이닝Ÿ 대규모 기계학습/딥러닝Ÿ 모델링 및 시뮬레이션Ÿ 추론 및 예측 분석Ÿ 고속 데이터 스트림 실시간 분석Ÿ 계층형 협업 분석Ÿ 지시적 분석Ÿ 이상치 검출

빅데이터 활용/시각화

Ÿ 데이터 시각화 구성(인포그래픽스)Ÿ 데이터 그래픽 프로그래밍 도구Ÿ 소셜 데이터 분석 및 응용Ÿ 자동화 시설 오류 예측 및 최적화Ÿ 이슈 탐지 및 트렌드 예측Ÿ 빅데이터 서비스

*출처: 중소기업 전략기술로드맵 2019-2021 - 빅데이터, 중소벤처기업부, 2019.01 참고 KED 작성

Page 5: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

4

빅데이터 플랫폼의

범위

빅데이터 플랫폼은 빅데이터에서 가치를 추출하기 위한 일련의 과정을 지원하기

위한 프로세스를 규격화한 기술·서비스로 수집→저장→처리→분석→시각화 등이

주요 구성요소이다.

전통적인 통계적 처리와 빅데이터 플랫폼의 차별성은 큰 틀에서는 데이터의 수집,

저장, 처리 영역에서 발생하는 것으로 평가된다. 분석, 시각화 측면에서는 가치 추

출을 위해서 전통적인 통계 분석에서는 인과관계를 최종적인 결과로서 제시한다면,

빅데이터에서는 연관관계·상관관계를 중심으로 시사점을 도출하려는 경향을 보인

다.

[표 2] 빅데이터 플랫폼의 구성 요소별 주요 기능들

수집 저장 처리 분석 표현

비정형 수집정형 수집

ETLWeb Robot

EAI, ESB, FTP 등Open API

원본 데이터NoSQL메모리

검색엔진데이터보안

배치처리실시간처리(CEP)

텍스트분석Machine Learning

통계Data MiningSNS 분석

예측분석(알고리즘)

시각화

*출처: “빅데이터 플랫폼 현황 및 이슈 분석”, ETRI, 2017.12

빅데이터 플랫폼은 크게 소프트웨어 계층, 플랫폼 계층, 인프라 스트럭처 계층으로

구분된다. 소프트웨어 계층은 데이터 처리 및 분석 엔진, 데이터 수집 및 정제 모

듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈 등으로 구성되

며, 빅데이터 처리 및 분석과 이를 위한 데이터 수집 및 정제 등을 수행한다.

[그림 3] 빅데이터 플랫폼의 구조

*출처: “빅데이터 컴퓨팅 기술”, 한빛아카데미, 2014년

플랫폼 계층은 작업 스케쥴링 모듈, 데이터 및 자원할당 모듈, 프로파일링 모듈,

데이터 관리 모듈, 자원관리 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링

Page 6: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

5

모듈, 보안 모듈 등으로 구성되며, 빅데이터를 응용하는 기반을 제공하며 데이터

처리 및 분석과 이를 위한 데이터 수집 및 정제 등을 수행한다.

인프라 스트럭처 계층은 자원 배치 모듈, 노드 관리 모듈, 데이터 관리 모듈, 자원

관리 모듈, 서비스 관리 모듈, 사용자 관리 모듈, 모니터링 모듈, 보안 모듈 등으로

구성되며, 빅데이터 처리 및 분석에 필요한 자원을 제공한다.

[표 3] 빅데이터 플랫폼의 구조 및 세부기술

*출처: “빅데이터 컴퓨팅 기술”, 한빛아카데미, 2014년

구분 모듈 설명

소프트웨어 계층

데이터 처리 및 분석 엔진 Ÿ 데이터 처리, 분석

데이터 수집 및 정제 모듈 Ÿ 데이터 추출, 데이터 변환, 데이터 표현

서비스 관리 모듈 Ÿ 소프트웨어 계층에서 제공하는 서비스 관리

사용자 관리 모듈Ÿ 사용자 인증 및 접속관리Ÿ 사용자별 서비스 관리 및 서비스 수준 협약

관리

모니터링 모듈Ÿ 플랫폼 및 인프라 스트럭처 서비스 가용성

및 성능 모니터링

보안 모듈 Ÿ 소프트웨어 계층 보안 관리

플랫폼 계층

작업 스케줄링 모듈 Ÿ 사용자의 응용을 실행하는 작업을 스케줄링

데이터 및 자원 할당 모듈Ÿ 사용자 데이터의 초기 데이터 및 자원 할당Ÿ 동적 상황을 고려한 데이터 및 자원의 재할

당을 수행

프로파일링 모듈Ÿ 인프라 스트럭처 자원을 할당하는 자원Ÿ 사용자의 응용 프로파일링 등을 수행

데이터 관리 모듈 Ÿ 사용자 데이터 관리

자원 관리 모듈 Ÿ 인프라 스트럭처 자원 관리

서비스 관리 모듈 Ÿ 플랫폼 계층에서 제공하는 서비스 관리

사용자 관리 모듈Ÿ 사용자별 인증 및 접속 관리Ÿ 사용자별 서비스 관리

모니터링 모듈Ÿ 인프라 스트럭처 서비스 가용성 및 성능 모

니터링

보안 모듈 Ÿ 소프트웨어 계층 보안관리

인프라 스트럭처

계층

자원 배치 모듈 Ÿ 사용자에게 제공할 자원 배치

노드 관리 모듈 Ÿ 인프라 스트럭처 내의 노드 관리

데이터 관리 모듈 Ÿ 인프라 스트럭처 내의 스토리지 관리자원 관리 모듈 Ÿ 인프라 스트럭처 내의 네트워크 관리

서비스 관리 모듈Ÿ 인프라 스트럭처 계층에서 제공하는 서비스

관리

사용자 관리 모듈Ÿ 사용자별 인증 및 접속관리Ÿ 사용자별 서비스 관리 등

모니터링 모듈Ÿ 노드, 스토리지, 네트워크 등 자원 가용성

및 성능 모니터링

보안 모듈 Ÿ 소프트웨어 계층 보안 관리

Page 7: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

6

빅데이터

플랫폼의

산업특징 및 구조

빅데이터 플랫폼을 포함하는 빅데이터 산업의 특징은 1) 규모의 경제, 2) 후방산

업에 대한 파급 효과 대(大), 3) 기술·노동집약적 산업, 4) 경기 동행산업, 5) 라

이프 사이클이 짧은 산업, 6) 진입장벽이 낮은 산업 등으로 요약할 수 있다.

[표 4] 빅데이터 산업 특징

산업 특징 세부 내용

규모의 경제

일반적인 상품의 경우 규모에 대한 수확체감의 특성을 보이지만 소프트웨어의 경우 생산이 증가할수록 소프트웨어 원본의 평균 개발비용이 감소함으로써 규모의 경제 특성을 가지는 바 사용자의 수가 생산비용 측면에서 매우 중요한 역할을 함.

후방산업에 대한 파급 효과 대(大)

SW는 그 적용 범위가 광범위해져 산업 전반에 걸쳐 적지 않은 영향을 미치고 있으며, 전통적인 기계설비나 가전제품, 자동차 등에서도 이제는 SW가 없이는 그 기술적인 특성을 발휘할 수가 없을 정도로 전 산업영역에서 핵심적인 역할을 수행하고 있음.

기술·노동집약적 산업

빅데이터는 하드웨어, 소프트웨어, 서비스가 모두 절묘하게 융합되어야만 성과를 낼 수 있을 정도로 고난도의 역량을 필요로 하는 고도의 지식 집약적이며 고급 노동집약적인 산업임.

경기 동행산업일반적 패키지 SW 산업은 경기에 후행하는 특성을 보여 왔으나, 최근에는 동행하는 추세를 보임. SW에 대한 투자가 비용이라는 인식에서 경쟁력 강화의 수단으로 전환이 되는 추세임.

라이프 사이클이 짧은 산업

급속한 기술발전으로 제품의 라이프 사이클(Life Cycle)이 매우 짧으며, 새로운 시장이 지속적으로 창출되며 업그레이드를 통한 지속적인 유지 보수가 필요한 산업임.

진입장벽이 낮은 산업

비교적 대규모의 설비투자가 필요하지 않고 소자본으로 시장 진입이 가능하여 산업 내 신규 진출 기업이 지속적으로 증가하고 있어 동 산업 내 경쟁이 치열해지고 있음.

*출처: 한국신용정보원(2016), KED 재가공

빅데이터 플랫폼을 구성하는 하둡, 맵리듀스, 스파크, 하이브 등 핵심 기술들은 모

두 오픈소스로 개발 중이며, 글로벌 기업들의 오픈소스 채택 및 활용은 꾸준한 증

가세에 있다. 빅데이터 플랫폼 산업의 전방산업은 BFSI, 제조업, IT, 정부, 통신,

운송, 헬스케어, 에너지 및 유틸리티, 소매 등 분야이며, 후방산업은 빅데이터 플랫

폼 개발에 사용되는 주요 핵심요소기술인 소프트웨어 개발 툴/장비 등이 있다.

[표 5] 빅데이터 플랫폼 분야 산업연관구조

후방산업 빅데이터 플랫폼 전방산업

Ÿ 소프트웨어 개발 툴/장비

Ÿ 하둡Ÿ 맵리듀스Ÿ 스파크Ÿ 하이브 등

Ÿ BFSI, 제조업, IT, 정부, 통신, 운송, 헬스케어, 에너지 및 유틸리티, 소매 등

*출처: KED 작성

Page 8: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

7

해외시장 현황 시장조사기업인 QYResearch(2019.02)에 따르면, 전 세계 빅데이터 플랫폼(Big

Data Platform) 시장은 2018년 약 411억 4,724만 달러에서 연평균 11.22% 성

장하여 2025년 약 866억 1,407만 달러에 이를 것으로 전망된다.

[그림 4] 빅데이터 플랫폼 세계 시장 규모(단위: 억 달러)

*출처: Global Big Data Platform Market Size, Status and Forecast 2019-2025, QYResearch,

2019.02 (연구개발특구진흥재단 제공)

웹/모바일의 대중화/일상화, 데이터에 대한 이해도 증가와 데이터를 처리할 수 있

도록 지원하는 ICT 기술의 발전, 다양한 형태와 유형의 빅데이터 증가는 빅데이터

플랫폼 시장 성장에 긍정적인 영향을 미칠 전망이다.

국내시장 현황 과학기술정보통신부의 2018 데이터산업 현황 조사(2019.03)에 따르면, 데이터솔

루션 전체 시장은 2014년 1조 3,619억 원, 2015년 1조 4,124억 원에서 2018년

1조 7,561억 원으로 연평균 7.5% 성장한 것으로 나타났다.

데이터솔루션 시장에서 가장 높은 비중을 차지하는 시장은 DBMS 시장으로 2018

년 기준 전체 데이터솔루션 시장의 36.5%를 차지하고 있으며, 데이터 플랫폼 시

장은 10.9%의 비중을 보이고 있다.

[표 6] 데이터솔루션 중분류별 시장규모(단위: 억 원)

구분 2014년 2015년 2016년 2017년 2018년 증감률(17~18)

CAGR(15~18)

데이터 수집 1,076 1,115 1,345 1,393 1,499 7.6% 10.4%

DBMS 5,502 5,727 6,148 6,121 6,403 4.6% 3.8%

데이터 분석 1,121 1,157 1,249 1,325 1,584 19.5% 11.0%

데이터 관리4,531 4,699 5,367

4,628 4,887 5.6%9.5%

데이터 보안 1,213 1,279 5.5%

데이터플랫폼 1,389 1,426 1,611 1,776 1,907 7.4% 10.2%

전체 13,619 14,124 15,720 16,457 17,561 6.7% 7.5%

*출처: 2018 데이터산업 현황 조사, 과학기술정보통신부, 2019.03

Page 9: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

8

국내 빅데이터 플랫폼 시장은 2014년 1,389억 원, 2015년 1,426억 원에서

2018년 1,907억 원으로 연평균 10.2% 성장한 것으로 나타났다. 2018년 빅데이

터 플랫폼 시장은 전년 대비로는 7.4% 성장하였다.

국내 빅데이터 플랫폼 시장은 아직 초기 시장이며, 활성화 시작 단계로 보인다. 국

내 시장은 해외 클라우드 인프라 제공 업체를 중심으로 빅데이터 플랫폼 시장 중

심으로 우선 형성되고 있다. 아직 국내 빅데이터 플랫폼 시장은 크게 열리지 않았

으나 향후 시장 활성화 단계에서 다양한 제품 출시가 기대되는 시장이다.

[표 7] 빅데이터 플랫폼 영역별 시장규모(단위: 억 원)

구분 2015년 2016년 2017년 2018년 증감률(17~18)

데이터 플랫폼

라이선스361

(25%)352

(22%)408

(23%)439

(23%)7.6%

개발823

(58%)958

(59%)1,030(58%)

1,125(59%)

9.2%

유지보수242

(17%)301

(19%)338

(19%)343

(18%)1.5%

계 1,426 1,611 1,776 1,907 7.4%

*출처: 2018 데이터산업 현황 조사, 과학기술정보통신부, 2019.03

영역별로는 라이선스, 개발, 유지보수 등으로 구분되고 2018년 기준 라이선스

23%, 개발 59%, 유지보수 18%의 비중을 보이고 있으며, 향후 2015~2018년과

동일한 성장률로 성장할 것으로 가정하면 국내 빅데이터 플랫폼 시장은 2025년

3,757억 원의 시장을 형성할 것으로 전망된다.

[그림 5] 빅데이터 플랫폼 국내 시장규모 및 전망(단위: 억 원)

*시장규모 산출근거: 2019~2025년은 CAGR(2015~2018) 10.2% 적용 KED 추정

[표 8] 빅데이터 플랫폼 국내 시장규모 및 전망(단위: 억 원)

구분 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 CAGR

시장규모 1,426 1,611 1,776 1,907 2,101 2,315 2,550 2,810 3,096 3,410 3,757 10.2%

*시장규모 산출근거: 2019~2025년은 CAGR(2015~2018) 10.2% 적용 KED 추정

Page 10: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

9

Ⅱ. 업계 환경 분석

해외업체 동향 빅데이터 플랫폼 기업들은 빅데이터가 극복해야 하는 실시간 처리, 메모리 기반 처

리, 쿼리의 용이성, 다양한 파일 시스템 접근성 등의 문제점을 해결하는 전략을 추

진하며 기업 생태계를 형성하고 있다. 빅데이터 플랫폼을 구현하는 기업은 토털솔

루션을 제공하는 경우와 특정 영역의 솔루션 중심으로 제공하는 경우로 구분가능

하다. 해외의 주요 토털솔루션 제공 빅데이터 플랫폼 업체 현황은 다음과 같다.

[표 9] 빅데이터 플랫폼 분야 세계 주요 업체 현황

기업명 강점 플랫폼 주요 특징

아마존AWS

(Amazon Web Service)아마존 EC2, 아마존 S3

Ÿ 클라우드 컴퓨팅 서비스Ÿ 인공지능 비서 알렉사를 AWS와 연계

IBMInfoSpheres BigInsights

Stream 등Ÿ 기업용 솔루션의 전통적인 강자Ÿ 빅데이터와 인공지능 결합

마이크로소프트

Azure

Ÿ 클라우드 컴퓨팅 플랫폼 및 인프라스트럭처 서비스

Ÿ Azure IoT Suite를 통해 IoT를 손쉽게 구현

오라클Oracle R for Hadoop,

Data Visualization 클라우드 서비스

Ÿ 가장 성공적인 데이터베이스 기업

SAPHANA 클라우드 플랫폼

빅데이터 허브Ÿ 인메모리 컴퓨팅 플랫폼(SAP S/4

HANA) 제공 중

구글 구글 클라우드 플랫폼Ÿ 스토리지, 빅데이터, 머신러닝 기능 제공Ÿ 클라우드를 저렴하게 사용할 수 있는 세

분화된 가격 정책을 도입

인텔 Xeon 프로세스Ÿ 인메모리 지원을 강화한 서버용 프로세서

Xeon Process E7 등 제품 개발

시스코CPA(Common Platform

Architecture)Ÿ 하둡 기반 빅데이터 어플라이언스 플랫폼

GE PredixŸ 산업인터넷용 어플리케이션을 적시에 개

발할 수 있도록 지원

맵알(MapR)Converged Data

PlatformŸ 하둡 상용 솔루션 전문 기업Ÿ 엣지(Edge) 플랫폼 강화 전략 추진

클라우데라(Cloudera)

DSWB(Data Science WorkBench)

Ÿ 하둡 상용 솔루션 전문 기업Ÿ 교육 및 기술지원 서비스에 주력

호튼웍스(Hortonworks)

HDP(Hortonworks Data Platform)

Ÿ 하둡 상용 솔루션 전문 기업Ÿ 2019년 1월 클라우데라에 합병됨.

DataStax DataStax Studio Ÿ 아파치 카산드라 상용화 버전 개발Informatica PowerCenter Ÿ 데이터 통합·관리 SW업체

VMwareVMware Cloud

Management Platform(vSPHERE, vRealize 등)

Ÿ x86 호환 컴퓨터를 위한 가상화 SW공급Ÿ 크로스 클라우드 아키텍처 개발Ÿ 이기종 하이브리도 클라우드 관리 솔루션

*출처: “빅데이터 플랫폼 현황 및 이슈 분석”, ETRI, 2017.12 기반 KED 재가공

Page 11: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

10

[미국/Amazon]은 제프 베조스가 1994년 미국 시애틀에 설립한 전자상거래를 기

반으로 한 IT 기업으로 전자 상거래 이외에도 클라우드 서비스(Cloud Service)인

아마존 웹 서비스(Amazon Web Service)를 제공하고 있다. Amazon Web

Services(AWS)는 전 세계적으로 분포한 데이터 센터에서 165개가 넘는 완벽한

기능의 서비스를 제공하는 클라우드 플랫폼이다. AWS는 컴퓨팅, 스토리지, DB,

네트워크 및 콘텐츠 전송 등의 모든 영역에서 광범위한 제품을 보유하고 서비스를

제공하고 있다. 최근에는 음성인식 기반의 인공지능 비서 알렉사 서비스를 제공하

며, 빅데이터, 유통, 인공지능 등의 전체 영역에서 자체적인 생태계를 구축하였다.

[그림 6] Amazon의 AWS(Amazon Web Service) 제품군

출처: https://aws.amazon.com/?nc1=h_ls

[미국/IBM]는 기업용 솔루션을 제공하는 업체로서 동사의 빅데이터 플랫폼은

Data 관리 및 웨어하우스, Hadoop System, 스트림 컴퓨팅, 컨텐츠 관리, 정보 통

합 및 거버넌스 등의 세부 플랫폼으로 구성된다. 세부 솔루션으로 InfoSphere

BigInsights(데이터를 발견, 분석 및 시각화하기 위한 소프트웨어 플랫폼),

Stream(다양한 유형의 데이터에 대한 실시간 분석), Netezza(빠른 데이터 처리),

Smart Analytics System(분석 소프트웨어) 등을 개발·제공하고 있다. 동사는

빅데이터 플랫폼에 의지하기보다는 자사가 개발 보유한 인공지능 왓슨(Watson)을

기반으로 빅데이터와 인공지능을 결합한 빅데이터 분석을 표방하며 타사와는 다른

전략적 포지셔닝을 구축 중이다.

[미국/Microsoft]는 1975년 창립된 세계 최대의 소프트웨어 및 하드웨어 기업으

로 미국 워싱턴주 레드먼드(Redmond)에 본사를 두고 있다. Azure는 2010년 시

작된 동사의 클라우드 컴퓨팅 플랫폼으로 2011년 PaaS에 이어 2013년 IaaS 서

비스를 시작하며, 아마존 웹 서비스 등과 경쟁하고 있다. 다양한 오픈소스를 지원

하며, 데이터 어낼리틱스, 기계학습 등의 기능을 탑재하고 있으며, 특히 Azure

IoT Suite를 통해 IoT를 손쉽게 구현할 수 있는 것으로 평가받는다.

Page 12: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

11

[그림 7] Microsoft의 Azure

출처: https://azure.microsoft.com/ko-kr/overview/azure-vs-aws

[미국/Oracle]은 1977년 래리 엘리슨이 설립한 미국의 대표적인 소프트웨어 회사

로, 캘리포니아 실리콘밸리 레드우드시티에 본사를 두고 있다. 오라클 빅데이터 플

랫폼은 클라우드 서비스, 빅데이터 SQL 클라우드 서비스, 오라클 빅데이터 어낼리

틱스 솔루션 등 데이터의 수집부터 분석, 시각화까지 지원한다.

[그림 8] Oracle의 Big Data Platform의 구성요소

출처: https://www.oracle.com/kr/big-data/

[독일/SAP]는 1972년 독일에서 다섯 명의 전직 IBM 출신 엔지니어가 설립한 세

계 최대의 기업용 SW업체로, 주로 ERP, CRM을 주력으로 서비스하고 있다. 동사

는 차기 주력시장으로 빅데이터 분석을 지목하고, 현재 빅데이터 및 사물인터넷,

머신러닝을 활용할 수 있는 SAP 클라우드 플랫폼을 제공하고 있다. 클라우드 플

랫폼은 S/4 HANA, SAP SuccessFactors, SAP Ariba, SAP Fieldglass 및

Concur 등의 SAP 핵심 제품군을 지원하고 있다.

Page 13: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

12

[미국/Google]는 1998년 세르게이 브린과 래리 페이지에 의해 설립된 업체로, 웹

검색, 포털 사이트, 또는 관련 사이트를 운영하고 광고를 주 사업 영역으로 하고

있다. Google Cloud Platform은 동사의 데이터센터 인프라를 기반으로 컴퓨팅,

스토리지, 네트워킹, 빅데이터, 머신러닝 등의 서비스를 제공하고 있다. Google

Cloud의 특징으로는 빅데이터와 머신러닝 서비스, 구글 전용 네트워크를 이용한

글로벌 커버리지, 저렴한 가격 모델 등이다.

[미국/Intel]는 1968년 7월 설립된 미국의 다국적 기업으로 반도체의 설계와 제조

사업을 영위하고 있다. 동사는 2014년 기존 자체 하둡 배포판(IDH)과 플랫폼

(IDP) 소프트웨어 개발을 포기하고 클라우데라 하둡 배포판(CDH)의 시장 확보를

지원하는 쪽으로 빅데이터 전략의 방향을 틀었다.

[미국/Cisco]는 네트워킹 하드웨어, 보안 서비스 등을 제공, 판매하는 미국의 다국

적 기업으로 미국 캘리포니아주 새너제이에 소재하고 있다. 동사의 CPA(Common

Platform Architecture)는 Hadoop 기반의 빅데이터 어플라이언스 플랫폼으로서,

Cloudera, Hortonworks, MapR, Intel Hadoop 등을 고객이 선택할 수 있도록 하

여 타사 대비 상대적으로 개방적인 접근을 선택하였다.

[미국/GE]는 에디슨이 1878년 설립한 전기조명 회사를 모체로 성장한 세계 최대

의 글로벌 인프라 기업으로 전력, 항공, 헬스케어, 운송 등의 분야에서 사업을 하

고 있다. 동사의 Predix는 산업인터넷용 응용애플리케이션의 개발을 지원하는 산

업용 IoT 소프트웨어 플랫폼으로, 여러 산업에서 사용하고 있는 GE의 제트엔진,

가스터빈, MRI 스캐너 등의 센서를 통해 데이터를 수집, 분석하고 이를 통해 운영

최적화를 달성할 수 있다. 2015년에는 모든 기업에 프레딕스를 전면 개방함으로써

산업용 앱 생태계를 구축했다.

[그림 9] GE의 Predix Platform

출처: https://www.ge.com/digital/iiot-platform

[미국/MapR]는 미국 캘리포니아주 산타클라라에 본사를 둔 비즈니스 소프트웨어

회사로 2009년 창립되었다. 동사는 클라우데라, 호튼웍스 등과 함께 글로벌 3대

하둡 전문기업으로 평가받는 회사로, 주력 제품은 맵알 컨버지드 데이터 플랫폼

(MapR Converged Data Platform)이다. 맵알 컨버지드 데이터 플랫폼은 크게 3

가지 컴포넌트로 구성된다. MapR-FS 파일 시스템, NoSQL 스타일의 문서 데이

Page 14: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

13

터베이스 그리고 아파치 카프카 호환 이벤트 스트리밍 엔진이다. 동사는 IoT 시장

에 대응하기 위해 Edge 플랫폼의 강화 전략을 추진하여 2017년 11월 소형 데이

터 플랫폼 맵알 엣지(MapR Edge)를 기존 컨버지드 데이터 플랫폼에 추가하였다.

[그림 10] MapR의 The MapR Converged Data Platform

출처: https://mapr.com/datasheets/mapr-converged-data-platform/

[미국/Cloudera]는 기업 고객들에게 아파치 하둡과 아파치 스파크 기반 소프트웨

어를 제공하는 미국의 소프트웨어 기업이다. 동사는 2019년 1월 최대 경쟁사인

호튼웍스(Hortonworks)와 합병을 통해 최대 빅데이터 분석 기업으로 성장하였다.

동사는 새로운 스트리밍 데이터 플랫폼인 클라우데라 데이터 플랫폼(CDP)을 준비

중이다. 2019년 상반기에 CDP 멀티 클라우드 버전을 먼저 출시하고 연말에 프라

이빗 클라우드 버전을 선보일 계획이다.

[미국/DataStax]는 2010년 4월 설립된 클라우드 애플리케이션용 데이터베이스

SW전문업체로 미국 캘리포니아주 산타클라라에 본사를 두고 있다. 동사는 아파치

카산드라(Apache Cassandra)의 상용화 버전을 개발하고 있다. Cassandra는 확

장 가능한 오픈 소스 NoSQL 데이터베이스로, 여러 데이터 센터와 클라우드에서

대량의 데이터를 관리할 수 있다.

[미국/Informatica]는 1993년 설립된 데이터 통합·관리 SW업체로서 미국 캘리

포니아주 레드우드시티에 본사를 두고 있다. Informatica PowerCenter Big Data

Edition은 시각적 개발 환경을 사용하여 Hadoop에서 기본적으로 실행되는

ETL(Extraction, Transformation, Loading)데이터를 구축하는 기업용 데이터 통

합 SW로 널리 사용된다.

[미국/VMware]는 VM웨어 워크스테이션과 프리웨어 제품인 VM웨어 서버와 VM

웨어 플레이어를 포함한 x86 호환 컴퓨터를 위한 가상화 소프트웨어를 공급하고

있다. 동사는 고객사가 AWS나 MS의 애저, IBM 클라우드 등의 특정 클라우드에

종속되지 않고 종류와 상관없이 쓸 수 있도록 할 수 있는 크로스 클라우드 아키텍

처를 개발하였다. VMware Cloud Management Platform은 이기종 하이브리드

클라우드를 관리하기 위한 솔루션을 제공한다.

Page 15: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

14

국내업체 현황 2018 데이터산업 현황 조사(2019.03)에 기재된 주요 데이터기업 및 제품 현황을

기준으로 국내 빅데이터 플랫폼 시장 주요업체를 판단한 결과, 빅데이터 플랫폼 분

야 주요 업체로는 (주)NHN다이퀘스트(구. (주)다이퀘스트), (주)데이터스트림즈,

(주)야인소프트, (주)엔에이치엔에이스(NHN ACE), (주)엘지씨엔에스(LG CNS),

(주)위세아이텍, (주)케이티넥스알(KT NexR), (주)클루닉스, (주)티맥스데이터

등이 있다.

[표 10] 빅데이터 플랫폼 분야 주요 제품의 국내 업체 현황

*볼드 및 밑줄 친 기업은 코스닥 기업임

*출처: “2018 데이터산업 현황 조사”, 과학기술정보통신부(2019.03), 각사 홈페이지, KED 작성

업체 데이터산업분류 사업 내용 주요 제품

(주)다이퀘스트

데이터 수집/데이터 분석/

데이터 분석 제공/빅데이터 플랫폼

데이터 수집, 검색, 언어처리 솔루션,

빅데이터 통합 분석 플랫폼, 시맨틱 서비스 플랫폼

Dplatform, Mariner4,Diver 6, SEMON

Alliance, I-Spider 4

(주)데이터스트림즈

데이터 관리/데이터 플랫폼/데이터 분석/데이터컨설팅/데이터 수집

데이터 흐름관리, 데이터 품질관리, 메타데이터 관리,

마스터데이터 관리, 데이터플랫폼

솔루션, 데이터 거버넌스, 데이터

컨설팅

IRUDA, MasterStream,TeraONE, TeraStream,

MetaStream,QualityStream,

TeraTDS, TeraNRT,DeltaStream,ImpactStream

(주)야인소프트 데이터 분석

OLAP, 리포팅 시스템, 실시간

연관분석 솔루션, BI 플랫폼, 시각화

Octagon ERS, OctagonBI Platform, Octagon

EOS, OctagonVisualization, Octagon

Advantage

(주)엔에이치엔에이스(NHN ACE)

데이터 분석데이터 관리 플랫폼,

웹/앱 로그분석 플랫폼

ACE DMP, ACE Counter 등

(주)엘지씨엔에스(LG CNS)

데이터컨설팅

데이터웨어하우스, 비즈니스

인텔리전스, 빅데이터 고급분석, 스마트 빅데이터 플랫폼 컨설팅

SBP, SRA

(주)위세아이텍데이터 관리/데이터 분석

데이터 품질관리, 데이터 분석, 데이터

시각화 솔루션, 공공데이터개방관리

플랫폼

WISE Prophet, WISEIntelligence, WISE DQ,

WISE Meta, WISE Open

(주)케이티넥스알(KT NexR)

데이터 플랫폼빅데이터 플랫폼

솔루션NDAP, Lean Stream

(주)클루닉스 데이터 플랫폼빅데이터 플랫폼

솔루션아렌티어 G-PAS

(주)티맥스데이터DBMS/데이터

수집/데이터 분석

DBMS, 통합데이터솔루션,

데이터 가상화 플랫폼

Tibero, ZetaData,ProSync HyperData

Page 16: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

15

[(주)NHN다이퀘스트]는 2000년 다이퀘스트 사명으로 창립된 인공지능, 빅데이터

소프트웨어 개발 및 공급업체로 NHN엔터테인먼트와 전략적 제휴 협약을 맺고 지

분 인수 과정을 거쳐 2017년 NHN 계열사로 편입되었고, 2019년 현 사명으로 변

경하였다. 동사는 자연어 처리(NLP) 핵심 원천 기술을 기반으로 빅데이터의 수집,

정규화(분류·정제·추출) 과정을 거쳐 검색·대화·분석·추론 등의 서비스까지,

빅데이터의 지능화 처리의 모든 단계에 관한 솔루션과 시스템 구축 역량을 보유하

고 있다. 동사는 2018년 빅데이터 분석 플랫폼 디플랫폼(DPlatform)을 출시하였

다. 디플랫폼은 내/외부 데이터를 수집한 기초 분석을 통해 의미 정보를 추출하고,

심층 분석을 통한 통계적 분석과 모형 모델링으로 머신러닝 알고리즘을 적용하여

다양한 분석 인사이트를 도출한다. 도출된 인사이트는 전문가 TOOL 연계와 인공

지능 챗봇과 연계할 수 있도록 확장하여 설계할 수 있는 아키텍처로 구성된다.

[그림 11] NHN다이퀘스트의 디플랫폼 & 인공지능 챗봇 아키텍처

*출처: https://www.diquest.com/bbs/page.php?hid=m02_03_01

[(주)데이터스트림즈]는 2001년 (주)이노베이티브데이터솔루션즈(IDS)로 설립되

어, 2008년 3월 현사명으로 변경하였으며, 2014년 6월 코넥스시장에 상장되었다.

동사는 데이터 통합 및 분석, 데이터거버넌스 등 데이터 관리 전 영역에 대한 솔루

션과 컨설팅 서비스, 플랫폼을 제공하고 있다. TeraONE™은 전체 데이터 통합과

거버넌스 과정을 커버하는 빅데이터 플랫폼이며, 데이터를 추출하여 데이터 레이크

및 Hadoop으로 적재해 오류 수정 및 처리, 모니터링 등이 가능하도록 지원한다.

Page 17: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

16

[그림 12] 데이터스트림즈의 TeraONE™ Data Platform

*출처: http://datastreams.co.kr/kor/sub/prd/BigData/bdAnalysis.asp

[(주)야인소프트]는 2001년 3월 설립되었다. 동사의 Octagon(옥타곤) 아키텍처

는 Octagon BI Server, Octagon EOS Admin, Octagon Cube Browser,

Octagon Viewer, Octagon Converter로 구성되어 있다. Octagon BI Platform는

In-Memory OLAP 엔진을 기반으로 메모리상에 다차원 큐브를 실시간 생성하여

다차원 분석을 하는 통합된 BI Platform으로 타 BI 솔루션보다 빠른 데이터 분석

력과 원데이터 변경에 대해서도 유연한 대응력을 제공하는 특징이 있다.

In-Memory 분석 및 가상 큐브 관리 기술(공유/재사용/재활용/Merge/Collection

등)은 Octagon만 보유하고 있는 특화된 기술이다.

[그림 13] 야인소프트의 Octagon BI Platform

*출처: http://www.yainsoft.com/html/sub02_03.html

Page 18: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

17

[(주)엔에이치엔에이스(NHN ACE)]는 엔에이치엔(주)(NHN)의 디지털 마케팅

자회사로 Web/App Analytics, DMP, AD eXchange, DSP 광고 마케팅 효율 분

석, 광고 입찰 시스템 등 고객 니즈를 반영한 빅데이터 기반 통합 마케팅 플랫폼을

제공하고 있다. 동사에서 제공하는 디지털 마케팅 플랫폼 서비스로는 ACE

Trader, ACE Counter, ACE DMP, ACE eXchange 등이 있다.

[표 11] NHN ACE의 Digital Marketing Platform Service

구분 내용

ACE Trader데이터 기반 퍼포먼스 광고 플랫폼 : 국내 광고주에 최적화된 플랫폼으로, 웹, 앱 광고 서비스를 통해 다양하고 정교한 타겟팅 제공

ACE Counter

웹/앱 로그분석 플랫폼 : 보다 쉽고 정교한 웹/앱 분석을 통해 사이트 방문자의 행동을 명확한 데이터로 보여줌.

ACE DMP데이터 관리 플랫폼 : 즉시 타겟팅이 가능한 풍부한 웹/앱 오디언스 데이터 수집 관리를 통한 종합 마케팅 서비스를 제공

ACE eXchange

디지털 광고 마켓 플레이스 : 웹, 앱 등 매체와 영역의 특성에 맞게 최적화하여 매출 극대화를 가능하게 함.

*출처: http://www.nhnace.co.kr/index.html

[(주)엘지씨엔에스(LG CNS)]는 컨설팅, 시스템통합 등 IT 서비스를 공급하는

LG그룹 계열의 정보기술 솔루션 및 아웃소싱 전문기업이다. 동사는 2017년 8월

멀티 클라우드 기반 인공지능(AI) 빅데이터 플랫폼 답(DAP; Data Analytics &

AI Platform)을 출시하였다. DAP은 머신 러닝/딥러닝 기반의 모델을 빠르게 학습

하고 쉽게 만들 수 있도록 데이터의 수집부터 모델 배포까지 End-To-End로 지

원하는 엔터프라이즈급 관리형 플랫폼이다. 다양한 종류의 정형/비정형 데이터 수

집, 전처리, 고급 분석 및 시각화까지 필요한 모든 개발 및 분석환경을 제공한다.

[그림 14] LG CNS의 AI 빅데이터 플랫폼 DAP

*출처: https://www.lgcns.co.kr/Platform/BigData

Page 19: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

18

[(주)위세아이텍]은 1990년에 설립된 빅데이터 전문 기업으로 머신러닝, 빅데이터

분석, 데이터 품질 시장을 주도하고 있다. 동사는 머신러닝 자동화 도구를 활용한

예측에서부터 데이터 분석, 관리, 개방에 특화된 솔루션을 보유하고 있다.

WiseIntelligence™는 1999년 국내 첫 출시된 BI솔루션으로 탐색적인 데이터 분

석부터 WiseProphet™과 융합한 예측/분류를 위한 머신러닝까지 지원하며,

WiseOpen™은 기관에서 보유한 다양한 데이터에 대하여 발굴, 수집, 개방 및 활

용의 공공데이터 개방 Life-Cycle을 지원하는 최적의 플랫폼이다.

[(주)케이티넥스알(KT NexR)]은 케이티 계열의 빅데이터 플랫폼 솔루션 전문기

업으로 빅데이터 글로벌 표준 기술인 하둡(Hadoop)에 있어 국내 최고수준의 기술

력을 보유하고 있으며, 이를 기반으로 개발된 빅데이터 플랫폼 NDAP™(kt NexR

Data Analytics Platform)은 고객이 편리하고 비용효율적으로 빅데이터 시스템을

구축하고, 데이터를 분석하는데 필요한 모든 기능을 제공한다.

[그림 15] KT NexR의 NDAP™ 특징

*출처: https://www.ktnexr.com/product/ndap.html

주: NDAP™은 데이터 수집/처리/저장/분석 등을 모두 제공하는 빅데이터 SW 플랫폼

[(주)클루닉스]는 슈퍼컴퓨팅 관련 솔루션을 개발하는 기술기업으로 2000년 1월,

서울대학교 컴퓨터공학부 대학원 출신 석박사 연구원 7명에 의해 설립되었다. 주

된 사업 분야는 클라우드 컴퓨팅 사업분야와 슈퍼컴퓨팅 솔루션 분야이다. 동사는

2007년 SKT의 요구로 국내 최초의 하둡 기반 통신 빅데이터 분석 시스템을 구

축, 공급한 이래 G-PAS라는 빅데이터 저장 및 분석 시스템을 개발 공급하고 있

다.

[(주)티맥스데이터]는 2003년 설립된 업체로, 데이타베이스 관리시스템(DBMS)

개발을 주요사업으로 영위하고 있다. 동사의 빅데이터 플랫폼은 데이터의 수집부터

Page 20: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

19

활용까지 전체 영역에 대해 클라우드 기반의 고확장, 고성능을 지향하는 아키텍처

를 가지고 있으며, 주요 특장점은 다음과 같다. (1) 빅데이터 수집부터 분석, 시각

화 및 인프라 관리까지 단일 솔루션으로 처리 가능한 플랫폼, (2) 하둡 연동으로

HDFS 저장 및 추출이 가능하고 하둡 통합 분석 기능 제공, (3) 고성능 확장형 통

합 Loader, (4) 데이터 가상화를 통해 다중 데이터 소스를 통합하고 이를 통해

데이터 조회 및 조작의 편의성 제공, (5) 강력한 쿼리 엔진을 통해 사용자가 손쉽

게 사용할 수 있는 SQL을 제공하고 DBMS 엔진이 내장되어 고성능 처리를 보장,

(6) Flow 엔진으로 편리하게 데이터를 추출하거나 처리할 수 있으며, 유연한 데이

터 분석 설계가 가능, (7) 클라우드 환경을 기반으로 하여 탄력적이고 유연한 자

원 관리 및 무한 확장성을 제공한다.

[그림 16] (주)티맥스데이터의 빅데이터 플랫폼 아키텍처

*출처: https://kr.tmaxsoft.com/info/storyTView.do?seq=265

포트폴리오 분석 빅데이터 플랫폼/활용 산업 관련 종목군으로 포트폴리오를 구성하였을 때의 주식

수익률 변화를 살펴보기 위해, 빅데이터 플랫폼 활용 관련 코스닥 상장 기업을 3

개사 선정하였으며, 2019년도 수익률은 2019.10.24. 종가를 기준으로 산정하였

다. KOSDAQ 지수를 벤치마크 지수로 분석한 결과 최근 4년간 빅데이터 플랫폼

활용관련 종목의 평균 수익률의 변동성이 심한 편이고, 2019년 들어 전년대비 개

선된 수익률을 보이고 있다.

[표 12] 디스플레이 관련 주식 연도별 수익률 현황

단위: %

구분 2016년 2017년 2018년 2019년

빅데이터 플랫폼/활용 관련 종목 평균 1.6 -19.0 0.5 19.3

코스닥 평균 -6.8 26.3 -16.8 -1.6

출처: 한국기업데이터

Page 21: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

20

Ⅲ. 기술 심층 분석

빅데이터 처리

과정

빅데이터 플랫폼은 데이터에 대해 수집→저장→처리→분석→시각화 등을 통해 원

시데이터(Raw Data)로부터 Insight 및 가치(Value)를 추출한다.

[빅데이터의 생성·수집] 빅데이터는 주관성이 개입되는 정형 데이터(Structured

Data), 인터넷과 연계되거나 IoT 등에 의해 자동적으로 생성되는 비정형 데이터

(Unstructured data)로 크게 분류된다.

데이터의 폭증은 디지털서비스의 발전에 기인한 것으로 SNS, Web 로그 등 인터

넷 데이터를 기반으로 공장, 환경, 자동차 등에서 발생하는 계측·센싱 등의 기계

적으로 실시간성, 비정형성을 가진 데이터를 양산하고 있는 상황이다.

데이터 수집처는 정부 영역, 위치기관 서비스, 금융 및 경제 영역, IoT, 의료 등의

부문에서 대표적으로 발생하고 있으며, 스마트폰과 웨어러블 기기, 자율자동차 등

향후 인간과 연계된 모든 영역에서 데이터가 생산될 전망이다.

데이터를 수집하는 주요 기술로는 ETL(Extraction, Transformation, Loading),

Crawling Engine, 로그 수집기, Web Robot, IoT 센싱 등이 있다.

[빅데이터의 저장] 데이터를 저장하는 기술로서, 단순히 저장만을 목적으로 하는

것이 아니라, 저장된 데이터를 분석할 수 있는 형태로 다시 로드하고 공유하는 측

면이 충분히 고려되어야 한다.

정형화된 프레임을 갖춘 데이터베이스에 순차적으로 데이터를 저장하는 작업은 불

가능하며, 정형화된 틀을 적용시키지 않기 위한 다양한 기술들이 개발되고, 특히

추후 Searching 혹은 Query를 위한 사전 작업이 반영된다.

주요 기술로는 분산파일시스템, NoSQL, 비디스크 기반 DBMS 등이 있다.

분산파일시스템에는 Hadoop 시스템, 구글 파일 시스템, 아마존 S3 파일시스템 등

이 대표적이며, NoSQL의 대표적 사례로는 키값 모델 기반(Dynamo, Membase),

열 기반(Bigtable, Hbase, Cassandra), 문서 기반(CouchDB, MongoDB) 등이

있다. 분산 메인 메모리 기반 DBMS로는 SAP HANA와 VoltDB가 대표적이며,

플래시 메모리 활용 DBMS는 Oracle Smart Flash Cache 등이 대표적이다.

[빅데이터의 처리] 저장된 빅데이터에 대해 수요발생시 적시에 가공하고 분석을

지원하는 기술로 데이터 처리를 위해서는 실시간 처리, 분산병렬 처리, 인-메모리

처리, 인-데이터베이스 처리 등의 방법이 있다.

주요 기술로는 구글의 맵리듀스(Map Reduce), Hadoop의 맵리듀스, 마이크로소

프트의 Dryad 등이 있으며, 처리 프로그래밍 기술로는 구글의 Sawzall, Hadoop

의 Pig, Apach Hive 등이 있다.

Page 22: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

21

[빅데이터의 분석] 저장되어 있는 빅데이터에서 잠재된 가치와 통찰력을 추출하기

위한 작업으로 전통적인 통계적 분석을 중심으로 변량들의 특징, 연관관계, 인과관

계 등을 도출하고, 종합적으로 사고할 수 있는 틀을 제공한다.

분석의 수준은 분석을 진행하는 연구자에 의해 크게 좌우되며, 분석의 적절한 방향

설정이 알맞게 되어야 명료한 분석 결과 도출이 가능하다.

주요 방법론으로 전통적 통계 분석, 데이터 마이닝, 텍스트 마이닝, 연관 분석,

SNS 분석 등이 있으며, 지속적으로 급격한 발전을 이루는 분야이다.

[빅데이터의 시각화] 주관적인 판단의 제거, 왜곡없는 객관성 확보, 부차적인 인지

과정 없이 추론하는 것이 데이터 분석 기반 하에 추구하는 형태이다.

시각적으로 표현된 자료는 감각적으로 인식하면서 정보에 대한 빠른 수용과 이해

도 제고가 가능하다. 특히 시계열적인 요소가 있는 데이터에 대해 시간에 따른 데

이터의 변화를 보여줄 경우 매우 유용한 정보의 획득이 가능하다.

시각화의 주요 분야로서 전통적인 통계 결과의 그래픽 처리뿐만 아니라, Web log

시각화, SNS 시각화, 지도 시각화 등이 있다.

데이터 시각화의 주요 도구로서는 Timeline, Modestmaps, Leafletjs,

Wolframalpha, Visualizefree, d3js 등이 있다.

하둡 생태계 오픈소스 하둡은 빅데이터 활용을 가능하게 만든 빅데이터 플랫폼의 핵심기술이자

사실 표준(De facto)이기에 빅데이터의 이해는 결국 하둡 생태계(Hadoop

Ecosystem)의 이해로 귀결된다.

하둡(Hadoop)은 High-Availability Distributed Object-Oriented Platform의

약자로, 자바기반 프레임워크로서 대용량의 데이터를 여러 개의 저장소에서 분산

처리하는 방식을 대표하는 기술이다.

하둡은 빅데이터를 저장하는 분산파일 시스템(HDFS, Hadoop Distributed File

System)과 분산병렬 처리하는 맵리듀스(MapReduce) 모듈로 구성된다.

상기 두 모듈은 오픈소스로서 비전문가들이 빅데이터를 활용하기에는 어려움이 많

았으며, 하둡은 빅데이터 저장과 처리의 기본적인 기능만 제공하기 때문에, 이의

부족함을 보완하는 다양한 오픈소스 소프트웨어들이 필요하게 되어 데이터의 통합,

이동, 애플리케이션 매니지먼트, 시스템 매니지먼트 등을 위한 지원 SW가 하둡 프

로젝트의 일환으로 개발되었다.

하둡 지원 서비스 프로그램은 빅데이터의 수집, 저장·활용, 처리, 관리 등을 데이

터 처리와 관련된 모든 영역을 대상으로 개발이 진행 중이다.

Page 23: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

22

[표 13] 하둡의 기능을 보완하는 서비스 오픈소스 프로그램들(Hadoop Ecosystem)

빅데이터 구분 주요 기술 기술별 주요 기능

스트리밍 데이터 수집

FlumeŸ 비정형 데이터 수집Ÿ 클라우데라에서 개발, 아파치 인큐베이션에 포함됨.

ScribeŸ 비정형 데이터 수집 플랫폼Ÿ 중앙 집중 서버로 전송하는 방식, 페이스북에서 개발

ChuckwaŸ 비정형 데이터 수집 플랫폼으로 HDFS에 분산데이터를

저장

정형 데이터 수집

SqoopŸ 정형 데이터 수집Ÿ 관계형 DB로부터 데이터 가져오기Ÿ HDFS, NoSQL 등 다양한 저장소에의 전송 지원

Hiho Ÿ 대용량 정형 데이터 수집 및 전송 솔루션

분산 데이터베이스

Hbase

Ÿ 분산 데이터베이스Ÿ HDFS 기반의 컬럼 기반 NoSQL 데이터베이스, 구글의

BigTable 논문을 기반으로 개발됨.Ÿ 야후, 트위터 등이 사용하며, 국내 NHN도 라인에 적용

CassandraŸ 오픈소스 분산 데이터베이스 관리 시스템Ÿ 컬럼 중심 DB와 행 중심 DB의 복합형Ÿ NoSQL의 하나

실시간 SQL 질의

ImpalaŸ 하둡 기반의 실시간 SQL 질의 시스템Ÿ 클라우데라에서 개발Ÿ 맵리듀스로 처리하지 않고, 자체 개발한 엔진 사용

TajoŸ 국내 대학생들이 주도 개발한 하둡 기반의 DW 시스템Ÿ 2013년 아파치 재단의 이큐베이션 프로젝트로 선정

메타 데이터 관리

HCatalog Ÿ 빅데이터 메타 정보 관리

데이터 분석Hive

Ÿ 하둡 기반의 데이터웨어하우징용 솔루션Ÿ 유사 SQL 기반 빅데이터 처리Ÿ 페이스북에서 개발하여 오픈 소스로 공개

PigŸ 데이터 분석Ÿ MapReduce 대신 자체 언어 Pig Latin 제공

인메모리 처리 SparkŸ 오픈소스 클러스터 컴퓨팅 프레임워크Ÿ UC 버클리 AMPLab에서 처음 개발함.

데이터 마이닝 MahoutŸ 데이터 마이닝Ÿ 하둡 기반의 오픈 소스

워크플로우 관리

OozieŸ 빅데이터 처리 과정 관리Ÿ 하둡 작업을 관리

분산 코디네이터

Zookeeper

Ÿ 빅데이터 서버 시스템 관리Ÿ 분산 환경 서버들간의 상호 조정 서비스

직렬화 AvroŸ RPC(Remote Procedure Call)과 데이터 직렬화를 지

원하는 프레임워크

리소스 매니저 YARN

Ÿ 리소스 관리 플랫폼Ÿ 분산 컴퓨팅 환경 제공Ÿ 클러스터 내 컴퓨팅 자원 관리Ÿ 사용자의 애플리케이션 스케줄링 사용 관리

*출처: http://over153cm.tistory.com/entry/하둡-에코시스템HadoopEcosystem이란 & http://iamdaisy.tistory.com/11, 제타위키 내용을 기반으로 서술

Page 24: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

빅데이터 플랫폼/활용

23

하둡의 단점으로

본 빅데이터

플랫폼의 기술적

한계

하둡(Hadoop)에는 몇 가지 한계가 존재하고, 이는 고스란히 빅데이터 플랫폼의

제약 사항이 되고 있다. 주요한 몇 가지를 언급하면 다음과 같다.

[실시간 데이터 처리 한계] 하둡은 일정기간 수집된 자료를 대상으로 하는 일괄처

리(Batch) 방식으로 데이터 처리를 하기 때문에 실시간 데이터 처리, 조회가 안된

다.

[다양한 데이터 처리 한계] 대규모 계산, 데이터간 통신 및 무결성 보장이 필요한

복잡한 연산 등은 처리하기 어렵다.

[다수의 작은 파일 관리 어려움] 하둡 설정으로 변경할 수 있으나, 64메가바이트

(MB) 이하의 작은 파일 저장 시 효율적인 데이터 관리와 처리가 어렵기 때문에

작은 파일들은 큰 파일로 합쳐서 저장해야 한다.

[비효율적인 데이터 백업 관리] 3개의 복제본 파일 관리 방식으로 디스크 공간 낭

비와 파일 저장에 낮은 성능을 보인다. 스냅샷(Snapshot) 방식, 재해복구(DR,

Disaster Recovery) 시스템 등의 고급 데이터 백업을 지원하지 않는다.

[단일 고장점(SPoF, Single Point of Failure) 존재] 단일 고장점은 시스템 구성

요소 중에서 동작하지 않으면 전체 시스템이 중단되는 요소를 말한다. 하둡에서는

저장된 파일의 위치와 이름 등의 메타 정보를 관리하는 마스터 서버가 이중화 구

성을 지원하지 않는다. 따라서 마스터 서버 장애 발생시 하둡 전체 시스템이 중단

될 수 있다. 다만, 마스터 서버 장애에 대한 수동 복구는 가능하다.

[높은 기술적 숙련도 필요] 빅데이터를 처리하기 위해서는 데이터 처리 로직

(Logic)을 맵리듀스(MapReduce) 처리 방식에 알맞도록 변환하고 프로그램을 개

발해야 하는데, 이는 해당 업무 지식 뿐 아니라 하둡에 대한 높은 기술적 숙련이

요구된다. 오픈소스 활용 시 기술지원, 유지보수를 스스로 해결해야 하며, 하둡 전

문인력 확보가 필요하다.

빅데이터 플랫폼

기술 발전 전망

빅데이터 플랫폼의 미래는 다음과 같은 방향으로 진화할 것이다.

인프라 구축이 진행됨에 따라 저장/처리 영역보다는 분석과 가치 창출을 지원하는

SW와 애플리케이션 영역의 기술 개발과 제품 출시 중요성이 확대 중이다. 하둡

기반의 저장과 전달에 치중되었던 빅데이터 기술 개발은 실시간 가치창출을 위한

인메모리 처리, 하둡의 개선 등으로 R&D 핵심이 변화되는 중이다. 데이터로부터

의미 있는 가치를 쉽게 도출하기 위해 분석자 중심으로 분석 SW와 시각화 툴이

지속적으로 발전하고 있는 상황이다.

데이터의 수집부터 시각화까지의 모든 단계를 포괄하는 범용적인 플랫폼의 개발뿐

만 아니라, 특화된 데이터에 대한 순차적 처리가 가능한 플랫폼에 대한 수요도 확

대될 전망이다. 의료 기록 분석, 환경 모니터링, 범죄 현황 분석, 무인자동차 자료

Page 25: 빅데이터플랫폼/활용w3.kirs.or.kr/download/theme/산업_소프트웨어... · 2019. 11. 7. · 빅데이터 플랫폼/활용 5 모듈, 보안 모듈 등으로 구성되며,

산업테마보고서

24

분석 등과 같이 특정 영역에서 발생하는 빅데이터에 대해 특화된 분석을 지원하는

플랫폼이 발전 추세이다. 또한, 특화된 영역의 빅데이터 플랫폼은 신규 데이터와의

연계성 확대, 기계학습 등의 자동화 기술과 연계되면서 분석의 다양성이 확대될 것

으로 전망된다.

향후 빅데이터 기술의 성공은 분석 단계에서의 기계학습, 인공지능과의 연계하여

실시간으로 의사결정 지원 등의 가치를 창출할 수 있는 기술 역량이 가장 중요성

성공요인으로 등장할 전망이다. 데이터의 입력, 탐색과 데이터의 분석, 표현, 출력

등을 인공지능 영역이 담당하면서 핵심적인 인간의 역할 없이 사용자를 이해하고

최적 맞춤형 가치의 창출・제공이 가능해진다는 점이 큰 차별성 발생요인이다. 과

학기술, 기초과학 영역에서 발생하는 빅데이터 분석은 데이터의 방대함과 함께 컴

퓨팅 역량, 분석 알고리즘 고도화를 위해 HPC, 컴퓨터 사이언스, 기초과학과의 연

계가 필요하다.

빅데이터 플랫폼

경쟁력 확보를 위

한 제언

빅데이터와 빅데이터 플랫폼은 아직은 인프라 구축과 데이터를 효율적으로 축적하

는 기술 발전에 머무르는 상황으로 평가되고 있다. 하둡기반의 빅데이터 인프라가

여전히 사용자 범용성을 갖지 못하고, 엔지니어의 역할이 중요한 비중을 점유하고

있는 상황이다. 빅데이터를 대표하는 기술인 하둡은 현재 하둡 생태계를 이룰 정도

로 유관 기술 개발이 적극적으로 진행되고 있으나, 비엔지니어들이 하둡 자체를 활

용하기에 기술적 난이도가 있어 활용에 어려움이 존재한다.

빅데이터 플랫폼 생태계는 강자가 많지만 약자도 없는 형국으로, 오픈소스 기반의

플랫폼 기술 성장으로 전통적인 클라우드 기업뿐만 아니라 수요자 중심의 커스터

마이징화된 SW를 제공하는 중소벤처기업들도 시장에서 성장할 수 있는 경쟁 구도

이다.

국내 빅데이터 플랫폼의 경쟁력 확보를 위해서는 데이터 강국으로 진입하기 위한

공개와 공유, 수집 기반을 조성하는 것이 중요하다. 오픈소스 역량 확보를 위한 사

회적 분위기를 마련하고, 행정, 의료, 재난, 환경, 교육 등의 정보를 효율적으로 저

장・분석 가능한 빅데이터 플랫폼으로 전환 구축할 필요가 있다. 국내 공공・복지

서비스 제공에 필요한 국내 공공 정형・비정형데이터를 통합 관리할 수 있는 통합

플랫폼의 개발 및 Customized된 서비스를 구현하고, 일반 사용자가 쉽게 활용할

수 있는 오픈소스 기반 빅데이터 분석 Tool도 한국형으로 개발하고 이를 기반으로

공공 빅데이터 플랫폼의 역량을 제고할 필요가 있다.