大数 据的虚拟化之路

20
© 2011 VMware Inc. All rights reserved 大大大大大大大大大 张张张 张张张 张张张张张张张张张 张张张张张张张张张张张

Upload: xander-rivers

Post on 15-Mar-2016

145 views

Category:

Documents


3 download

DESCRIPTION

大数 据的虚拟化之路. 张锦波 张君迟 大数据解决方案专家 大数据解决方案项目经理. 大数 据的发展趋势. 非结构化数据的爆发增长. Hadoop 项目 实 施. Hadoop Summit 2013 – Hadoop -Entering Phase Two by Gartner. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 大数 据的虚拟化之路

© 2011 VMware Inc. All rights reserved

大数据的虚拟化之路张锦波 张君迟大数据解决方案专家 大数据解决方案项目经理

Page 2: 大数 据的虚拟化之路

2

大数据的发展趋势Unstructured data driving growth Hadoop adoption is ramping

2011 2012 2013 2014 2015 2016 2017 2018 2019 2020

Structured Unstructured

Complex unstructured data forecasted to outpace structured

relational data by 10x by 2020

Evaluating53%In-

production23%

Piloting18%

Testing2%

Don't know2%

Other2%

Source: Forrester Survey of 60 CIOs , September 2011

• 非结构化数据的爆发式增长, Hadoop 的持续发展驱使 CIO 们重新思考企业的数据战略• Gartner 预测未来 3 年数据增长超过 +800%• 使用 Hadoop 高效低成本地处理大数据是 CIO 极为看重的价值

非结构化数据的爆发增长 Hadoop 项目实施

Hadoop Summit 2013 – Hadoop-Entering Phase Two by Gartner

Page 3: 大数 据的虚拟化之路

3

企业内部的大数据之旅阶段 3: 云分析平台

为许多部门服务经常支持一部分关键任务流程与分析及 BI 工具完全整合

阶段 1: Hadoop 试点 经常从业务线开始 使用 1-2 个用例验证 Hadoop 价值 典型应用一般在 20 个节点以下

阶段 2: 生产环境引入 Hadoop 为多个部门服务 更多使用用例 核心 Hadoop 和其他相关生态系统软件 成百个节点的典型规模 不断增加的集群规模和节点大小

20 3000 node

高度整合

集群规模单一集群

Page 4: 大数 据的虚拟化之路

4

Hadoop 在虚拟化平台上运行良好

Source: http://www.vmware.com/files/pdf/vmware-virtualizing-apache-hadoop.pdf

Page 5: 大数 据的虚拟化之路

5

企业应用大数据的挑战 入门难度大,学习成本高 物理环境下,手工部署和维护太复杂 很难进行资源使用量的规划 主节点有单点失败问题

Page 6: 大数 据的虚拟化之路

6

VMware 的 Big Data 解决方案

Page 7: 大数 据的虚拟化之路

7

Serengeti 发布历史

Serengeti M16/2012

•10 分钟部署 Hadoop

•高可用性

Serengeti M28/2012

•一站式使用 Hadoop

•配置 Hadoop

Serengeti M310/2012

•计算能力弹性伸缩•机架感知•节点布局•磁盘排布

Serengeti M44/2013

•HBase

•CDH4

•MapR

•性能改进

Page 8: 大数 据的虚拟化之路

8

Big Data Extensions 1.0 Beta 的新功能 可视化操作界面 自动弹性伸缩 支持 YARN 支持各发行版的最新版本

节点计算存储资源的一键式调整 磁盘故障恢复 用户可定制节点的操作系统

Page 9: 大数 据的虚拟化之路

9

Big Data Extensions Beta 主要优势

一键式 HA 和 FT 虚拟机级别隔离

安全性 可靠性 快速部署 操作便捷 用户可定制 性能优化

灵活性 多租户 硬件资源整合 自动化弹性伸缩资源

多租户 弹性伸缩

Page 10: 大数 据的虚拟化之路

10

虚拟化让 Hadoop 运维比物理环境灵活便捷有效!物理集群 虚拟化集群

集群构建 •采购服务器•搭建数据中心•复杂手工步骤

•无需精确了解业务对资源消耗•中心化 IT 管理•完全端到端自动化操作

集群运维 •故障发生需要立即反馈 •高容错•自动故障转移

容量计划 •需要为未来做好规划,预留未使用资源

•只需为现在准备,所用即所需,无需预留资源

增加计算 / 存储能力

需要重新采购和搭建服务器 一键触发,自动向资源池申请资源扩展容量

减少 OpEx

减少 CapEx

高效

Page 11: 大数 据的虚拟化之路

11

Demo详见 Demo 视频窗口

Page 12: 大数 据的虚拟化之路

12

Big Data Extensions Beta 主要优势

一键式 HA 和 FT 虚拟机级别隔离

安全性 可靠性 快速部署 操作便捷 用户可定制 性能优化

灵活性 多租户 硬件资源整合 自动化弹性伸缩资源

多租户 弹性伸缩

Page 13: 大数 据的虚拟化之路

13

共享通用数据大规模降低 CAPEX 采购成本

Hadoop Cluster 1

Hadoop (MapReduce)

Common Data

Unique Data

Hadoop Cluster 2

Hadoop (MapReduce)

Common Data

Unique

Data

Hadoop Cluster 3

Hadoop (MapReduce)

Common Data

Unique Data

Hadoop Cluster 4

Hadoop (MapReduce)

Common Data

Unique Data

Common Data

MapReduce MapReduce MapReduce MapReduce

没有虚拟化,每个独立 Hadoop 集群都需要一份通用数据拷贝!虚拟化:• 一份 HDFS 为多个计算集群提供服务,同时不会丢失数据本地性( data locality )• 一份通用数据无需额外的存储硬件和磁盘• 3:2 整合比率

Page 14: 大数 据的虚拟化之路

14

动态伸缩 Hadoop

不同租户部署各自的计算集群,共享 HDFS 根据优先级和可用资源动态 Commission/decommission

TaskTrackers

Ad hocdata mining

Dynamic resourcepool

Data layer HDFS

Host Host Host Host Host Host

Productionrecommendation engine

Virtualization platform

Compute layer ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

ComputeVM

Ad hocdata mining

Productionrecommendation engine

ComputeVM

Job Tracker Job Tracker

Page 15: 大数 据的虚拟化之路

15

Demo详见 Demo 视频窗口

Page 16: 大数 据的虚拟化之路

16

Big Data Extensions Beta 主要优势

一键式 HA 和 FT 虚拟机级别隔离

安全性 可靠性 快速部署 操作便捷 用户可定制 性能优化

灵活性 多租户 硬件资源整合 自动化弹性伸缩资源

多租户 弹性伸缩

Page 17: 大数 据的虚拟化之路

17

虚拟化是最好的整合方案!物理环境 虚拟化环境

资源共享 是 用户共享通用的 Hadoop 集群

是共享通用的物理服务器,但是使用不同的 Hadoop 集群

数据共享 是用户共享通用的 Hadoop 集群

是不同计算集群共享 HDFS 存储集群

性能隔离 弱通过 slot number

强通过 CPU, RAM, Disk IO

故障隔离 无编写不当的任务会使得整个集群失败

强失败只会影响当前 Hadoop 集群

配置隔离 无 相同配置、发行版、版本

是按需使用不同发行版、版本和配置

安全隔离 弱另加于 Hadoop 身份验证和授权机制

强集群级别隔离

可扩展性 主节点成为性能瓶颈 选择更多主节点

Page 18: 大数 据的虚拟化之路

18

总结

一键式 HA 和 FT 虚拟机级别隔离

安全性 可靠性 快速部署 操作便捷 用户可定制 性能优化

灵活性 多租户 硬件资源整合 自动化弹性伸缩资源

多租户 弹性伸缩

Page 19: 大数 据的虚拟化之路

19

BDE 客户体验计划

• vSphere企业客户• 大数据相关需求条件 • 联系我们

• 线上调研• 条件确认

加入 • 现场客户化方案介绍• POC 和技术支持• 参考案例机会价值

欢迎加入 Big Data Extensions 1.0 ( Beta ) 客户体验计划,率先走向大数据虚拟化之路![email protected]

Page 20: 大数 据的虚拟化之路

20

相关资源 大数据门户: www.vmware.com/hadoop Serengeti 项目网站: www.projectserengeti.org Big Data Extensionss 1.0 Beta ( Serengeti M5 )下载,

BDE用户文档,和 BDE Beta社区和技术支持 白皮书• 虚拟化Hadoop的好处• Hadoop虚拟化性能白皮书• Hadoop虚拟化HA解决方案• Hadoop虚拟化FT解决方案

Serengeti开源社区技术支持 中文技术博客 : http://vBigData.blog.51cto.com