灾难恢复: 从理论到实践
DESCRIPTION
灾难恢复: 从理论到实践. 牛林海 业务连续管理服务经理 2009/10/29. 业务连续管理. 业务策略 Business Strategy. 业务流程 Business Process. 业务连续管理. 生命 周期. 信息 Information. 应用服务 Application Services. 业务连续规划. 应用基础架构 Application Infrastructure. 业务与办公环境连续管理. 核心基础架构 Core Infrastructure. IT 连续管理. 基础架构 Infrastructure. 管理和控制 - PowerPoint PPT PresentationTRANSCRIPT
© 2008 Hewlett-Packard Development Company, L.P.The information contained herein is subject to change without notice
灾难恢复:从理论到实践
牛林海业务连续管理服务经理2009/10/29
业务连续管理
2 2023年4月21日
业务策略
Business Strategy
业务流程
Business Process
信息
Information
应用服务
Application Services
应用基础架构
Application Infrastructure
核心基础架构
Core Infrastructure
管理和控制Management & Control
基础架构
Infrastructure
生命
周期
业务与办公环境连续管理
IT 连续管理
业务连续管理业务连续管理
业务连续规划
3 2023年4月21日
灾难恢复建设过程
业务架构
业务关键性分析
IT现状分析
容灾技术分析 IT应用恢复策略
恢复数据点RPO
恢复时间RTO
培训
演练
灾备组织结构
响应和决策流程
技术恢复步骤
测试演练计划
方案设计
方案选择
方案实施
风险因素
灾难风险评估灾难风险评估 (RA)(RA)业务影响分析业务影响分析 (BIA)(BIA) 恢复技术方案设计恢复技术方案设计 DRPDRP开发开发 运行维护运行维护
4 2023年4月21日
组织的业务所面临的风险 -RA
低
硬件故障
高低 频率
影响
高
电源 / 网络故障
病毒攻击
安全破坏-电脑黑客
自然灾害-火灾,水灾,恶劣天气
人为灾害-恐怖行动,恶意破坏
计划内停工
内部安全 / 欺诈
服务中断攻击
软件故障
应用程序故障
5 2023年4月21日
风险分析( RA )
0
0. 5
1
1. 5
2
2. 5
3
3. 5
4
4. 5
5
可能性威胁程度影响程度
可能性 5 4 4 4 2 3 3
威胁程度 3 3 2 2 3 2 2
影响程度 3 3 4 4 5 5 5
电源故障,短时间停电
空调故障停机
广域网中断
核心网络设备故障
长时间停电
5地震(级或更高)
外部火灾
某机房主要风险指标评级某机房主要风险指标评级
脆弱识别
资产识别
威胁识别
资产价值分析
脆弱性的程度
威胁的频率
影响程度
可能性
威胁程度
脆弱识别
资产识别
威胁识别
资产价值分析
脆弱性的程度
威胁的频率
影响程度
可能性
威胁程度
风险权重
数据中心风险分析的计算方法 数据中心风险分析的计算方法
6 2023年4月21日
• 同城 regional− 与主站点处于同一地理区域。主站点和备用站点一般距
离在数十公里以内,可实现同步数据复制,但面临同一区域性灾难风险
• 异地 non-regional− 与主站点处于不同地理区域。主站点和备用站点一般距
离在数百公里以上,不会同时遭受与生产中心同一区域性灾难风险
• 区域性灾难 regional disaster− 造成所在地区或有紧密联系的邻近地区的交通、电讯、
能源及其它关键基础设施受到严重破坏,或大规模人口疏散的事件。
− 例如:地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等
• 机房 / 园区级灾难− 建筑物外部火灾、建筑物内部火灾、机房内部火灾、长
时间停电等,例如 机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障
• 数据中心风险− 因人为错误、技术故障等局限于数据中心内部的风险造
成信息系统中断服务,通过加强本地的技术和管理提高高可用,降低风险
高可用设计冗余设计完善管理制度
异地灾备
同城灾备
--系统单点故障、机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障、人为恶意破坏、软件逻辑错误、信息安全故障等
--造成所在地区或有紧密联系的邻近地区的交通、电讯、能源及其它关键基础设施受到严重破坏,或大规模人口疏散的事件。
-- 例如:地震、大型公共卫生事件、恐怖袭击、区域性通信网故障、区域性电网故障等
-- 建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电等-- 机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列等关键设备硬件故障
区域性灾难
机房 / 园区级灾难
机房内事件
灾难风险管理策略
术语来源:
《 GB/T 20988-2007 信息 安全技术信息系统灾难恢复规范》
灾难风险管理策略
风险对业务的影响 -BIA:量化分析影响
生产效率 / 雇员生产效率:
雇员人数 x 受影响员工数 x 停工时间 x 需要补回的时间 = ?
上百
万美
元
连续增长
指数级增长
分钟 天耗时
影响
(美
元)
几十
亿美
元
直接财务损失 /客户损失
收入:
直接损失、补偿金、损失的未来收入、款项损失和投资损失
声誉损失:
客户、竞争对手获得优势、供应商、金融市场、业务合作伙伴
声誉损失
财务业绩:
收入确认、现金流、信用等级、股票价格、违规罚款
财务业绩
宕机造成的间接影响更加严重,无法预测
7 2023年4月21日
8 2023年4月21日
业务影响分析( BIA )
识别系统功能,业务流程同 IT 的关系,用户数量、分布、关键时段 了解业务应急处理方案是否明确,可支持业务多久,以及方案的局限性
综合分析评定
RTO 、 RPO、恢复资源需求
多方调研分析技术部门、业务部门、管理部门的恢复需求
参考系统之间依赖关系
参考信息整合和发展需求
识别业务、技术、管理、用户的灾难恢复需求
访谈IT
人员(
项
目经理、IT
主管
访谈业务人员、关键用户、
业务管理部门
识别系统架构,系统特点 了解同其他系统依赖关系 了解系统中断时的 IT 应急手段等等
识别数据丢失对业务的影响确定 RPO
识别系统中断对业务的影响以确定 RTO
xxxxxxxx原因说明※30天以内※15天以内
※5天以内※2天以内
※24小时以内※8小时以内
非常严重影响
严重影响
明显影响
轻微影响
无 / 可忽略
中断时间
xxxxxxxx原因说明※30天以内※15天以内
※5天以内※2天以内
※24小时以内※8小时以内
非常严重影响
严重影响
明显影响
轻微影响
无 / 可忽略
中断时间
xxxxxxxx原因说明※30天以内※15天以内
※5天以内※2天以内
※24小时以内※8小时以内
非常严重影响
严重影响
明显影响
轻微影响
无 / 可忽略
中断时间
xxxxxxxx原因说明※30天以内※15天以内
※5天以内※2天以内
※24小时以内※8小时以内
非常严重影响
严重影响
明显影响
轻微影响
无 / 可忽略
中断时间
定量经济损失 定性业务影响 监管法律法规
xxxxxxxx原因说明※30天以内※15天以内
※5天以内※2天以内
※24小时以内※8小时以内
非常严重影响
严重影响
明显影响
轻微影响
无 / 可忽略
中断时间
xxxxxxxx原因说明※30天以内※15天以内
※5天以内※2天以内
※24小时以内※8小时以内
非常严重影响
严重影响
明显影响
轻微影响
无 / 可忽略
中断时间
BIA是在风险分析的基础上,分析业务功能依赖的重要信息系统资源、评估特定灾难场景下各种信息系统中断产生的经济损失和非财务因素影响
BIA是在风险分析的基础上,分析业务功能依赖的重要信息系统资源、评估特定灾难场景下各种信息系统中断产生的经济损失和非财务因素影响
9 2023年4月21日
业务等级区分原则业务等级区分原则业务等级区分原则
从该业务中断对客户和企业这两个方面造成的负面影响程度将业务分类为关键业务和非关键业务
从该业务中断对客户和企业这两个方面造成的负面影响程度将业务分类为关键业务和非关键业务 对企业的
间接影响对企业的间接影响
对公司造成的非财务影响,包括对企业信誉、市场竞争力、业务开展、连带的客户诉讼等方面的影响。
对企业的直接影响对企业的直接影响
对公司造成的财务影响,包括对收入造成的损失,为解决问题增加的成本等方面的影响。
对客户的影响对客户的影响
对客户感知造成的影响,包括客户服务质量、客户满意度、客户忠诚度的下降。
业务影响级别 定性描述
1 级 严重影响
2 级 较严重影响
3 级 一般影响
4 级 较小影响
5 级 可以忽略
关键业务关键业务
−是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知造成严重或较严重影响的业务及其所依赖的业务。如缴费开机业务。
非关键业务非关键业务
– 是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知产生一般或较小影响或基本没有影响的业务。如综合结算、合作伙伴管理等业务。
10 2023年4月21日
业务影响分析( Business Impact Analysis )
重要性
核心业务
营业系统
联机指令系统
业务中断
投诉
计费采集系统
用户透支
帐务系统
不能即时回收资金
结算系统 统
计系统
管理水平下降
系统管理
样 例
11 2023年4月21日
RTO/RPO的定义
灾难发生点
事件发现和通知
紧急状态运作和决策
恢复操作
系统灾备中心
恢复运行
RTO
RPO
备份点
备份
周期最近的一次备份点
临时运行状态
系统回切
时间线
回切完成
回切
动作
不可用或性能降低
不可用或
性能降低通常不轻易启动灾难恢复计划。宣布
灾难发生就意味着不再是正常的业务
模式。启动灾难恢复计划意味着承担
额外的费用,不便的操作,降级的服
务。决策时间有时就会长达 2-4小时
12 2023年4月21日
等级标准依据《 GB/T 20988-2007信息 安全技术 信息系统灾难恢复规范》信息安全标准化技术委员会组织制定、国家标准化管理委员会审查批准发布,2007
灾难恢复策略分析
分析内容:
RA&BIA
灾备中心拓扑结构
系统部署结构及分工
各包的灾难恢复等级
组织团队运维模式
资源需求和建设模式
灾难切换策略
总体策略实现路径
…
需求分析 策略分析
等级划分
灾难恢复需求:
业务和管理需求
灾备风险管控范围
灾难的恢复场景
业务恢复优先级
业务替代方式
RTO&RPO
…
RA&BIA
灾难恢复策略 / 计划的制定
数据备份系统数据备份系统
备用数据处理系统备用数据处理系统
备用网络系统备用网络系统
备用基础设施布局备用基础设施布局
技术支持技术支持
运行维护支持运行维护支持
灾难恢复预案灾难恢复预案
数据备份系统数据备份系统
备用数据处理系统备用数据处理系统
备用网络系统备用网络系统
备用基础设施布局备用基础设施布局
技术支持技术支持
运行维护支持运行维护支持
灾难恢复预案灾难恢复预案
灾备策略要素
13 2023年4月21日
灾备中心规划策略• 活站点 (Active site)
−是支持系统需求的规模适当的办公场所,具有完整和实时信息的完全的冗余恢复站点,其与主站点在所有的技术层面上基本是一致的,系统平时处于 7X24活动状态。由于在主站点和恢复站点同时处理和存储数据所以这些站点提供了最高的可用性。
• 热站点 (Hot site)−是支持系统需求的规模适当的办公场所,配置了所需的系统硬件、软件、提供支持的基础设施和支持人员。热站点通常 24小时有人值守。接到应急计划启动的通知时热站点人员就可以立即开始准备系统的切换和接管。
• 温站点 (Warm site)−装备有部分设备,包含一些或全部系统硬件、软件、电信和电源。温站点被维持
于随时准备接收被重新部署系统的运行状态。这种站点在接收系统和恢复人员之前需要进行准备。在很多情况下,温站点做为另一个系统或功能的正常运行设施,在应急计划启动时,遭受中断的系统临时占用了正常运行系统的设施。
• 冷站点 (Cold site)− 通常具有充足的机房基础设施(电源、电信连接和环境控制)和支持 IT 系统基础
设施。空间可能配有活动地板和其它适合 IT运行的属性。站点不包含 IT 设备并且通常也不包含办公自动化设备如电话、传真机或复印机。使用冷站点是为了用于提供安装所需的设备和电信能力。
14 2023年4月21日122007 年 3 月 20日星期二
• 60%的计划无法使业务恢复到正常运行的状态• 50% 的计划无法解决通讯中断和网络中断的问题• 67% 的公司未支付任何款项用于灾难恢复测试• 34% 的公司不具备数据备份系统• 35% 的公司没有制定应对媒体的相关策略• 34% 的公司无法确定数据恢复的优先顺序• 75% 的恢复配置无法与生产配置保持同步• 65%的参与调查者表示,实际的计划制订活动缺少高层管理人员的参与
• 75% 的公司未制定重要员工的培训策略• 90% 的公司没有针对全体雇员的 “业务连续性计划”
“我们有一项计划…… ” 计划与现实之间的差距 ( META GROUP - 美国)
没有行动的计划是做梦没有计划的行动是噩梦!
15 2023年4月21日
演练计划和测试• 为测试演练而模拟的故障或灾难的设计• 在系统整体测试演练之前,选择一个小系统(如某个业务量比较小的系统)作为独立的测试模块,检验恢复流程的正确性
•开发系统整体演练的测试计划•召开演练前的沟通会议• 建立测试小组,观察测试过程及提出建议•演练后的总结,汇报演示及修正提高工作
16 2023年4月21日
灾难恢复流程演示
灾难发生 应急响应与决策 宣布启动灾
难恢复计划
业务检查 交付使用
数据备份
状况监测
切换操作
启动灾难恢复操作切换有代价
通常不轻易启动灾难恢复计划。宣布
灾难发生就意味着不再是正常的业务
模式。启动灾难恢复计划意味着承担
额外的费用,不便的操作,降级的服
务, 以及切换和回切后的数据准备 .
17 2023年4月21日452007 年 3 月 20日星期二
惠普业务连续管理服务资历• 惠普全球服务
− 一流的硬件容错和数据复制技术− 在全球拥有 5000名能够随时提供支持的专家− 在 38个国家设有 54个恢复中心− 提供全天候高可用性支持服务和设施监控− 成功进行了 500多次调配和 2000次测试演练
• 基于广泛的客户体验和行业最佳实践制订的高效方法• 停机时间不到行业平均停机时间的 1/8 ,平均每年节约 260 万美元• 最庞大的认证顾问队伍 - CSSIP 、 DRII 、 BCI • 灵活的协作合同
东京首尔
中国香港
新加坡
墨尔本市
蒙特利尔
布宜诺斯艾里斯
圣 保罗州
卡拉卡斯墨西哥 市
Mt. View
达拉斯 亚特兰大
约翰内斯堡
迪拜特拉维夫
伊斯坦布尔
斯德哥尔摩市Winnersh
马德里
维也纳
雅典
莫斯科布拉格华沙
布达佩斯
布里斯托尔
米兰
多赛尔多夫
东京首尔
中国香港
新加坡
墨尔本市
蒙特利尔
布宜诺斯艾里斯
圣 保罗州
卡拉卡斯墨西哥 市
Mt. View
达拉斯 亚特兰大
约翰内斯堡
迪拜特拉维夫
伊斯坦布尔
斯德哥尔摩市Winnersh
马德里
维也纳
雅典
莫斯科布拉格华沙
布达佩斯
布里斯托尔
米兰
多赛尔多夫
马来西亚
印度尼西亚
中国台湾
悉尼
奥克兰
中国
印度
532007 年 3 月 20日星期二
总结
没有计划的唯一一点好处就是—— 灾难会突然降临,但在此之前,您不必为此费心劳神 !
Technology for better business outcomes