it 服务管理的实践与总结

53
IT 服服服服服服服服服服 服服服服 IT 服服服服服服服服服服服服

Upload: tonya

Post on 14-Jan-2016

105 views

Category:

Documents


2 download

DESCRIPTION

IT 服务管理的实践与总结. 光大银行 IT 服务管理建设的回顾与发展. 内容提要. 背景介绍 IT 建设背景、 ITSM 项目背景、运行资源背景 初步建设 项目启动、项目实施、收益与问题 持续完善 工具挖潜、流程落实、人员转变、制度配套 当前状态 ITSM 基础、人员专业分工、流程的细化、 ITSM 成本问题. 背景介绍. IT 建设背景、 ITSM 项目背景、运行资源背景. 背景介绍. IT 生产系统背景 2000 年 -4 套,开始集中建设 2005 年 -35 套 初步形成规模,带来运行管理压力 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: IT 服务管理的实践与总结

IT 服务管理的实践与总结

光大银行 IT 服务管理建设的回顾与发展

Page 2: IT 服务管理的实践与总结

内容提要

背景介绍 IT 建设背景、 ITSM 项目背景、运行资源背景

初步建设 项目启动、项目实施、收益与问题

持续完善 工具挖潜、流程落实、人员转变、制度配套

当前状态 ITSM 基础、人员专业分工、流程的细化、 ITSM 成本问

Page 3: IT 服务管理的实践与总结

背景介绍IT 建设背景、 ITSM 项目背景、运行资源背景

Page 4: IT 服务管理的实践与总结

背景介绍 IT 生产系统背景

2000 年 -4 套,开始集中建设 2005 年 -35 套 初步形成规模,带来运行管理压力 2008 年 -150 套 ITSM 建设的急迫性

ITSM 项目背景 2003 年开始登记整理故障记录等 2004 年开始 ITSM 理论接触 2005 年 6 月启动(一次故障启动)

运行资源背景 2005 年前操作员、系统管理员,被动式管理 2006 年开始,人员细分,主动式管理(投产审批及标

准)

Page 5: IT 服务管理的实践与总结

初步建设项目启动、项目实施、收益与问题

Page 6: IT 服务管理的实践与总结

IT 系统的快速发展与变化 初期目标:

IT 运行信息控制( CMDB ):以运行维护为导向,配置内容:服务器、网络端口、操作信息、文档、帐户、备份介质、监控体系… .. ;

完备监控体系的建设:统筹考虑监控工具、人员、制度及流程,充分利用监控环节的各类信息;

事件处理的初步控制:对事件进行分类、登记、跟踪,并做事后分析与评估,促进优化监控、系统管理等工作(无细化的处理流程) ;

变更的管理:对各类变更事件首先以 CMDB 为核心进行评估与控制,为后续阶段的质量管理等奠定基础;

操作环节的控制:对 56 套生产系统的每日 300 个操作任务进行自动化控制与调度;

按需建设: 按照当时的需要,只针对配置、事件、控制与监控进行建设,解决当

前矛盾; ITIL 的其它部分在初期不加以实施,但做总体考虑(如: SLA); 实施的计划要充分考虑各类成本以及自身资源(如:人员的内部培养、

外部聘用、专业服务购买)

Page 7: IT 服务管理的实践与总结

IT 系统的快速发展与变化 简洁实用

对于各类流程根据实际情况先简单实现,不按照 ITIL 模型照搬;(如:事故处理流程,人员矩阵式配置)

人员角色采取有重点逐步过渡的方式;(如:一线监控人员) 各类制度是推动 ITSM 建设的关键,保证制度具有可操作性,具

备:人员角色、职责、流程、考核等关键要素;(如:作业调度使用管理规定)

责任到人、考虑与待遇配合,有专人负责流程并提出修改意见;(如:运行主管、交接班管理)

持续演变 事件、变更与配置等是一个循序渐进的过程,分阶段由简单到复

杂;(一期项目做,二期可能还需要做) 人员、制度、流程与工具都要根据情况不断调整;(如:监控的

四个流程 { 自检、调整、判断、分析 } 及一个报告 { 重点、隐患、解决 } )

Page 8: IT 服务管理的实践与总结

IT 服务管理建设的初步目标-日常运维有效管理

日常运维管理的核心内容

企业 IT 基础部件主机等硬件 存储设备 各类系统软件 各类应用软件 各类通讯线路 各类文档流程 各类配置参数

日常运维有效管理的目标 保障 IT 系统的稳定与效率 从容应对各类紧急事件 合理的 IT 系统架构设计

流程控制

•工作流程控制

•操作流程控制

全面的监控体系

•IT基础环境监控•应用系统检查•系统性能管理•总体运行情况分析总体运行情况分析

CMDB 、事件、配置、变更

Page 9: IT 服务管理的实践与总结

CMDB

配置管理从项目开始的理想设计到实际应用的逐渐过度

Page 10: IT 服务管理的实践与总结

CMDB 初期的理想化

Page 11: IT 服务管理的实践与总结

CMDB 的实用化

•以系统运行为主导、考虑 IT审计等需要;•每类 CI都要考虑相关的责任人;•CI之间的关系更重要;•每类 CI都对应一定的流程

Page 12: IT 服务管理的实践与总结

CMDB 的实用化既是软件的架构也是监控信息

Page 13: IT 服务管理的实践与总结

监控体系的建设

Page 14: IT 服务管理的实践与总结

系统监控在运行管理中的功能 运行管理架构的建设

建立 IT 运行的预警机制:提高故障主动发现的比率 建立系统的评估机制:基于数据对系统性能、容量评估 建立 IT 运行质量控制机制:问题的预先解决、质量把关

是 IT 服务管理体系的基础 奠定数据基础:真实的运行数据 奠定控制基础:事故发现、定位、处理的基础 奠定知识基础:监控消息的“消化”,形成知识库(专业服

务) 奠定人员基础:监控环节不仅仅是一类人员的工作 奠定流程基础:是各类流程的起点,也是监视环节

Page 14

Page 15: IT 服务管理的实践与总结

监控在 ITSM 中的功能 以OVO 为基础的监控工具体系

OVO 服务器

LOGLOGIC对 SYSLOG 日志的搜集

过滤、报警SNMP 转发

OVO 的各类 AGENT各类设备的 SNMP

应用自定义的服务检查流程

ECC、 ISEE加密机

专用设备

各 类 报 警 消 息

故障工单

OVSD :

1. 控制故障解决;2. 控制监控部署;3. 控制监控策略;4. 控制故障判断;

质量控制

安装配置标准测试的标准检查的标准控制的标准

Page 16: IT 服务管理的实践与总结

OVSD 与 OVO 的配合(日常工作流程)与 IT 服务管理中其他功能的关系

与事故处理的关系 对于事故的发现与定位,主要依靠监控体系,同时对于没有在监控体系

发现与定位的事故,必须认真评估,查找原因后不断修补监控体系,提高 OVSD 中故障主动发现的比例;

与变更管理的关系 在变更过程中必须考虑监控和检查手段; 在发现监控体系漏洞后必须通过变更环节协调 CMDB 中 CI 修改;

与配置管理的关系 在配置管理数据库( CMDB )建立应用系统监控信息,针对任何投产

的应用系统,能够明确其构成结构及对应监控手段,建立完整的应用架构档案(可考虑 SN 的展现);

与系统开发的关系 在应用开发阶段,逐步按照《应用系统投产文档建立规范》完善架构设

计、容灾、容错、性能等环节,并最终产生移交文档;(质量控制) 将移交文档在监控、配置管理等环节实施;

Page 17: IT 服务管理的实践与总结

监控系统有效运行流程 _ (新系统投产)

《开发人员》

建立应用可用检查清单

按照:1 ) IT 基础环境;

2 )应用可用检查;两个项目形成投产

监控档案

在OVO 中部署各节点及层面的监控模板,设置特定阀值

实施应用可用的:1 )特定检查;2 )服务检查;

《系统管理员》

建立应用 IT基础环境检查清单

《监控管理员》

依照以往经验建立应用可用基础检查清单

1 )通过 OVSD变更流程登记;2 )变更 OVSD问题库协调一线

监控人员;3 )统一报警到OVO平台;

《一线监控人员》监控 OVO

对: 1) IT 基础环境严重报警;2)应用可用严重报警;

发起事故工单协调责任人处理

按授权启动应急流程

Page 18: IT 服务管理的实践与总结

监控系统有效运行流程 _ (持续维护)

OVO 监控平台

《一线监控人员》监控 OVO

对: 1) IT 基础环境严重报警;2)应用可用严重报警;

发起事故工单协调责任人

处理按授权

启动应急流程

OVSD平台

《开发人员》

建立应用可用检查清单

《系统管理员》

建立应用 IT基础环境检查清单

《监控管理员》

依照以往经验建立应用可用基础检查清单

按管理规定

监控并发起

报警

用户投诉

检查:

1 )所有事故来源为监控体系的有效性;

2 )未被监控体系发现的事故,确认监控检查方式;

Page 19: IT 服务管理的实践与总结

事故管理

Page 20: IT 服务管理的实践与总结

ITSM 建设初期目标 _ 事故处理事故的分类,由值班人员统一

跟踪

Page 21: IT 服务管理的实践与总结

ITSM 建设初期目标 _ 事故处理

事故来源的详细定义,统计分析的基础

Page 22: IT 服务管理的实践与总结

ITSM 建设初期目标 _ 事故处理提高故障主动发现的比率

Page 23: IT 服务管理的实践与总结

变更管理

Page 24: IT 服务管理的实践与总结

ITSM 建设初期目标 _ 变更管理

CMDB 是变更的基础,变更与监控协调一致

Page 25: IT 服务管理的实践与总结

ITSM 建设初期目标 _ 操作的控制

操作的变更首先在 CMDB 实现

Page 26: IT 服务管理的实践与总结

ITSM 建设初期目标 _ 操作的控制

作业调度的实现

Page 27: IT 服务管理的实践与总结

ITSM 建设初期目标 _ 操作的控制作业执行情况的监控

Page 28: IT 服务管理的实践与总结

IT 服务管理建设的收获与问题流程控制、全面监控、主动管理人员转化、流程制度、工具支持

Page 29: IT 服务管理的实践与总结

IT 服务管理建设的收获 _ 初期建设思路 理论产生的背景

IT 系统故障的危害巨大; 有效维护 IT 系统超出了纯粹的技术范畴; 基于技术的复杂管理体系;

理论的意义 总体描述了管理的范畴,细化各个环节; 科学的划分了各个管理控制层次;

利用理论指导的思路 首先:统计分析企业自身各类 IT 事故、事件,找出最近、威胁最

大的问题; 其次:分析企业已有的 IT 参与人员、制度及流程; 再次:参照企业对 IT部门的责权利定义; 最后:制定 IT 服务管理的基础建设方案;

Page 30: IT 服务管理的实践与总结

IT 服务管理建设的收获

主动式系统管理通过变更等流程控制CMDB 进而控制 IT 架构的关键环节;根据 OVSD 的事件、变更管理,控制 IT 服务质量;根据系统的变更,及时定义修改对应的各类流程;依照各类控制流程、 IT 架构设计策略,逐步完善应用系统设计规范,保证系统的效率与安全

全面监控体系完善配置 OVO等 IT 基础环境监控工具,首先保障 IT 基础环境健康,做到及时排除事故隐患;积极利用各类系统优化工具及专业分析排除故障隐患制定标准,设计应用检查规范充分搜集整理以上三个渠道的系统运行数据,为系统管理环节提供系统设计规范素材

完善的流程控制根据系统管理环节的定义,在 iEAI 实现所有操作流程的控制,对操作的执行过程保留完整的执行现场数据;实现项目流程的管理,保证投入运行系统的质量;

在OVSD 实现 ITSM 的工作流程控制(人员角色间配合)

过渡到完善的 IT 服务管理架构是一个渐变的过程,借鉴理论,结合实际,在 IT 系统日常运营管理工作中,首先努力做好以下三个方面的工作,为后续 ITSM 建设打下

坚实的基础

Page 31: IT 服务管理的实践与总结

IT 服务管理建设的收获-主动系统管理 涵盖范围

应用系统日常变更、配置、事故处理策略与流程; 应用系统各类检查与应急处理流程; 应用系统的持续优化; 应用系统规范的细化以及与开发环节的衔接; 针对系统运行的各类统计分析报表;

参与人员角色划分 运行主管、监控管理员、系统管理员、变更管理员、项目开发人员

关键问题 能够控制各类 CI之间的关联关系; 能否有效的实施各类流程及管理制度;

主要职责 保证日常变更的完整与准确(与监控,处理流程的关系) 依据运行中的各类事件和要求,调整应用系统规范,做到预先控制 控制对关键配置信息的更改与维护

Page 32: IT 服务管理的实践与总结

IT 服务管理建设的收获-主动系统管理

数据库 主机、服务器

存储

文档 组织人员

厂商服务

网络

应用

操作流程

CMDB纳入范围、专人管理

帐户

Page 33: IT 服务管理的实践与总结

IT 服务管理建设的收获-主动系统管理通过分析抓住重点,消除故

障根源

Page 34: IT 服务管理的实践与总结

IT 服务管理建设的收获-全面的监控体系

涵盖范围 生产系统的 IT 标准组件监控 (OS/DB/MW/ 硬件 / 网络 ); 关键应用进程及其日志,应用与外部的关联,应用特定配置、特殊设备; 应用批作业的特定监控(批处理状态检查等);

参与人员角色划分 监控人员、运行主管、监控管理员、系统管理员、变更管理员、应用开

发人员 监控的不同部分

监控广泛概念的 IT 标准工业组件( IT 基础环境监控); 可灵活自定义系统主动检查流程(特定应用监控 ); 深入分析与优化能力(性能分析);

主要职责 通过监控体系主动发现事故,通过分析报告发掘隐患; 通过 {自检、调整、判断、分析 }四个流程保证监控系统的不断自我完善; 通过监控系统的积累,逐步建立知识库 ;

Page 35: IT 服务管理的实践与总结

IT 服务管理建设的收获-全面的监控体系 全面监控体系的概况

应用前端

应用服务进程、专用设备

存储

操作系统

中间件

数据库

主机

网络

应用外部连接

专业诊断工具及性能管理

OV

O IT

组件标准监控

主动检查流程

应用维护流程

(批作业等)

此部分主要监控构成应用系统的标准 IT组件,针对标准的协议、资源、服务、日志等进行监控,考虑各应用系统的不同特点,定义不同的监控模板,被动大范围的监控各类事件发生,同时搜集系统运行性能数据,这类故障约占系统故障的 30- 40%

此部分主要是针对应用系统的特定配置、维护操作、应用的关联、专用设备等进行监控,是一个灵活修改、主动检查的体系,主动发现应用系统故障的 60 - 70

Page 36: IT 服务管理的实践与总结

IT 服务管理建设的收获-人员的流程化

事件发生:多渠道

事件发生:多渠道

一线登记:分类,发起呼叫,跟踪一线登记:分类,发起呼叫,跟踪

二线解决:系统管理员总负责,首先定位问题,其次解决

二线解决:系统管理员总负责,首先定位问题,其次解决

三线支持:项目组,系统工程师,

厂商

三线支持:项目组,系统工程师,

厂商

监控 /问题:确认监控漏洞、修订标准

监控 /问题:确认监控漏洞、修订标准

Page 37: IT 服务管理的实践与总结

IT 服务管理建设存在的问题-人员转化 人员分工的细化与流程整体的协调;

ITSM 人员角色与目前 IT部门人员所属部门的协调;

人员角色的责权利与企业人力资源部门的协调;

各层次人员的持续培训问题;

发挥各层面人员主动性的问题;

Page 38: IT 服务管理的实践与总结

IT 服务管理建设存在的问题-流程制度 流程修改的成本控制;

流程与管理制度的配套;

流程制定过程中各层面人员的参与;

流程的实现问题(没有好的控制手段就难以深化、落实);

流程与部门分工的协调;

Page 39: IT 服务管理的实践与总结

IT 服务管理建设存在的问题-工具支持 对 CMDB 的修改的有效控制(变更的可操作性);

对 CMDB 的展现问题(在评估中发挥作用);

对 CMDB 中数据的报表展现(无法利用 CMDB数据生成各类管理报表);

Page 40: IT 服务管理的实践与总结

IT 服务管理持续建设流程驱动、范围扩展、标准建设质量管理、全面考虑、框架建立 项目之后的持续改进

Page 41: IT 服务管理的实践与总结

IT 服务管理持续建设(目前以流程控制主) 流程驱动

完善已有流程(事故、变更、投产等),实现真正控制;

流程涉及的范围逐步扩展(运行、开发、商务); 流程既要满足 IT安全运行的要求也要考虑 IT 审计要求; 系统运行架构的建立,实现人员间协同配合,有效利

用专业资源; 工具配置

充分利用已有工具; 基于前期经验引入新工具;

标准建设 推进《应用系统投产标准》、《系统安装标准》等建

设,做到预先解决,防止隐患进入生产环节;

Page 42: IT 服务管理的实践与总结

需求设计

系统实现

测试阶段

投产评估

IT 架构控制数据设计容灾设计资源评估安全设计审计考评

代码性能;压力性能;承载性能;破坏测试;。。。。。

操作控制;监控评估;备份协议;SLM 实施;安装检查;

投入运行

监控调整;性能评估;故障管理;运行分析;专业服务;

在 IT 管理平台实现流程控制 _质量控制的流程

立项阶段

运行项目管理(移交、投产标准) 运行管理、监控、评估

运 行 体 系

开 发 体 系

Page 43: IT 服务管理的实践与总结

在 IT 管理平台实现流程控制 _流程控制的标准

#文档代码 文档名称 内容说明 优先程度

1SFS

应用系统服务说明( Service & Function Summary )

-中英文名称:-功能概述:-服务时间说明、交易峰值预测:-用户类型、数量、访问方式:

2 ASA应 用 系 统 软 件 架 构 ( Application Software Architecture )

客户端、表示层、应用层、数据层、通讯层等各层、各类软件功能及软件产品说明

3 HBC设 备 及 灾 备 配 置 ( Hardware & Backup Configuration )

软件架构各层次对照的硬件配置、容灾方式及硬件配置

4 AIC应 用 软 件 安 装 配 置 说 明 ( Application Software Installation& Configuration )

软件架构各层次的应用软件名称、安装方法、配置说明

5 SIC系 统 软 件 安 装 配 置 说 明 ( System Software Installation& Configuration )

操作系统、数据库、中间件及其他产品软件的安装、配置说明

6 FSL文件系统清单( File System List )

软件架构各层次文件系统清单、空间大小、余量要求

7 BPG 批处理指南( Batch Process Guide )批处理内容、时间、条件说明、操作方法

8 HBA历史数据 / 文件备份及清理协议( Historical Data/File Backup & Remove Agreement )

数据库、文件系统、应用程序、报表、日志等备份、清理要求和方法

9 APM应用进程管理手册( Application Process Management Manual )

软件架构各层次服务进程的清单、功能、停起方法、监控手段

10 AUL应 用 / 数据库 用 户清单 ( Application/Database User List )

应用和数据库用户名称、功能、权限和口令变动说明

11 UQA 常见问题及处理( Usual Question & Answer )

Page 44: IT 服务管理的实践与总结

在 IT 管理平台实现流程控制 _流程控制的制度

制度的集中登记与控制

Page 45: IT 服务管理的实践与总结

在 IT 管理平台实现流程控制 _流程控制的实现 标准、制度、人员是流程的基础;

以工具等手段加以控制,实现流程的落实;

流程过程中涉及的标准、资料、配置等是动态的,如何有效协调是关键;

复杂流程具有计划性,事先计划、设计,然后由系统自动调度执行,以达到协调多种角色人员完成复杂工作;

流程的执行过程历史必须清晰记录,满足监管与 IT 审计要求;

Page 46: IT 服务管理的实践与总结

当前状态ITSM 基础、人员专业分工、流程的细化、 ITSM 成本问题

Page 47: IT 服务管理的实践与总结

ITSM 的基础情况 基础工具平台:监控、 ITSM 、性能 人员角色基础:由初期状态实例化的 ITIL 制度基础:

管理流程基础:各类控制表格 报表基础:各类 ITSM相关报表

ITÔËÐÐÖƶÈÁбí

Page 48: IT 服务管理的实践与总结

人员分工的细化 工具、人员、流程交替促进

ITÔËÐÐÈËÔ±¸Úλ

Page 49: IT 服务管理的实践与总结

ITSM 流程细化的实施 根据人员角色及控制的变化细化流程以细化的流程控制推动人员工作专业化 流程与 CMDB 的紧密结合 CMDB在各类决策中发挥真正作用

Page 50: IT 服务管理的实践与总结

IT审批管理场景 _ 投产审批流程

根据 IT实际环境及自身人员分工,设计投产安装检查清单,做为审批

流程的设计依据

以工具实现投产审批流程的控制,并配属角色、设计界面

在实际投产审批工作中,工具自动按流程控制实施过程

Page 51: IT 服务管理的实践与总结

CI 分层策略组合式关系管理

设备类 CI

资源类 CI

控制类 CICiR

CoR CoR

CiRCiR

类似 FK

在变更过程当中,由专业人员按照 CiR关系的提示,依据人的专业知识及逻辑维护两个 CI之间的数据一致性

在变更过程当中,由系统按照预先定义的 CoR关系,自动更新两个 CI之间指定字段的值以保

证数据准确

Page 52: IT 服务管理的实践与总结

系 统 运 行 体 系 架 构(各类流程的控制)系 统 运 行 体 系 架 构(各类流程的控制)系 统 运 行 体 系 架 构(各类流程的控制)系 统 运 行 体 系 架 构(各类流程的控制)

系统监控系统监控系统监控系统监控 资源管理资源管理资源管理资源管理

数据文档数据文档数据文档数据文档

灾备管理灾备管理灾备管理灾备管理 外包服务外包服务外包服务外包服务

访问管访问管理理访问管访问管理理

投产变更投产变更投产变更投产变更

操作管理操作管理操作管理操作管理

系统故障监系统故障监控控系统故障监系统故障监控控

常规操常规操作作常规操常规操作作

故障管理故障管理故障管理故障管理

网络系统监网络系统监控控网络系统监网络系统监控控

资源使用监资源使用监控控资源使用监资源使用监控控

交易行为监交易行为监控控交易行为监交易行为监控控

机房环境监机房环境监控控机房环境监机房环境监控控

巡 检巡 检巡 检巡 检

批处理批处理批处理批处理

备份操备份操作作备份操备份操作作

系统变更系统变更系统变更系统变更

应用变更应用变更应用变更应用变更

用户管用户管理理用户管用户管理理

网络访问控网络访问控制制网络访问控网络访问控制制

数据变更数据变更数据变更数据变更

硬件管理硬件管理硬件管理硬件管理软件管理软件管理软件管理软件管理

补丁管理补丁管理补丁管理补丁管理

操作变更操作变更操作变更操作变更

系统软件系统软件系统软件系统软件

应用软件应用软件应用软件应用软件

服务器服务器 服务器服务器

磁盘 磁盘 磁盘 磁盘

专用设备专用设备专用设备专用设备

机房设备机房设备机房设备机房设备

网络管理网络管理网络管理网络管理

介质管理介质管理介质管理介质管理

数据访数据访问问数据访数据访问问

灾备策略灾备策略灾备策略灾备策略

灾备切换灾备切换灾备切换灾备切换

应急流程应急流程应急流程应急流程

服务采购服务采购服务采购服务采购

服务评估服务评估服务评估服务评估

外包管理外包管理外包管理外包管理

机房访机房访问问机房访机房访问问

网络设备网络设备网络设备网络设备上架管上架管理理上架管上架管理理

网段管理网段管理网段管理网段管理

网址管理网址管理网址管理网址管理 文档管理文档管理文档管理文档管理

VPNVPN访访问问VPNVPN访访问问

问题管理问题管理问题管理问题管理 维修变更维修变更维修变更维修变更

网络变更网络变更网络变更网络变更

系统运行部门体系架构的内容

质量管理、标准维护、知识库维护质量管理、标准维护、知识库维护质量管理、标准维护、知识库维护质量管理、标准维护、知识库维护

Page 53: IT 服务管理的实践与总结

Q&A