IT运维

浅谈---IT运维自动化管理建设

2015-12-15 11:40:23 | 来源:中培企业IT培训网

一、IT运维的困境

当下,IT运维已经成为企业的必需品,企业关注的是如何提高IT运维的效率,从而实现IT资源利用率的最大化。国际知名调查机构Gartner调查发现,在IT运维成本中,源自技术或产品(包括硬件、软件、网络等)成本其实只占20%,而流程维护成本占40%,运维人员成本占40%。流程维护成本包括日常维护、变更管理、测试成本等;人员成本包括训练、教育、人员流失、招聘成本等。因此,如何提高IT运维管理效率,降低运维成本是时下IT界和CIO最热门的话题之一。

目前许多企业的IT运维虽然已经实现从人工运维到计算机管理,但这只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的措施,所以传统被动的、孤立的、半自动式的IT运维管理模式经常是让IT部门疲惫不堪。主要有以下几个方面:(1)运维人员被动低效率手工救火;(2)缺乏一套高效的IT运维机制支撑;(3)缺乏高效的IT运维技术工具;

二、IT运维自动化的主要内容

IT 运维管理,是指单位IT 部门采用相关的方法、手段、技术、制度、流程和文档等,对IT 运行环境(如硬软件环境、网络环境等)、IT 业务系统和IT 运维人员进行的综合管理。IT 运维管理主要包括七个方面的管理内容:

设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理;

应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web 等的监控与管理;

数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;

业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);

目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;

资源资产管理:管理企业中各IT 系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;

信息安全管理:目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36 个控制目标和127 种控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

所谓IT运维管理的自动化是指通过将日常IT运维中大量的重复性工作,小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份,杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。其次,IT运维流程的自动化能提高透明度。因为随着业务需求1的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。

三、IT运维自动化需关注的两类工具

对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:①监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等。②配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置。③维护事件提醒自动化,是指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人。④系统健康检测自动化,是指定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控。⑤维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。

四、基于ITIL的IT运维自动化平台构建 

20世纪80年代,英国政府为了提升信息化设备和系统的运行效率,指定当时的英国政府计算机与通信局,研究开发一种方法,用于指导全国政府部门高效、经济地运营信息化设备和系统,结果产生了信息技术基础架构库(Information Technology Infrastructure Library—ITIL)。ITIL供组织内部进行IT服务管理的参考经验,它汇集了IT服务业内的最佳实践,是指导如何在运维管理中定义人员、流程、服务活动及其之间关系的指导框架。

ITIL的框架包括业务管理、服务管理、IT基础架构管理、安全管理、应用管理、IT服务管理规划等,其中最核心的是服务管理中的服务支持和服务提供。IT主管部门可能更关心服务支持,服务支持主要包括:服务台、故障管理、问题管理、配置管理、变更管理和发布管理等六个模块。

可以借鉴ITIL的思想来构建全面的基于ITIL的IT运维自动化平台。主要包括如下几个核心部分:

(一)IT服务管理基础平台的搭建

IT服务管理基础平台系统由应用服务器、数据库服务器、客户机组成,使用分布式部署,减轻核心服务器的压力。创建用户类型、定义安全机制、代码表配置、组织结构数据建设、人员数据建设、资产数据装载,制作统计报表。

(二)服务台建设

数据中心服务台负责全公司服务请求的处理和转发,技术上主要是对服务台工作人员进行培训,掌握全面的运维知识,熟悉服务台职责;管理上主要是制定服务台运维管理制度,明确服务台人员的工作内容与操作规程。服务台是用户申报事故以及获得事故处理结论的统一入口,主要工作包括以下几个方面,一是完成响应服务请求,处理常见的运维事件,将不能解决的事件升级;二是发布相关的运维信息,如网络、业务系统、设备故障等;三是协助提高IT部门事故处理质量,增加用户满意度,形成有效的事故处理和跟踪的手段。

(三)事故管理建设

借鉴IT服务管理的经验,为了灵活实现运维系统各个流程建设,在实践中简化了流程以适应运维工作的需要。在事故处理流程建设中,管理标准的做法是直接将事故送到服务台,由服务台负责处理或者分发,而实际工作中,将业务系统的监控事件直接送到业务管理系统的管理员,服务台负责监督事故处理完成的情况。 

(四)问题管理建设

问题管理管理员直接手工新建问题工单,或者由服务台或事故管理来触发问题工单管理流程。当问题由于成本与技术等原因暂不消除时,可定为已知错误,后期可继续处理。找到问题的根本原因,并提供临时措施与根本解决方案,防止问题再次发生或减少问题的数量。

(五)配置管理建设

配置管理数据库储存与管理企业IT架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,一方面支持这些流程的流畅运转、发挥配置信息的价值;另一方面,帮助技术人员受到服务请求时获取相关技术支持,同时依赖于相关流程保证数据的准确性。

在建设初期通过配置项自动发现,整个企业IT架构的配置项导入配置项,为了保证数据的准确、全面、我们要求业务系统、设备等管理人员提供、核对相关数据,保证在运维中能准确利用数据进行运维。

CMDB通过拓扑关联图展现各个配置项之间的关联关系,可以清晰的看到各个硬件、软件间的关联关系,也能看到IT配置项和IT服务之间的关联关系,因此当IT服务出现问题时,可以通过该关联关系,快速查找IT服务不可用的根本原因。

将配置项和事故记录、问题记录、变更记录和发布记录相关联,有利于针对具体的IT设施进行运维优化和改进。

(六)变更管理建设

确保在IT服务变动的过程中能够有标准的方法,以有效的控制变更,降低或消除因为变更对业务运营所造成的影响与问题。由专家和技术顾问组成,对提交的变更请求(RFC)进行评审,并最终裁定是否批准实施该变更请求。

变更审计管理,通过CMDB定期对配置项进行自动扫描,发现企业IT架构中的非法变更,管理员根据变更的信息,选择变更恢复或者进入变更流程,帮助管理人员进行变更的审计管理。

(七)发布管理建设

通过正式的流程确保只有经过完整测试与得到授权的软件与硬件才能够进入正式运行环境,以确保变更后生产环境的质量。发布的最终结果将会反映到CMDB中。

(八)知识库建设

将成熟可行的解决方案录入知识库,进行数据共享,快速排除故障,从而达到提高用户“自助式服务”能力的目的。当运维人员进行事故、问题、变更和发布运维流程时,可以根据不同资源类型,自动关联该类型的知识条目,帮助运维人员快速解决问题。知识库的自身管理,包括建立、审核、分类、评价、订阅、收藏、搜索知识等,知识需要经过知识库管理员审核后才能进入知识库。

标签: IT运维