实战Practice丨深入践行自动化运维?全面提升一体化管理

实战Practice丨深入践行自动化运维?全面提升一体化管理

实战Practice丨深入践行自动化运维?全面提升一体化管理

欢迎金融科技工作者积极投稿!

各抒己见!

投稿邮箱: newmedia@fcmag.com.cn



——金融电子化

征稿启事

本文节选自《金融电子化》2018年4月刊

作者:

中国太平洋保险(集团)股份有限公司

          应用运行支持部?陈慧卿?杜颖君

编者按

 

本文首先介绍了自动化运维的功能框架,之后对基于自动化运维的一体化管理模式的进一步推进工作进行了分析研究。

行业背景:

纵观业务发展及IT运维趋势,真正提高IT运维管理效率及风险防控的核心,还是在于将日常大量操作性的工作流程化、自动化。这意味着IT运维不再只是一个维护过程,而是一个自动化管理的提升过程。

当前问题:

针对爆发式的交易量增长,构建自动化运维机制变得必须且迫切。



应对措施:

一般情况下,企业根据IT工具需求的紧迫程度,开发、购买或是使用开源软件进行第一步的自动化软件部署。这解决了当前急需的运维需求,但却在日后的该类工具整合、升级等方面提出更高的资源要求。应当根据自身业务特点,提前进行自动化运维规划、逐步健全自动化运维机制,建立符合业务发展趋势的自动化运维框架。

自动化运维模型建立

在金融机构生产运行管理的基础上,自动化运维框架应与基于ITIL的管理流程紧密结合,实现IT运维管理的最佳实践。因此,本文提出自动化运维功能框架应当覆盖四个方面:监、管、控、报。

实战Practice丨深入践行自动化运维?全面提升一体化管理

图   自动化运维功能框架

1

即监控,是自动化运维最基本的工具。生产运行涉及监控包含环境、设备、网络、系统、应用等各方面。应当建立统一展示、统一操作的集中监控工具,第一时间将系统异常发送至各专业条线相关人员,以进行全面故障评估及协同化处置流程。



 

建立的集中监控工具能够对告警进行过滤、压制、关联、升级等操作,对不必要、重复、维护期间的告警进行屏蔽。告警内容可进一步作为故障自愈的基础数据。由于业务需求快速迭代及软件交付频率提升,造成各类告警阈值和对象的不断变化,集中监控的建设也因此变成一项长期化工程。应当建立相关指标对告警的误报率、覆盖面进行评估并逐步优化。相关指标公式可定义如下:

告警误报率=1-有效告警总数/所有告警总数×100%。

告警覆盖率=异常告警事件总数/所有生产安全事件总数×100%。

2

即软件产品各生命周期环节中的管理工具,自动化运维的主体部分,该类工具是最能有效降低重复劳动、建立智能化高效操作的平台。例如,在软件开发测试过程中使用的Jenkins自动构建工具、Docker容器部署等;在系统运行过程中使用的各类维护工具,如: ELK日志分析、Ansible、Puppet集中配置,以及一些可自主开发的自愈、变更、批处理工具等。



 

管理工具对运维是由手动到智能的一次飞跃,也是持续集成、持续交付的突破口。然而也不能完全依靠管理工具而忽视了基本原理的认知,手工操作仍需保留以作为工具故障后的应急处置方案。

3

即各类流程、服务、安全的控制工具,为生产运行三大认证体系ITIL、ISO20000、ISO27001的落地实践。定义了生产运行部门对外提供IT基础服务的综合标准,包括:事件、问题、变更、发布、连续性、可用性等一系列生产运行方面的流程管控。控制工具主要以服务台为基础,辅以特权账号平台、安全审计平台等。



 

由于控制过程贯穿于整个生产运维体系,因此控制类工具应当与“监”、“管”、“报”模块互相交互。例如,集中监控系统产生告警之后,联动服务台建立事件流程,流转各对应专业条线进行排查;自愈工具对生产安全事件进行修复之后,应当能够自动关闭对应事件单并补充解决方案的描述。

4

即各类文件、数据报送工具,是建设可视化、可量化数据中心生产运行的传播窗口。可使用相关报表管理平台,向相关人员、分管领导、业务部门、上级主管部门、监管机构报送交易数据、生产运行等情况。信息数据报送是了解情况、掌握动态、把握全局的重要途径,是督促检查各项工作落实情况的重要手段。

 

完整的报送机制应当同步关注数据质量与数据时效,数据报送机制和报送标准是建立健全自动化运维管理的重要一环。

 

基于自动化运维的一体化管理模式推进

在2017版DevOps现状调查报告中也指出,自动化运维过程对任何组织无论财务或非财务指标都可以达到预计的两倍。在各类金融机构科技部门,基于自动化运维的一体化管理模式推进主要集中于以下方面:



1

生产运行规章制度推进

制度作为各项工作应遵循的最高行为规则,规定了业务流程、工作程序、议事规则等内容。但制度建设应适合时宜、因势而变,及时剔除滞后的内容,填补“真空地带”和消除“盲区”。自动化运维工具的落地能够极大建立健全生产运行规章制度、不断提升和促进内部管理的质量和效率。例如应急处置相关制度可基于集中监控的告警发现,通知各专业全方位评估排查,从而替换原有由客户投诉、业务人员反馈的逐层汇报,有效降低应急响应时间。



2

流程管控优化

流程是生产安全运作的基础,所有生产运行操作都需要流程驱动,自动化运维工具对流程的普及和实现都具有举足轻重的作用。广义而言,目前普遍使用的服务台是一个企业级的流程管理平台,它将流程与企业战略目标相结合,进而与IT系统进行有效关联。我们把数据变更、应用发布等功能融入自动化运维工具中,通过精细化管理提高变更流程的受控程度,通过流程定义(前备、实施、后备、服务启停等)推动变更一体化管理水平。



3

岗位建设的升级

生产运行岗位根据职能划分,是组织的基本单位,承接各类分解目标,并以结果为导向。自动化运维的落地,可缩减大量基层操作人员,增加运维开发、运行分析等岗位,以此有效缩减运维成本。



自动化运维建设推进存在问题

自动化运维在生产运行中产生便捷、高效、安全的效果,以及推动一体化运维管理的作用已是不言而喻。但在各类工具推进落地的过程中,与现有生产运行管理、操作机制产生的矛盾也是日益明显。所谓自动化运维建设的问题,主要包含以下多个方面,各金融机构应根据自身特点,提前进行问题评估、总结问题原因、优化问题解决思路。



 

一是 

部门各自为政。主要存在于诸多大型国有金融机构,科技部门下属多个层级:包含总部级、各省、市级、分公司生产运行管理部门,各部门均立足自身实际开发自动化运维管理平台,形成信息孤岛,研发的系统无法形成合力、面向整个集团推广。对总部而言,存在重复开发、标准不统一、整合困难、资源浪费等情况,增加管理成本。

 

二是

 

无可靠CMDB支撑,标准化落地项多。CMDB作为存储与管理IT架构的所有配置项,是IT管理的核心,与所有服务支持和流程都紧密相联,支持这些流程的运转、发挥配置信息的价值。在不少案例中,由于没有有效CMDB支撑,自动化运维深入应用受到很大的挑战。资源配置项在各系统中重复配置,并且标准化落地困难。

 

三是 

对各类运维工具整合困难。系统整合涉及硬件、平台、软件、业务多个层面的内容,特别是遗留有很多中小运维管理系统的情况下,是一个很复杂的系统工程。整合的目的一方面是降低系统运维成本,一方面是能够更加敏捷地支撑业务。在自动化运维建设初期,无论是自主研发或是外包,都需要建立一套标准的软件开发过程标准,制定相应的开发框架和应用框架,规范开发模型、界面框架、技术架构等多个方面的内容。

 

四是 

对人员技能要求较高。运维研发工程师是既要会运维,又要会开发的复合型科技人才,面对当前厂商产品众多、开发框架多元等特点,稳步提升自动化运维开发人员技能、保持队伍基本稳定是推进自动化运维落地,实现一体化运维管理的关键一环。

实战Practice丨深入践行自动化运维?全面提升一体化管理




《金融电子化》新媒体部

主任 / 邝源   编辑 / 潘婧