实战Practice丨深入践行自动化运维?全面提升一体化管理
欢迎金融科技工作者积极投稿!
各抒己见!
投稿邮箱: newmedia@fcmag.com.cn
——金融电子化
征稿启事
本文节选自《金融电子化》2018年4月刊
作者:
中国太平洋保险(集团)股份有限公司应用运行支持部?陈慧卿?杜颖君
编者按
本文首先介绍了自动化运维的功能框架,之后对基于自动化运维的一体化管理模式的进一步推进工作进行了分析研究。
行业背景:
纵观业务发展及IT运维趋势,真正提高IT运维管理效率及风险防控的核心,还是在于将日常大量操作性的工作流程化、自动化。这意味着IT运维不再只是一个维护过程,而是一个自动化管理的提升过程。
当前问题:
针对爆发式的交易量增长,构建自动化运维机制变得必须且迫切。
应对措施:
一般情况下,企业根据IT工具需求的紧迫程度,开发、购买或是使用开源软件进行第一步的自动化软件部署。这解决了当前急需的运维需求,但却在日后的该类工具整合、升级等方面提出更高的资源要求。应当根据自身业务特点,提前进行自动化运维规划、逐步健全自动化运维机制,建立符合业务发展趋势的自动化运维框架。
自动化运维模型建立
在金融机构生产运行管理的基础上,自动化运维框架应与基于ITIL的管理流程紧密结合,实现IT运维管理的最佳实践。因此,本文提出自动化运维功能框架应当覆盖四个方面:监、管、控、报。
图 自动化运维功能框架
1
监
即监控,是自动化运维最基本的工具。生产运行涉及监控包含环境、设备、网络、系统、应用等各方面。应当建立统一展示、统一操作的集中监控工具,第一时间将系统异常发送至各专业条线相关人员,以进行全面故障评估及协同化处置流程。
建立的集中监控工具能够对告警进行过滤、压制、关联、升级等操作,对不必要、重复、维护期间的告警进行屏蔽。告警内容可进一步作为故障自愈的基础数据。由于业务需求快速迭代及软件交付频率提升,造成各类告警阈值和对象的不断变化,集中监控的建设也因此变成一项长期化工程。应当建立相关指标对告警的误报率、覆盖面进行评估并逐步优化。相关指标公式可定义如下:
告警误报率=1-有效告警总数/所有告警总数×100%。
告警覆盖率=异常告警事件总数/所有生产安全事件总数×100%。
2
管
即软件产品各生命周期环节中的管理工具,自动化运维的主体部分,该类工具是最能有效降低重复劳动、建立智能化高效操作的平台。例如,在软件开发测试过程中使用的Jenkins自动构建工具、Docker容器部署等;在系统运行过程中使用的各类维护工具,如: ELK日志分析、Ansible、Puppet集中配置,以及一些可自主开发的自愈、变更、批处理工具等。
管理工具对运维是由手动到智能的一次飞跃,也是持续集成、持续交付的突破口。然而也不能完全依靠管理工具而忽视了基本原理的认知,手工操作仍需保留以作为工具故障后的应急处置方案。
3
控
即各类流程、服务、安全的控制工具,为生产运行三大认证体系ITIL、ISO20000、ISO27001的落地实践。定义了生产运行部门对外提供IT基础服务的综合标准,包括:事件、问题、变更、发布、连续性、可用性等一系列生产运行方面的流程管控。控制工具主要以服务台为基础,辅以特权账号平台、安全审计平台等。
由于控制过程贯穿于整个生产运维体系,因此控制类工具应当与“监”、“管”、“报”模块互相交互。例如,集中监控系统产生告警之后,联动服务台建立事件流程,流转各对应专业条线进行排查;自愈工具对生产安全事件进行修复之后,应当能够自动关闭对应事件单并补充解决方案的描述。
4
报
即各类文件、数据报送工具,是建设可视化、可量化数据中心生产运行的传播窗口。可使用相关报表管理平台,向相关人员、分管领导、业务部门、上级主管部门、监管机构报送交易数据、生产运行等情况。信息数据报送是了解情况、掌握动态、把握全局的重要途径,是督促检查各项工作落实情况的重要手段。
完整的报送机制应当同步关注数据质量与数据时效,数据报送机制和报送标准是建立健全自动化运维管理的重要一环。
基于自动化运维的一体化管理模式推进
在2017版DevOps现状调查报告中也指出,自动化运维过程对任何组织无论财务或非财务指标都可以达到预计的两倍。在各类金融机构科技部门,基于自动化运维的一体化管理模式推进主要集中于以下方面:
1
生产运行规章制度推进
制度作为各项工作应遵循的最高行为规则,规定了业务流程、工作程序、议事规则等内容。但制度建设应适合时宜、因势而变,及时剔除滞后的内容,填补“真空地带”和消除“盲区”。自动化运维工具的落地能够极大建立健全生产运行规章制度、不断提升和促进内部管理的质量和效率。例如应急处置相关制度可基于集中监控的告警发现,通知各专业全方位评估排查,从而替换原有由客户投诉、业务人员反馈的逐层汇报,有效降低应急响应时间。
2
流程管控优化
流程是生产安全运作的基础,所有生产运行操作都需要流程驱动,自动化运维工具对流程的普及和实现都具有举足轻重的作用。广义而言,目前普遍使用的服务台是一个企业级的流程管理平台,它将流程与企业战略目标相结合,进而与IT系统进行有效关联。我们把数据变更、应用发布等功能融入自动化运维工具中,通过精细化管理提高变更流程的受控程度,通过流程定义(前备、实施、后备、服务启停等)推动变更一体化管理水平。
3
岗位建设的升级
生产运行岗位根据职能划分,是组织的基本单位,承接各类分解目标,并以结果为导向。自动化运维的落地,可缩减大量基层操作人员,增加运维开发、运行分析等岗位,以此有效缩减运维成本。
自动化运维建设推进存在问题
自动化运维在生产运行中产生便捷、高效、安全的效果,以及推动一体化运维管理的作用已是不言而喻。但在各类工具推进落地的过程中,与现有生产运行管理、操作机制产生的矛盾也是日益明显。所谓自动化运维建设的问题,主要包含以下多个方面,各金融机构应根据自身特点,提前进行问题评估、总结问题原因、优化问题解决思路。
一是
二是
三是
四是
《金融电子化》新媒体部
主任 / 邝源 编辑 / 潘婧
- 6.7原油分析,黄金分析;原油黄金策略分析建议
- 18年老股民对MACD的经典讲解,处处深入股民心房,值得信赖
- 2018全国节能宣传周启动 深入开展全民节能行动
- 火星上出现神秘发光区域,科学家深入研究后喜出望外
- 土耳其无视大国警告吃暗亏了,孤军深入遭伏创下单日最高伤亡纪录
- 谁能掌握MACD二次背离抓主升浪,将百发百中,多年实战验证!
- 楼市调控深入,三四线城市政策频出,“打补丁”遏制炒房成常态
- 升哥实盘 | 萎靡不振 逐步下跌
- 德国二战时制造最早投入实战的喷气机 Me-262战斗机
- 购房实战案例,一文让您读懂专业的投资炒房客是怎么买房选楼的!