【中国农业银行数据中心副总经理 赵连强】开发赋能运维模式转型?
中国农业银行数据中心副总经理 赵连强
近年来,互联网金融的蓬勃发展驱动传统银行向信息化银行转型,这场“技术为王”的行业革命带给银行一系列基础性、制度性和颠覆性的冲击,银行业商业模式、经营模式和组织模式正发生着深层次变革,对银行数据中心稳定运维提出了更高要求。
随着农业银行“两地三中心”工程建设的全面开展,数据中心部署的应用系统、服务器等设备数量日益增长,各种互联网业务和技术不断投产,传统的人肉运维模式、固化的运维理念、欠灵活的运维流程等工作模式已经无法适应数据中心快速发展的要求。现代化数据中心伴随着金融科技的发展,正逐渐向精细化管理、自动化和智能化运维方式转变,数据中心从IT运维向IT运营转型,关注运维过程中的体验和效率,为全行经营转型和改革发展提供更强有力的科技支撑。
为适应新形势,农业银行数据中心2015年底成立专职开发部门,负责生产运行自动化规划和研发。经过两年半的摸索,农业银行数据中心逐渐从理念、组织架构和工作方式上形成了开发驱动运维的工作模式,现将转型过程中的经验进行分享。
传统运维痛点
1.被动运维与经验运维效率低下。
2.部门自研、外包采购式信息系统建设造成信息孤岛。
数据中心早期建设时,尚未形成统一的自动化规划。各部门根据自身需求自研或者外包开发采购,各系统相对独立,表现为纵向紧耦合,横向无关联的烟囱式建设特点,信息孤岛效应明显。这种复杂的IT架构难以适应当前迅速发展的运维模式,随着系统和应用增加,推倒重来不现实,保留原样又难以满足新需求,呈现进退两难的局面。
长期以来,数据中心自动化工具依赖专业部门自研或者外包开发采购产品,专业处室结合自身需求开发各种独立小工具,但囿于精力,以自动化脚本或简单运维工具为主,难以形成体系。在这种情况下,数据中心自动化水平基本内部运维人员兼职或者依赖外部厂商,开发进度不能自由掌控,功能需求不能快速得以满足,存在明显的滞后性和严重的短期效应,无法做到长期规划和通盘考虑。
在这种碎片式工具使用模式下,运维人员要不断学习并熟练使用各类系统,使得系统一体化、定制化、灵活配置、方便使用、系统互联互通等需求愈发迫切。
3.稳定与创新难以平衡。
上述三点可以看出,数据中心应牢牢把握生产运行主动权,从被动运维转向主动运维,从依赖经验转向依赖系统,从使用分散工具到使用统一工具,从监控、流程、操作等运维基本功能各自为政到三位一体,做到统一规划、统一管理。为实现这一转型,关键核心是掌握生产运行自动化开发主动权,以开发促进运维一体化建设,促进运维稳定性,建成组织架构、开发模式、系统架构、流程管控与自动化系统一体化体系。
从运维理念转型到开发模式转型
1.运维理念转型。
上层领导者要确立生产运行自动化建设指导性战略,以3~5年为目标,自上而下推动数据中心自动化建设。树立“统一规划、统一立项、统一开发、统一运维、统一管理”的原则,避免出现系统重复建设、各自为政的问题,打破专业运维部门之间的界限,力促专业处室通过开发形成合力,共同推进中心自动化建设。
中层管理者要积极适应开发和运维带来的新变化,思想上不能对开发产生排斥,比如认为开发工作占用运维人力和时间,传统运维管理运转稳定,不需要额外投入来维护目前不需要的信息或流程。这种认识源于就事论事的固化运维理念,新的开发促进运维模式势必会加大人员投入。长远来看,一体化、自动化运维将把一线运维人员从繁琐操作中解放出来,形成自动化统一的开发式运维格局。
下层执行者要主动跳出自身舒适区,在统一的自动化规划下积极思考自动化运维需求,将日常繁琐、高风险、人工检查和操作融入自动化系统中,从监控、流程、操作、资源管理、安全审计、统计分析等多个角度统一思考,学习编程技术,在统一框架下实现自动化需求。
2.组织架构转型。
联邦制开发包括合作开发和独立开发两类。自动化开发初期,以合作开发为主,即自动化运行部指派项目经理和开发人员,专业处室指派开发人员参与开发。随着各专业处室开发技能的提升,开发模式转为独立开发,在整体自动化规划的基础上,使用共同开发框架和基础模块接口,遵循技术规范,各处室独立开发实现自动化需求。
3.开发模式转型。
快速迭代。针对项目开发前期需求不明确、变化频繁、开发测试周期长等问题,在风险可控的前提下,引入小版本快速迭代开发方式,以2~4周为一个迭代周期,分解项目复杂度,降低开发风险。小版本快速迭代方法可以快速将需求转化为实际系统,应对项目初期需求的调整,防止因项目长期进展慢影响团队开发士气。
全程参与。针对需求、开发、测试脱节的情况,运维需求部门指派专人全程参与开发。从需求分析阶段开始,需求人员、开发人员和测试人员一起讨论,根据优先级制订版本开发计划,开展高效协作。开发过程中遇到的问题随时与运维需求方沟通,小版本开发完毕后快速开展测试,将功能测试与业务测试的结果快速在下一版本中优化,在需求、开发和测试三个环形成正向反馈闭环,需求边界在一次次交流中得到确认,尽早修复代码缺陷,确保代码开发质量和开发效率。
精益看板与站会。针对项目进度把控困难的问题,引入精益看板机制,以迭代版本为基础划分功能点,通过便签粘贴在看板上。针对项目成员沟通不畅的问题,引入站会机制,团队成员围在看板周围,分述上日工作情况、遇到困难和当日工作计划。通过站会机制,项目成员快速汇报工作成果,遇到问题时相互启发,共同在会后解决;项目经理实时了解成员工作进展,及时更新看板,对后续工作开展部署。
4.系统架构转型。
架构转型中最困难的是处理新建系统与存量系统之间的关系。各专业部门或多或少存在采购或自研系统,这些系统目前仍服务于生产一线,短时间内无法被替代。数据中心在处理存量系统时,秉承“谨慎废除存量系统,避免推倒重来”基本原则,因此新旧系统在较长时间内并存,但最终新系统会替代分散的系统。
为实现上述目标,系统架构设计时需考虑系统互联管控问题,采用“分布-集中”管理模式。新系统提供统一存储方案,存量系统对各自信息进行分别存储,通过互联管控,新旧系统实现信息共享、操作交互和安全控制,并通过统一门户进行展示。
解决新旧系统集成后,数据中心生产运行自动化将顺着信息化、自动化、智能化的方向进行发展。在发展过程中,一个重要的理念是如何创建软件系统来代替人工操作和人工经验,降低操作风险,提高处置效率。这种理念也将推动系统架构升级,在运维实践中不断进行修正,最终形成开发与运维相结合的闭环,推动整个数据中心朝着自动化、智能化运维方向不断前进。
5.运维模式转型。
经过上述五方面转型,数据中心逐渐掌握了生产运行自动化系统的开发主动权,形成了一整套适合自身的开发框架和基础运维组件。在自主开发的促进下,运维模式逐渐发生转型,从事后运维转变成系统辅助下的主动运维,最明显的特征就是运维前移。需求阶段,运维与开发团队紧密结合,确保设计出的系统符合运维需求。开发阶段,运维人员参与开发工作,在监控、操作等领域发挥专业特长,以往的人肉运维理念转变为利用自身能力开发设计自动化系统辅助运维。
总结与展望
在新的运维模式下,开发成为运维不可或缺的一部分,开发与运维相辅相成,共同促进数据中心从运维中心向运营中心转型。数据中心从粗放型管理向追求稳定、效率、体验、自动、智能的精细化管理转型。在转型过程中,提出生产运行自动化三年规划,在资源配置、流程、监控、操作、统计分析与决策支持、信息安全六大领域开展自动化建设。通过自主研发,农业银行数据中心生产运行自动化运维模式正在发生着变化。
新一代运维系统将孤立的信息系统紧密联系起来,资源配置管理覆盖生产运行整个生命周期,通过关联分析引擎自动分析配置项关联关系,构建系统架构全局运维视图,通过可视化引擎进行展示,辅助运维人员进行故障排查。流程管理与监控、操作、配置紧密结合,IT服务台从前台走向后台,运维人员不再需要额外登录页面进行流程控制,所有流程控制将与应用场景无缝对接。监控作为安全生产排头兵,与数据分析模块紧耦合,通过算法切实提高监控
覆盖率、首次发现率和监控有效性。操作管理提供场景化的任务列表,异常故障发生时,通过监控分析结果、全局运维视图辅助定位异常,通过场景化的操作列表做到异常故障即刻处置。统计分析与决策支持作为生产运行自动化平台的大脑,对平台各类数据进行分析与挖掘,将运维人员的人工经验转换为机器知识,进而辅助运维人员进行决策。信息安全管理对整个运维过程进行安全审计。
上述新变化,体现了自主研发在运维转型之路上发挥的积极作用,数据中心自上而下统一运维理念,主动思考、主动担当、主动作为,形成了开发与运维相结合的新模式,为打造精细化数据中心不断前行。
往期精选
(点击图片查看精彩内容)
《金融电子化》新媒体部:
主任 / 邝源 编辑 / 潘婧
- 今年960万人将死于癌症 这些习惯让越多中国人患癌
- 网络安全护航中国梦行稳致远
- 马丁·雅克:中国有效地激励了其他新兴国家探索适合本国国情
- 尼基·亚迪:中国在绿色金融方面发挥了非凡的领导作用
- 傅晓岚:中国需要非常坚定地追求自己的梦想
- 吉姆·奥尼尔:中国是“金砖四国”的核心
- 中国游客遭瑞典警察粗暴对待 文化和旅游部高度关注
- 中科院国家高端智库论坛举办 解读中国经济发展密码
- 为担当者担当 让实干者实惠(在习近平新时代中国特色社会主
- 活态传承 活力再现 第五届中国非遗博览会济南开幕