金融电子化▲丁旭东】工商银行分布式云计算运维转型思考与实践,【中国工商银行数据中心副总经理

文/中国工商银行数据中心副总经理丁旭东
工商银行分布式云计算运维转型主要由两个因素驱动:一是外部因素 , 工商银行积极响应国家战略 , 鼓励加大在核心系统和关键技术研发创新 , 研究开源技术在银行重要信息系统的应用;二是内部因素 , 工商银行业务创新需要具有对海量数据的处理能力、分析能力和成果转化能力 。 面对客户互联网化、移动化发展趋势 , 工商银行在大数据、电子商务、互联互通、客户体验等战术层面积极应对 。
工商银行已建成九大企业级分布式技术体系 , 具体包括分布式服务、软负载均衡、分布式消息、分布式事务、分布式缓存、分布式批量、分布式对象存储、分布式文件共享存储和分布式数据 。 日均服务调用量和缓存日均访问量均达到数十亿级别 , 消息发送峰值每秒超过百万笔 。 目前 , 已基本形成主机+开放平台的双核心架构 , 经过大规模的生产考验 , 有相当多的应用通过服务化完成分布式转型 。
主要风险和挑战1.支持业务灵活创新的运维掌控力不足 。 一是面对业务运行的洞察力不足 。 二是微服务化的应用依赖关系复杂 , 故障定位能力不足 。 三是对客户的服务能力跟不上 。 客户触点超越银行线上线下渠道 , 直接接触场景减少 。
2.面对新架构下的业务连续性保障不足 。 一是应用架构有时存在不合理的现象 , 高等级应用往往依赖低等级应用 。 二是应用部署规范化还不够 , 跨资源域交叉访问的矛盾有时相对突出 。
3.面向未来发展的服务供给不足 。 一是机房空间捉襟见肘 , 转型过程中大量交易从主机下移至平台 , 服务器规模剧增 。 二是多活数据中心的运维能力略显不足 , 有时缺乏从应用架构、技术架构和成本控制等方面综合考虑 。
主要思路与实践工商银行数据中心从以“安全、稳定、高效”为核心的IT运维发展到以“体验、效率、效益”为核心的IT运营 。 在坚守安全底线的前提下 , 要兼顾效率和成本 , 最终实现价值创造 。 目前 , 主要思考与实践如下 。
1.健全对业务运营的快速感知能力 。 一是面向外部客户 , 建立与业务部门、大客户及合作伙伴的直通渠道 , 提升危机场景下的业务联动应急能力 。 二是面向业务运营 , 完善全链路运行监控和大额资金风险监控 , 提升架构管控和故障定位能力 。
2.完善对业务连续性的保障能力 。 一是完善生产管理制度 , 将“可灰度、可监控、可回滚”作为变更和版本的根本约束 。 二是强化应用高可用建设 , 研发应用“一键式”切换工具 , 并在生产时段临检实操 。 三是建立应用上线准入机制 , 制定运维功能的规范和标准 , 落实投产验收和评估 , 降低投产后的运维风险 。
3.提升对基础架构的技术把控能力 。 一是运维团队要前移 , 主导应用产品非功能需求设计和优化 , 深度参与关键软硬件引入评测 。 二是梳理制定新架构下运维管理标准及规范 , 推动软硬件标准化 , 降低运维复杂度 。 三是持续建设资源灵活调度、环境供应扩缩、版本自动升级等能力 , 提升管控成熟度 。
4.强化对性能容量的管控能力 。 一是资源管理模式要从投产需求驱动转向池化管理 , 减少资源碎片 , 提高基础设施利用率 。 二是推动“自助服务”建设 , 发布运维标准化服务 , 以自助方式获取资源 , 简化交付流程 。 三是完善资源评价和回收机制 , 建立分布式架构下的资源画像 , 监测业务上线运营情况 。
5.打造信息安全的主动防御和纵深防护能力 。 一是围绕信息安全运营中心建设 , 构建全面、主动、智能、可视的安全态势感知体系 。 二是形成总分联动的一体化防御机制 , 统一管控全集团的安全事件、漏洞、舆情、病毒、攻击、威胁情报等 。 三是建立红蓝军对抗常态化机制 , 结合年度信息安全攻防演练工作 , 提升实战能力 。
6.主动培育体制机制的创新发展能力 。 一是重构运维一二三线 , 推动运维人员由“技术操作型”向“运维研发型”转化 。 二是促进科技与业务、技术与管理、运维与研发测试三方面融合 。 三是数字化运营 , 由“事件驱动”向“数据驱动”转变 , 由“人工管控”向“智能管控”升级 。