阿里双11集团技术总指挥汤兴:一场不亚于移动化的变革已经发生( 三 )

  2019年1月份 , 上云项目正式启动 , 这个项目在阿里内部被称为“云创未来” 。 电商核心链路全面上云意味着没有云下的资源做切换与互备 , 平畴表示 , 这涉及到阿里电商数百个核心应用 , 上万台物理机台 , 总核数过百万核 。 可想而知 , 这其中的挑战有多大 。

  分步迁移:Q3季度进入大规模应用开发

  为了实现这个目标 , 从机房到软件部署、网络拓扑、中间件等一系列基础设施都要先行准备并且在更早一些的大促 , 比如618大促中验证有效性 。 平畴透露 , 除基础设施外 , 每年上半年是业务上各类技术平台与框架升级迭代的黄金期 , 等到7、8月份 , 再结合双11业务的具体玩法逐步进入业务应用的大规模开发期间 。

  按阶段来看 , 平畴表示 , 双11上云在技术层面可以分为如下三个部分:

  1、平稳迁移上云;

  2、稳定使用云服务;

  3、结合云技术探索新的高效研发方式 。

  第一阶段:应用迁移上云 。

  平畴表示 , 在这个过程中 , 最大的风险来源于云上基础设施和中间件等产品的变化 , 应用需要配合这些变化进行改造和升级 。

  梳理清楚这些变化后 , 技术团队才有依据判断需要进行哪些相关的应用改造与升级工作 , 来规避重大风险 。 在这个过程中 , 淘系技术推动了中间件二方库升级、版本检测、日志异步化改造、缓存集群迁移等工作 , 建立了一套应用升级检测的自动化机制和升级流程管理 , 确保所有应用升级到位 , 并在云上布署最小业务集群 , 能够通过自动化业务功能回归来验证迁移后的业务功能一致性 。

  其次 , 迁移过程必须有很强的可控性 , 具备快速容灾能力 。 平畴表示 , 淘系技术会通过线上流量的复制进行压测 , 全量回归云上的应用确保不出现性能退化 。 压测的同时 , 技术团队准备好快速切流逃逸的方案 , 在原有的异地多活的容灾基础上把中心机房建立成4个逻辑机房, 实现一键在同城4个逻辑机房之间的容灾逃逸能力 , 并经过多次验证 。 在具体迁移的过程中 , 小步骤切流 , 同时加强云上监控 , 避免突发性大面积问题出现 。

  第二个阶段 , 建立上云保障小组 。

  淘系内部将云和电商相关的研发一起拉通 , 明确响应机制和负责人 , 打通两边的变更系统和告警系统 , 细化云告警信息中明确关于电商应用相关的信息 。 通过不定时的模拟攻击云环境 , 推动两边对故障处理的应急能力提升 。

  新零售线专门成立了上云、用云项目组 , 阿里云也有专门的项目成员进行对接 。 同时 , 我们有专业的PMO来保障跨团队的项目合作 , 保障日常的周/月例会进行信息同步以及项目推进 , 针对演练中不同的线上问题有专门的应急机制 , 双11项目的横向拉通保障工作也随着多年的技术升级而不断沉淀经验 。

  为了保障云上的容载能力 , 双11技术项目组组织了多次云上突袭演练 , 演练云上单元机房不可用情况下的应急手段 。 通过持续迭代逐步将核心业务搬到云上 , 过程中持续进行云上回归测试以及切流演练 , 在双11前的几次大促中也验证了线上的用云稳定性 。