「阿里巴巴」阿里双11集团技术总指挥汤兴:一场不亚于移动化的变革已经发生( 二 )


如今 , 直播已经成为天猫双11商家的标配 , 直播的内容形式与图文截然不同 , 更强调实时互动和流畅的观看体验 , 而这些特点对消息通道、网络和 CDN 等软硬件资源提出了苛刻的要求 。
既要保证用户体验 , 又要追求技术上的最低成本 , 包括最小带宽消耗、最大机型覆盖等 。 平畴带领的技术团队遇到了很大挑战 。
为了解决直播中可能遇到的问题 , 淘宝直播技术团队自研音视频实时通信引擎 , 采用去中心化的设计方式 , 支持横向级联 , 实现大规模低延时直播 , 时延从原先的5到7秒降低至 1 秒内 , 并在弱网下有更好的表现 。
虽然做足了准备 , 但平畴回想起当下 , 坦言还是有些担心:“很怕发生预期外的问题 , 尤其是新场景、新用户动线和新架构 。 ”
实践证明 , 历年双11期间产生的相对严重问题 , 往往都不是我们预先最担心的问题 , 甚至绝大多数可能不在预期内 。
道理很简单 , 无论项目的挑战或风险有多大 , 只要在双11前能预想到 , 技术侧就一定会做好预案应对最差情况 , 并且做好演练工作 。 对于预期外的问题 , 往往是没有准备预案或者预案有效性没有经过验证 , 遇到这种情况就非常挑战整个技术团队应急解决问题的能力了 。 不过 , 这也是双11的魅力所在:
我们永远没有办法对所有问题做好预案 , 永远有未知的挑战在前方等待 , 而我们唯有通过技术升级去不断地逼近那个能够做到的最好的极限 。
所以 , 对技术人来说 , 双11永远没有做的最好 , 只有做的更好 。
3.提前一年 , 决定上云
今年双11 , 我们把“最要命”的系统全都放在云上 。
这是当时阿里巴巴集团CTO、阿里云智能总裁行癫在双11当晚说的一句话 。 如开篇所言 , 2019年双11 , 阿里实现了核心交易系统 100% 上云 , 而这个决定早在一年前就做出了 。
“每年双11结束 , 全集团都会进行一次全面的技术复盘 , 除了复盘在整个双11过程中的得与失 , 更重要的是 , 确定下一年双11技术的整体方向 。 2018年双11复盘时 , 集团就整体确定了将核心电商搬到云上的大策略 。 ”
2019年1月份 , 上云项目正式启动 , 这个项目在阿里内部被称为“云创未来” 。 电商核心链路全面上云意味着没有云下的资源做切换与互备 , 平畴表示 , 这涉及到阿里电商数百个核心应用 , 上万台物理机台 , 总核数过百万核 。 可想而知 , 这其中的挑战有多大 。
分步迁移:Q3季度进入大规模应用开发
为了实现这个目标 , 从机房到软件部署、网络拓扑、中间件等一系列基础设施都要先行准备并且在更早一些的大促 , 比如618大促中验证有效性 。 平畴透露 , 除基础设施外 , 每年上半年是业务上各类技术平台与框架升级迭代的黄金期 , 等到7、8月份 , 再结合双11业务的具体玩法逐步进入业务应用的大规模开发期间 。
按阶段来看 , 平畴表示 , 双11上云在技术层面可以分为如下三个部分:
【「阿里巴巴」阿里双11集团技术总指挥汤兴:一场不亚于移动化的变革已经发生】1、平稳迁移上云;
2、稳定使用云服务;
3、结合云技术探索新的高效研发方式 。
第一阶段:应用迁移上云 。
平畴表示 , 在这个过程中 , 最大的风险来源于云上基础设施和中间件等产品的变化 , 应用需要配合这些变化进行改造和升级 。
梳理清楚这些变化后 , 技术团队才有依据判断需要进行哪些相关的应用改造与升级工作 , 来规避重大风险 。 在这个过程中 , 淘系技术推动了中间件二方库升级、版本检测、日志异步化改造、缓存集群迁移等工作 , 建立了一套应用升级检测的自动化机制和升级流程管理 , 确保所有应用升级到位 , 并在云上布署最小业务集群 , 能够通过自动化业务功能回归来验证迁移后的业务功能一致性 。
其次 , 迁移过程必须有很强的可控性 , 具备快速容灾能力 。 平畴表示 , 淘系技术会通过线上流量的复制进行压测 , 全量回归云上的应用确保不出现性能退化 。 压测的同时 , 技术团队准备好快速切流逃逸的方案 , 在原有的异地多活的容灾基础上把中心机房建立成4个逻辑机房 实现一键在同城4个逻辑机房之间的容灾逃逸能力 , 并经过多次验证 。 在具体迁移的过程中 , 小步骤切流 , 同时加强云上监控 , 避免突发性大面积问题出现 。