资源|上演计算资源“乾坤大挪移”京东云凭什么打赢春晚红包保卫战?( 二 )



资源|上演计算资源“乾坤大挪移”京东云凭什么打赢春晚红包保卫战?
文章插图
资源|上演计算资源“乾坤大挪移”京东云凭什么打赢春晚红包保卫战?】京东云产品研发部工程师讨论春晚项目
解决了人员的协同,春晚项目最艰难的计算资源调配,才刚刚开始。如何应对史上最具挑战性的春晚互动?在京东云技术团队看来,照搬 “堆砌资源”的传统解题思路是下策,第一,短期临时投入过大,与京东云长期追求的精细化研发资源管理理念相悖。第二,疫情导致的全球供应链紧张,让堆砌资源的客观路径变得行不通。
基于多年来支持京东618、京东11.11的丰富技术经验,京东云决定另辟蹊径,充分发挥云计算高弹性的优势,闯出一条新路。这条新路就是在不增加计算资源的背景下,对现有资源进行云端的灵活敏捷调度腾挪,实现快速变阵。
如何在资源零增加的基础上,保证系统的稳定运行,把用户体验做到极致呢?京东云有两手绝活——云原生数字基础设施和混合多云操作系统云舰,依托云原生数字基础设施和云舰,京东云得以秒级调度近300万个容器、超1000万核算力资源,以超高弹性成功登顶云计算领域的“珠穆朗玛峰”。
第一,京东云本身就建立在云原生架构上,运营着全世界最大规模的Docker集群、Kubernetes集群,以及最复杂的Vitess集群之一。全面的云原生化,让京东云可以快速适应不同地域、不同设备的部署环境,实现资源快速灵活平滑扩容,从容平稳地应对大规模复杂流量场景的挑战。
第二,所有容器都跑在京东云的混合多云操作系统云舰上,进行灵活实时的统一资源调度。云舰内嵌的智能调度系统,通过人工智能算法,对应用的资源使用情况进行预测,弹性地对资源进行优化,将算力优先调度给需要高算力的业务中。每一条业务线的日常流量都存在波峰、波谷,而云舰内置的阿基米德平台则可以根据每一项业务的资源需求,动态调节资源量,以实现资源利用效率的最大化。
在春晚期间,这一技术被京东云云舰利用到极致。在主持人口播期间,云舰将绝大多数资源调配至春晚相关应用链路,保障春晚红包项目稳定运行,让用户抢红包不卡顿、不宕机。而在每一轮口播结束,用户则会涌入京东APP的各种业务应用,云舰则在分秒间再一次将计算资源调配至业务应用线路,保障消费购物场景的丝滑体验。
在整个春晚期间,主持人发起了7轮口播,京东云则在后端完成了14次模式切换。加之最初的资源池搭建及春晚结束后的资源池解散,在整个除夕夜,总计完成了16次对计算资源的“乾坤大挪移”,资源调配都在秒级完成。
与此同时,京东云也针对春晚用户的行为习惯及操作逻辑,进行了针对性的全链路优化。用户每一次访问操作的资源消耗,都被精准地优化、控制在最低限度。在此基础上,京东云在春晚正式开始前完成了7轮压力测试,在模拟场景下检验京东云的准备工作。
智能化系统分级也功不可没。京东云在全面容器化的基础上,依托全系统应用的自动化排序分级,自动完成非核心应用的占用资源缩容(如网格搜索服务、订单台账查询、APP购物车服务、结算网关、运费系统等上千种应用),为核心应用腾挪出足够资源,实现在资源一定的前提下,满足用户的核心需求。
在春晚期间,京东后端运行的所有项目都被划分为S、A、B、C四个等级。与春晚红包链路相关的项目被划分为S级,获得了最优先的资源保障权。用户账户、交易、支付等核心数据被列为A级,仅次于春晚红包链路。而其他业务则会在春晚的数小时内临时降级,以优先保障春晚项目的运行。
在云端,每一分计算资源被利用到极致;而在线下,各类极端黑天鹅事件也被京东云列入预案。春节前夕,京东云将柴油发电机开到了各个机房,并配置了足够支撑12小时的防冻柴油,以防临时停电;此外,京东云也协调了各个机房园区附近的施工单位,尽量避免在春晚期间动工,以免挖断光缆等意外出现。
2022年,春晚红包互动进入第8年。有了往年的经验教训,京东云与央视得以将各类意外情况列入预案之中。在京东云内部,即便是最简版的预案剧本,也有整整61页,机房专线中断、CDN过载、短信通道堵塞等极端事件都得到了演练,并制定了相关的备用策略。
按照往年春晚红包项目经验,春晚会吸引大量新用户下载、注册、登陆京东App,应用商店和短信发送通道等供应商也与京东云一同奋战,在春晚期间应对流量洪峰。以往应用商店宕机、用户收不到登陆注册验证码等现象也并未在今年复现。