解读浪潮云海在OpenStackW版本的社区贡献


解读浪潮云海在OpenStackW版本的社区贡献
文章插图
“千淘万漉虽辛苦,吹尽狂沙始到金”。
经历十年磨炼,OpenStack成功吸引了来自
世界范围内50多个国家、近200个不同组织中近万位开发人员的代码贡献,是金融、通信等多个重要领域上云的事实标准,在关键行业落地并承载核心生产业务。
浪潮作为OIF基金会的创始黄金会员,始终秉承“源于开源,馈于开源”的宗旨,多年来持续投入社区贡献。凭借着在代码提交数、完成蓝图数、补丁修复数等方面的突出表现,浪潮在社区新发布的W版本中继续保持领先,继V版本以来社区贡献蝉联中国前列,成为OpenStack
全球重要的技术引领者。
解读浪潮云海在OpenStackW版本的社区贡献
文章插图
据悉,在新发布的W版本中,浪潮云海主要聚焦Nova、Cyborg、Manila、Ironic、关键中间件等核心项目,补足核心功能并进行大量的优化工作,有效提高了OpenStack的成熟度。那么在这些核心项目中,浪潮云海究竟做了哪些重要的优化工作?具体来看!
「Cyborg优化」
作为智能硬件加速设备管理项目,通过采用Cyborg可以在云平台上方便使用GPU、vGPU、FPGA、SSD、SR-IOV等智能设备,有效优化加速设备(例如,GPU、vGPU、SR-IOV等)在Nova项目的配置复杂,使用不便以及难以运维等问题。
在新发布的W版本中,浪潮云海OS技术团队在Cyborg项目引入了InspurNVMe SSD 驱动,可以做到自动发现OpenStack平台上的InspurNVMe SSD设备并自动上报到资源管理系统,用户在创建云主机时便可使用。
解读浪潮云海在OpenStackW版本的社区贡献
解读浪潮云海在OpenStackW版本的社区贡献
文章插图
图1Inspur NVMe SSD设备驱动实现原理
一直以来,浪潮云海OS研发团队都秉承用户至上的原则,从功能易用性和稳定性的角度开发支持了在线绑定/解绑硬件加速设备的功能,包括GPU、vGPU、InspurNVMe SSD等加速设备,有效提升了操作的便捷性,降低了运维管理的难度,提高了GPU、vGPU、NVMeSSD、FPGA等硬件加速设备的使用效率。
「Nova优化」
Nova项目作为OpenStack项目的核心模块,负责计算资源调度管理,例如云主机的创建、调度、生命周期管理等功能。早在U版本中已经实现了Nova和Cyborg的交互机制,支持在创建云主机时指定GPU、FPGA、NVMeSSD等加速器设备,以此来提升云主机图形图像处理、FPGA编程、IO读写的能力,同时也丰富了云主机设备使用的多样性。
“在新的Wallaby版本中,我们完善了对绑定加速器设备云主机的操作,完成了对加速器云主机的搁置和取消搁置功能,弥补了加速器云主机的高级特性。如图2所示在搁置过程中,我们需要销毁云主机,同时释放加速器设备以提高加速器设备的利用率。”
解读浪潮云海在OpenStackW版本的社区贡献
文章插图
图2搁置加速器云主机实现原理
解读浪潮云海在OpenStackW版本的社区贡献
文章插图
图3取消搁置加速器云主机操作实现原理
如图3表示,在取消搁置过程恰恰与此相反,需重新调度物理主机,以获取满足加速器设备的物理主机,然后请求Cyborg创建加速器设备的映射关系,以重新绑定加速器设备。“我们还在持续完善加速器云主机的挂起/恢复、在线/离线迁移、调整配置等高级特性,以方便用户
高效使用云平台的加速设备,持续贡献社区,让更多人受益。”
「Masakari优化」
Masakari项目是专注于OpenStack云平台高可用的开源项目,实现了云主机、关键进程和物理机三个不同层次的高可用,主要通过Monitor检测云主机、关键进程和物理主机的故障,一旦检测到故障,就触发故障恢复机制,恢复云主机和物理主机的重要业务。
浪潮云海OS研发团队则通过客户诉求、现场问题反馈等方式,有针对性的对Masakari项目进行深入研究和探讨,设计了针对云主机、关键进程和物理机等多层面故障检测、判断处理矩阵,能有效应对云平台可能触发的故障场景。
在新的Wallaby版本,技术团队在主机状态检测机制的基础上进行创新,提出并实现了主机连续检测机制,通过检测主机的网络连接状态以确定主机是否故障,并设定故障节点云主机的疏散策略,增强了云平台的高可靠性。
图4中(左)为Masakari项目原故障检测机制,Monitor只探测一次,当云平台存在网络抖动时存在误判风险;图4(右)为改进后的故障检测机制,通过多次探测平滑预测物理主机的节点状态,管理员可设定Monitor探测阈值,仅当连续检测到节点故障时才会触发主机故障的高可用事件,提高主机故障检测的可靠性。