机器之心Pro寒武纪vMLU技术面世,首推SR-IOV虚拟化功能( 二 )


SDK 版本:Cambricon Neuware-mlu270-1.2.5 + neuware-mlu270-driver-4.1.0 , 框架:Caffe
另外 , SR-IOV 还可以避免因分时复用切换应用带来的性能开销 。 如上图显示 , vMLU 搭配 Docker 或 VM 运行时 , 单个 VF 业务性能保持在硬件性能的 91% 以上 。 这使得用户在多模型并行时 , 对各 VF 可以做出更准确的服务质量 (QoS) 预期 , 而不必考虑多模型时的拥塞或切换带来的性能开销 。
基于 SR-IOV 的 vMLU:更好的租户隔离性
虚拟化技术被数据中心广泛采用 , 除了因为其提供了对资源共享的能力(提供了更好的密度性能) , 也因为相对于其它技术 (如 docker), 虚拟化提供了更好的隔离性和安全性 。 寒武纪 vMLU 基于 SR-IOV 的虚拟化技术可以帮助云用户实现更好的隔离特性 , 具体优势如下:
首先 , 资源独立 , 互不干扰 , 能确保服务质量(QoS);其次 , 多任务时 , 没有无队列阻塞的烦恼;再次 , 其具备独立内存资源 , 各 VF 之间互不可见;最后 , 它的部署相对简单 , 不需要对开源软件成分进行修改 。
面向 Docker-container 的 SR-IOV flat:更高效部署方式
除了对 VM 提供虚拟化支持 , 寒武纪虚拟化技术还对 docker-container 提供基于 SR-IOV 的虚拟化扩展 (SR-IOV flat 模式) , 用于多个 containers 共享一块 MLU 卡的计算能力, 同时 , 提供了基于 kubernetes 的管理插件 。 该功能为那些对隔离性和安全性需求没那么高的数据中心提供更轻量级部署方式 。
下图对比了在 container 环境中经常被用到的 GPU 弹性共享池技术和 SR-IOV Flat 技术 。
机器之心Pro寒武纪vMLU技术面世,首推SR-IOV虚拟化功能
本文插图
Elastic GPUs shared pools vs. SR-IOV flat
从上图可以看出 , 寒武纪 vMLU 所采用的 SR-IOV-Flat 技术在隔离性, QoS 上都有明显优势 。
VF 热迁移 (Live Migration):帮助 AI 云应用达到 99.99% 的高可用服务级别
想要达到 99.99% 的高 QoS , 要求云业务的年意外停机时间不超过 53 分钟 。 热迁移(Live Migration)功能可以在虚机及其应用程序仍在运行时将其移动到另一台主机 。 AI 计算资源是否具备热迁移能力是评价其在数据中心的群集配置策略、平衡主机的工作负载、容灾处理风方面能力的关键指标 。
寒武纪 vMLU 虚拟化技术为思元 270 提供了热迁移的能力, 下图为 MLU 在热迁移发生时芯片内部的数据流图:
机器之心Pro寒武纪vMLU技术面世,首推SR-IOV虚拟化功能
本文插图
在热迁移(Live Migration)功能的作用下 , AI 算力实现不停机转移 , 思元 270 可助力 AI 云实现 99.99% 的高服务可用性 。
基于寒武纪 vMLU 虚拟化技术 , 并支持 SR-IOV 功能的寒武纪思元 270 云端智能芯片正式推出 , 其优质租户隔离、应用热迁移特性 , 可为云服务提供商提供更加安全、优质的 AI 计算资源 。 据悉 , 搭载虚拟化 vMLU 技术的寒武纪思元 270 已经与金山云合作并开始内部部署 , 预计未来 1 至 2 个月会正式上线 , 敬请期待 。