GPU|干货|基于 CPU 的深度学习推理部署优化实践( 四 )


GPU|干货|基于 CPU 的深度学习推理部署优化实践文章插图
图 13. Batchsize 对服务性能影响
总结与展望以上介绍的系统级优化方法 , 已在深度学习云平台落地超过 10+ 应用和算法 , 部署上千 core 的服务 , 平均性能提升在 1~9 倍 。 更详细的使用方法可以参考文末相关链接 。
对于深度学习的推理服务优化 , 深度学习云平台还计划加入更多的异构计算资源来加速特定任务 , 例如 VPU、FPGA 等计算资源 。 同时在服务的弹性和优化调度、部署参数的自动优化选取等方面 , 我们也会继续深入优化 , 以充分发挥云平台的计算资源和能力 , 加速深度学习推理服务的落地 。
相关链接
(1)OpenVINO:
(2)Vtune 性能分析工具: