『量子位』推理性能比第二名快5倍,阿里公开核心技术:如何摘下4项世界冠军( 四 )
在最新公布的榜单上 , 我们基于异构计算AliNPU云服务实例(ecs.ebman1.26xlarge)夺得了推理性能项目的第一名 , 比第二名快5倍以上 。
同时 , 之前提交的推理成本第一的成绩(基于异构计算GPU云服务实例ecs.gn6i-c8g1.2xlarge)目前还没有人超越 , 因此在性能和成本两个项目上均排名第一 。
文章图片
AIACC-Inference
在服务客户和不断冲击DawnBench第一的过程中,我们也在不断打磨异构计算服务场景下的推理优化技术,并根据客户的实际需求研发了AIACC-Inference模型加速引擎 , 帮助客户解决主流AI框架TensorFlow、PyTorch、MXNet、Kaldi等框架下的模型优化问题 。
优化方法包括对模型的计算图进行分析 , 将其中计算节点进行融合 , 减少模型中计算节点的个数 , 提升计算图的执行效率 。
同时提供了FP32和FP16及Int8精度的模型优化选项 , 可以生成多种精度下的优化模型 , 其中FP16和Int8精度模型可以利用NVIDIAVolta和Turing架构下的Tensorcore硬件支持 , 进一步提升模型推理在V100,T4GPU卡上的性能 。
目前AIACC-Inference既支持常用的图像分类和目标检测模型 , 也支持Bert , StyleGAN这样的NLP模型和GAN网络模型 。
此外 , 我们还深度优化了1x1、3x3、7x7卷积kernel , 在AIACC-Inference中增加了新op的融合机制 , 比目前业界最快的TensorRT还能获得1.5-2.5倍的性能加速比 。
模型与框架优化在上一次提交的版本中 , 我们将base模型换为更为精简的ResNet26d , 引领了一波风潮 。
这一次为了进一步提高模型的精度并精简模型 , 我们对超参数进行了调整 , 引入了更多的数据增强方式 。 通过使用了AugMix和JSDloss叠加RandAugment的组合方式 , 将ResNet26d模型的精度提升至93.3% , 收获0.13+%的精度收益 。
基于含光800(AliNPU)的优化我们针对AliNPU的架构特点 , 对推理引擎进行了相应的优化 。 由于AliNPU使用uint8作为存储格式用于上传和下载数据 。
因此需要在进入engine前后插入量化和反量化操作用于恢复数据 , 但是Quant和Dequant这些操作在CPU上 , 无法使用AliNPU加速 , 占据了一大部分的推理时间 , 通过在预处理和后处理中执行这些操作将推理延迟降低至0.117ms的水平 。
考虑到我们使用的推理模型较小 , 依照GPU的经验带宽4GB/s , 输入一张图片需要将147KB的数据上传至AliNPU中需要花费0.03ms 。 因此我们在框架中引入了preload机制 , 将数据预取入AliNPU中 , 将平均推理延迟进一步降低至0.0739ms 。
—完—
量子位QbitAI·***签约
关注我们 , 第一时间获知前沿科技动态
- 可可酱75吋量子点电视让孩子健康成长,如何才能健康不伤眼的看电视?TCL
- 中国智能制造网量子通信布局起风了!,多国已未雨绸缪
- 「量子力学」爱因斯坦也束手无策,困扰人类上百年的难题,如今终于有了答案
- 『金字塔』可能比金字塔更古老的远古遗迹,这些失落的文明与人类有关系吗?
- 与单观经欧盟瞄准“量子互联网”附相关概念股
- 广东圆梦园孵化城【园区动态】广东省重点领域研发计划量子科学与工程重大专项专家组莅临园区考察指导
- 「化石」转生将可能是一件真事,量子力学的最新发现,科学家也被震撼
- cnBeta微软研究人员攻克了两个已有20年历史的量子计算问题
- 星火方块| 碳纳米管荧光量子效率研究取得进展,进展
- 大牛奎哥:关注产业链的投资机会!,量子通信:开启未来信息技术之争