『量子位』推理性能比第二名快5倍,阿里公开核心技术:如何摘下4项世界冠军( 四 )


在最新公布的榜单上 , 我们基于异构计算AliNPU云服务实例(ecs.ebman1.26xlarge)夺得了推理性能项目的第一名 , 比第二名快5倍以上 。
同时 , 之前提交的推理成本第一的成绩(基于异构计算GPU云服务实例ecs.gn6i-c8g1.2xlarge)目前还没有人超越 , 因此在性能和成本两个项目上均排名第一 。
『量子位』推理性能比第二名快5倍,阿里公开核心技术:如何摘下4项世界冠军
文章图片
AIACC-Inference
在服务客户和不断冲击DawnBench第一的过程中,我们也在不断打磨异构计算服务场景下的推理优化技术,并根据客户的实际需求研发了AIACC-Inference模型加速引擎 , 帮助客户解决主流AI框架TensorFlow、PyTorch、MXNet、Kaldi等框架下的模型优化问题 。
优化方法包括对模型的计算图进行分析 , 将其中计算节点进行融合 , 减少模型中计算节点的个数 , 提升计算图的执行效率 。
同时提供了FP32和FP16及Int8精度的模型优化选项 , 可以生成多种精度下的优化模型 , 其中FP16和Int8精度模型可以利用NVIDIAVolta和Turing架构下的Tensorcore硬件支持 , 进一步提升模型推理在V100,T4GPU卡上的性能 。
目前AIACC-Inference既支持常用的图像分类和目标检测模型 , 也支持Bert , StyleGAN这样的NLP模型和GAN网络模型 。
此外 , 我们还深度优化了1x1、3x3、7x7卷积kernel , 在AIACC-Inference中增加了新op的融合机制 , 比目前业界最快的TensorRT还能获得1.5-2.5倍的性能加速比 。
模型与框架优化在上一次提交的版本中 , 我们将base模型换为更为精简的ResNet26d , 引领了一波风潮 。
这一次为了进一步提高模型的精度并精简模型 , 我们对超参数进行了调整 , 引入了更多的数据增强方式 。 通过使用了AugMix和JSDloss叠加RandAugment的组合方式 , 将ResNet26d模型的精度提升至93.3% , 收获0.13+%的精度收益 。
基于含光800(AliNPU)的优化我们针对AliNPU的架构特点 , 对推理引擎进行了相应的优化 。 由于AliNPU使用uint8作为存储格式用于上传和下载数据 。
因此需要在进入engine前后插入量化和反量化操作用于恢复数据 , 但是Quant和Dequant这些操作在CPU上 , 无法使用AliNPU加速 , 占据了一大部分的推理时间 , 通过在预处理和后处理中执行这些操作将推理延迟降低至0.117ms的水平 。
考虑到我们使用的推理模型较小 , 依照GPU的经验带宽4GB/s , 输入一张图片需要将147KB的数据上传至AliNPU中需要花费0.03ms 。 因此我们在框架中引入了preload机制 , 将数据预取入AliNPU中 , 将平均推理延迟进一步降低至0.0739ms 。
—完—
量子位QbitAI·***签约
关注我们 , 第一时间获知前沿科技动态