「」最强国产开源AI框架再进化，密集提升视觉产业实战能力

乾明发自凹非寺量子位报道 | 公众号 QbitAI
2项全新能力， 4大重磅升级， 35个高精度预训练模型上线， 15个产业实践中广泛应用的视觉算法加持……
这就是最强国产开源深度学习框架——飞桨的最新重要升级。
在近日飞桨官宣的一系列新模型、新能力中：

不仅有对主流模型的能力提升，比如大幅增强YOLOv3——训练提速40% ，推理提速21% ，精度提升4.3%；
还纳入最新的SOTA模型，比如基于COCO数据集的精度最高开源模型CBNet；
并上线了用于3D点云分类、分割和检测的PointNet++和PointRCNN模型，使其成为国内首家支持3D图像深度学习的开源平台；
相应地，这些模型的开发、压缩、部署的“一条龙服务”也升级到全新版本，比如目标检测模型，使用蒸馏+裁剪模型压缩方案，基于COCO数据集进行测试，可以加速2.3倍。

更关键的是，像这样的全新发布与重大升级，飞桨一口气放出了6项，涉及15种算法和35个预训练模型，全部聚焦于视觉能力。毫不夸张地说，经此升级，飞桨在视觉领域的能力又出现一次大跨越。

本文插图
【「」最强国产开源AI框架再进化，密集提升视觉产业实战能力】而此时，距离飞桨上一次大升级只过了4个月左右。
如此密集的迭代升级为哪般？
结合之前工业化大生产、智能化产业升级，以及新基建蓄力，不难看出飞桨所指，不止于前沿技术突破，更在于产业应用和落地。
而且看过细节后，更让人深觉“拳拳到肉” 。在百度自研AI芯片加持下，飞桨的新算法、新模型和新能力，也正通过智能云被输送到各种类型的流水线上。
具体细节，我们庖丁解牛，一点点看。
从强化到新增，视觉模型库升级
这次飞桨升级的核心是视觉能力。最直接的变化，发生在飞桨的基础模型库PaddleCV（智能视觉）中。
首先是PaddleCV能力范围进一步扩大。新版本的PaddleCV中，新增用于3D点云分类、分割和检测的PointNet++和PointRCNN模型。
和此前PaddleCV支持的数十种模型一样，基于飞桨框架，开发者无需全新开发代码，只要进行少量修改，就能快速在工业领域实现3Ｄ图像的分类、语义分割和目标检测任务。
而且模型精度也有保证。飞桨框架中， PointNet++在Indoor3D数据上分割精度（MSG）为86.6%；ModelNet40数据集上分类精度（MSG）达90%——直追SOTA 。
△PointNet++中多级点集特征学习的实现。
借鉴了PointNet++和RCNN的思想的PointRCNN ，作为业内领先的3D目标检测模型，在飞桨上实现，精度同样能够比肩SOTA 。他们给出的实验结果是：在自动驾驶权威数据集 KITTI（Car）的Easy数据子集上，精度达86.66% 。
其次， PaddleCV进一步将各个领域新出现的强大模型纳入进来。
比如在目标检测领域，新增了基于COCO数据集的精度最高开源模型CBNet、Libra-RCNN模型的（精度提升了2%），以及Open Images V5目标检测比赛最佳单模型。
飞桨还新增了IoU损失函数类型Generalized-IoU和Distance-IoU损失函数，在不增加预测耗时的情况下，模型精度再提升1% 。
在图像语义分割方面，新增了对高分辨率模型HRNet、实时语义分割模型Fast-SCNN的支持。在目标追踪领域，新增了SiamFC、ATOM等算法模型。
△Fast-SCNN网络结构图。
但飞桨开发团队也并非“只听新人笑” ，除了纳入更多模型，此前已经支持的主流模型，也在飞桨的升级中得到优化。
比如YOLOv3 ，在这次升级中大幅增强，精度提升4.3% ，训练提速40% ，推理提速21%；人脸检测模型BlazeFace ，新增了NAS版本，体积压缩3倍，推理速度提速122%等等。