「」最强国产开源AI框架再进化,密集提升视觉产业实战能力


乾明 发自 凹非寺量子位 报道 | 公众号 QbitAI
2项全新能力 , 4大重磅升级 , 35个高精度预训练模型上线 , 15个产业实践中广泛应用的视觉算法加持……
这就是最强国产开源深度学习框架——飞桨的最新重要升级 。
在近日飞桨官宣的一系列新模型、新能力中:

  • 不仅有对主流模型的能力提升 , 比如大幅增强YOLOv3——训练提速40% , 推理提速21% , 精度提升4.3%;
  • 还纳入最新的SOTA模型 , 比如基于COCO数据集的精度最高开源模型CBNet;
  • 并上线了用于3D点云分类、分割和检测的PointNet++和PointRCNN模型 , 使其成为国内首家支持3D图像深度学习的开源平台;
  • 相应地 , 这些模型的开发、压缩、部署的“一条龙服务”也升级到全新版本 , 比如目标检测模型 , 使用蒸馏+裁剪模型压缩方案 , 基于COCO数据集进行测试 , 可以加速2.3倍 。
更关键的是 , 像这样的全新发布与重大升级 , 飞桨一口气放出了6项 , 涉及15种算法和35个预训练模型 , 全部聚焦于视觉能力 。 毫不夸张地说 , 经此升级 , 飞桨在视觉领域的能力又出现一次大跨越 。
「」最强国产开源AI框架再进化,密集提升视觉产业实战能力
本文插图
【「」最强国产开源AI框架再进化,密集提升视觉产业实战能力】而此时 , 距离飞桨上一次大升级只过了4个月左右 。
如此密集的迭代升级为哪般?
结合之前工业化大生产、智能化产业升级 , 以及新基建蓄力 , 不难看出飞桨所指 , 不止于前沿技术突破 , 更在于产业应用和落地 。
而且看过细节后 , 更让人深觉“拳拳到肉” 。 在百度自研AI芯片加持下 , 飞桨的新算法、新模型和新能力 , 也正通过智能云被输送到各种类型的流水线上 。
具体细节 , 我们庖丁解牛 , 一点点看 。
从强化到新增 , 视觉模型库升级
这次飞桨升级的核心是视觉能力 。 最直接的变化 , 发生在飞桨的基础模型库PaddleCV(智能视觉)中 。
首先是PaddleCV能力范围进一步扩大 。 新版本的PaddleCV中 , 新增用于3D点云分类、分割和检测的PointNet++和PointRCNN模型 。
和此前PaddleCV支持的数十种模型一样 , 基于飞桨框架 , 开发者无需全新开发代码 , 只要进行少量修改 , 就能快速在工业领域实现3D图像的分类、语义分割和目标检测任务 。
而且模型精度也有保证 。 飞桨框架中 , PointNet++在Indoor3D数据上分割精度(MSG)为86.6%;ModelNet40数据集上分类精度(MSG)达90%——直追SOTA 。
△PointNet++中多级点集特征学习的实现 。
借鉴了PointNet++和RCNN的思想的PointRCNN , 作为业内领先的3D目标检测模型 , 在飞桨上实现 , 精度同样能够比肩SOTA 。 他们给出的实验结果是:在自动驾驶权威数据集 KITTI(Car)的Easy数据子集上 , 精度达86.66% 。
其次 , PaddleCV进一步将各个领域新出现的强大模型纳入进来 。
比如在目标检测领域 , 新增了基于COCO数据集的精度最高开源模型CBNet、Libra-RCNN模型的(精度提升了2%) , 以及Open Images V5目标检测比赛最佳单模型 。
飞桨还新增了IoU损失函数类型Generalized-IoU和Distance-IoU损失函数 , 在不增加预测耗时的情况下 , 模型精度再提升1% 。
在图像语义分割方面 , 新增了对高分辨率模型HRNet、实时语义分割模型Fast-SCNN的支持 。 在目标追踪领域 , 新增了SiamFC、ATOM等算法模型 。
△Fast-SCNN网络结构图 。
但飞桨开发团队也并非“只听新人笑” , 除了纳入更多模型 , 此前已经支持的主流模型 , 也在飞桨的升级中得到优化 。
比如YOLOv3 , 在这次升级中大幅增强 , 精度提升4.3% , 训练提速40% , 推理提速21%;人脸检测模型BlazeFace , 新增了NAS版本 , 体积压缩3倍 , 推理速度提速122%等等 。