[深度学习]如何用EasyDL专业版实现货架层数识别模型优化( 二 ) |算法|固态硬盘|百度|

本文插图
图3. Anchor优化

本文插图

本文插图
图4. Anchor优化效果提升
其次介绍下数据方面的优化机制。
深度学习模型的成功很大程度上要归功于大量的标注数据集。通常来说可以通过增加数据规模、增加数据多样性及增加实际场景数据等方面来提升模型效果。
从增加数据多样性角度出发，专业版开发了自动数据增强搜索能力，可以根据数据集特征自动搜索出适用于特定数据集的数据增强策略组合。
实践中收集数目庞大的高质量数据并不是一件简单的事，在某些特定领域甚至无法获取大量数量。那么如何能在有限数据的情况下尽可能提升模型的效果呢?
数据增强通过对数据本身进行一定程度的扰动从而产生"新"数据，模型通过学习大量的"新"数据，提高了模型的泛化能力。但数据增强策略的手动配置依赖于使用者对于实际场景的理解，因此会存在难以选取有效数据增强策略的情况。
自动数据增强搜索可以在有限的增强算子组合的搜索空间内搜索出适用于本数据集的数据增强算子组合。
针对货架挡板案例，基准模型上再加上自动数据增强搜索，效果从0.812提升到0.832 。在anchor优化的基础上再叠加上自动数据增强搜索，依然能获得正向收益，如图5 ，效果从0.87提升到0.881 。

本文插图
图5 数据增强效果对比
从增加数据规模角度出发，专业版开发了多人标注/智能标注能力，降低用户的数据标注成本，帮助用户快速扩大数据规模。
多人标注可以将标注任务切分成多份数据集，让多个用户同时进行数据标注任务，暂时多人人标注仅支持经典版，后续会在专业版中开放。
智能标注会从数据集所有图片中筛选出最关键的图片并提示需要优先标注。因此用户只需标注数据集30%左右的数据即可训练模型。与标注所有数据后训练相比，模型效果几乎等同。
利用多人标注/智能标注能力，可以快速扩大数据规模。
针对货架挡板案例，我们使用智能标注能力，在短期内将数据规模从97扩大到400张。利用扩大数据集再进行模型训练，期望模型效果能再有提升。
但由于数据规模发生了改变，平台自动随机切分产生的验证集存在不一致的现象，因此无法用训练中的评估指标来客观评价两个模型的性能。针对这个问题，我们可以采用平台提供的独立评测集功能来客观评价单个模型的性能，进而对比两个模型的性能。
独立标注27张数据作为评测集，上传训练模型后，可以发现经过智能标注扩大数据规模后，效果从0.884提升到0.909 ，效果对比如图6 。

本文插图
(1) 97张数据集在评测集上效果

本文插图
(2) 400张数据集在评测集上效果
图6. 智能标注效果对比
3)从增加实际场景数据角度出发，专业版开发了数据闭环能力，帮助用户实现实际场景数据优化模型的数据流闭环，可以进一步提升模型的泛化能力。
针对Faster R-CNN效果优化总结如下表3 ，单模型效果提升超过9% ，模型效果有显著提升。

本文插图
表3. Faster R-CNN效果优化