[深度学习]如何用EasyDL专业版实现货架层数识别模型优化( 二 )
本文插图
图3. Anchor优化
本文插图
本文插图
图4. Anchor优化效果提升
其次介绍下数据方面的优化机制 。
深度学习模型的成功很大程度上要归功于大量的标注数据集 。 通常来说可以通过增加数据规模、增加数据多样性及增加实际场景数据等方面来提升模型效果 。
从增加数据多样性角度出发 , 专业版开发了自动数据增强搜索能力 , 可以根据数据集特征自动搜索出适用于特定数据集的数据增强策略组合 。
实践中收集数目庞大的高质量数据并不是一件简单的事 , 在某些特定领域甚至无法获取大量数量 。 那么如何能在有限数据的情况下尽可能提升模型的效果呢?
数据增强通过对数据本身进行一定程度的扰动从而产生"新"数据 , 模型通过学习大量的"新"数据 , 提高了模型的泛化能力 。 但数据增强策略的手动配置依赖于使用者对于实际场景的理解 , 因此会存在难以选取有效数据增强策略的情况 。
自动数据增强搜索可以在有限的增强算子组合的搜索空间内搜索出适用于本数据集的数据增强算子组合 。
针对货架挡板案例 , 基准模型上再加上自动数据增强搜索 , 效果从0.812提升到0.832 。 在anchor优化的基础上再叠加上自动数据增强搜索 , 依然能获得正向收益 , 如图5 , 效果从0.87提升到0.881 。
本文插图
图5 数据增强效果对比
从增加数据规模角度出发 , 专业版开发了多人标注/智能标注能力 , 降低用户的数据标注成本 , 帮助用户快速扩大数据规模 。
多人标注可以将标注任务切分成多份数据集 , 让多个用户同时进行数据标注任务 , 暂时多人人标注仅支持经典版 , 后续会在专业版中开放 。
智能标注会从数据集所有图片中筛选出最关键的图片并提示需要优先标注 。 因此用户只需标注数据集30%左右的数据即可训练模型 。 与标注所有数据后训练相比 , 模型效果几乎等同 。
利用多人标注/智能标注能力 , 可以快速扩大数据规模 。
针对货架挡板案例 , 我们使用智能标注能力 , 在短期内将数据规模从97扩大到400张 。 利用扩大数据集再进行模型训练 , 期望模型效果能再有提升 。
但由于数据规模发生了改变 , 平台自动随机切分产生的验证集存在不一致的现象 , 因此无法用训练中的评估指标来客观评价两个模型的性能 。 针对这个问题 , 我们可以采用平台提供的独立评测集功能来客观评价单个模型的性能 , 进而对比两个模型的性能 。
独立标注27张数据作为评测集 , 上传训练模型后 , 可以发现经过智能标注扩大数据规模后 , 效果从0.884提升到0.909 , 效果对比如图6 。
本文插图
(1) 97张数据集在评测集上效果
本文插图
(2) 400张数据集在评测集上效果
图6. 智能标注效果对比
3)从增加实际场景数据角度出发 , 专业版开发了数据闭环能力 , 帮助用户实现实际场景数据优化模型的数据流闭环 , 可以进一步提升模型的泛化能力 。
针对Faster R-CNN效果优化总结如下表3 , 单模型效果提升超过9% , 模型效果有显著提升 。
本文插图
表3. Faster R-CNN效果优化
- 『兄弟』兄弟DCP-T710W喷墨一体机评测:微信打作业 在线学习更简单
- 泡泡网@米兔儿童学习手表4上线!首发仅需849元
- 中新网■土耳其东部发生4.7级地震 震源深度10千米
- 和鲸携手在线公益AI项目,助力学习实训一体化
- 「TalkingData」打造智能化的小微企业信用评估体系?,如何用数据+算法
- 「学习」成功人士每天都会告诉自己这 7 件事
- 【线下】线上学习线下行动,龙潭街道各级组织召开主题党日活动
- 「Wi-Fi」教你如何用AiMesh实现大户型WiFi全覆盖
- [母婴行业观察]儿童桌椅细分行业如何逆势爆发,护童科技创始人,宅家学习成日常
- 『促进快递业与制造业深度融合发展意见印发』促进快递业与制造业深度融合发展意见印发