面向销售自动化的基于数据扩增和真实图像合成的鲁棒多目标检测


面向销售自动化的基于数据扩增和真实图像合成的鲁棒多目标检测文章插图
引用
Koturwar S , Shiraishi S , Iwamoto K . Robust Multi-Object Detection Based on Data Augmentation with Realistic Image Synthesis for Point-of-Sale Automation[J]. 2019.
摘要
我们正在开发一种用于销售自动化的实时零售产品检测器作为条形码扫描的替代品 。 与基于图像的目标检测相关的主要挑战来自于遮挡以及近距离范围内存在其他物体 。 为了在这种情况下进行稳定且正确的产品检测 , 关键是要在一组丰富的图像上训练检测器 , 这些图像具有不同程度的遮挡和产品之间不同的距离 , 这代表了客户将产品放在一起的广泛趋势 。 然而 , 传统上 , 生成一个相当大的此类图像数据库需要大量的人力资源 。 而在另一方面 , 用对应的掩模获取单个目标图像是一项相对容易的任务 。 我们提出了一种真实感的图像合成方法 , 该方法利用单个目标图像及其对应的掩模来生成具有所需属性(产品之间的遮挡和拥塞)的训练图像 。 我们训练我们的产品检测器的图像 , 从而获得一致的性能 , 改善不同类型的测试数据 。 与使用每个图像包含一个产品的基本训练数据集相比 , 该方法的查准率和查全率分别提高了 46.2%(从 0.67 到 0.98)和 40%(从 0.60 到 0.84) 。
1 简介过去几年 , 由于劳动力短缺和排队时间较长 , 零售业一直在寻求促进无人商店运营的解决方案 。 执行一个自动化的结帐过程是至关重要的 , 因为它一直是商店顺利运作的瓶颈 。 在这里 , 我们用一个基于图像识别的产品检测系统代替了传统的条形码扫描 , 从而实现了自动结帐系统 。 图像识别可以一次扫描多个产品 , 使结帐更快 。 该系统利用先进的深度学习技术 , 能够可靠地识别各种类型的产品 , 包括包装产品(如预处理食品、饮料等) 。 开发的 POS 系统如图 1 所示 。 结账的过程如下 。 首先 , 客户将他/她想要购买的产品放在产品植入平台上 。 下一步 , 放在上面的相机捕捉放置在平台上的产品的图像 。 最后 , 系统对采集到的图像进行分析 , 识别出各个产品 , 然后将总价输出到屏幕上 。
面向销售自动化的基于数据扩增和真实图像合成的鲁棒多目标检测文章插图
图 1 先进的 POS 系统
面向销售自动化的基于数据扩增和真实图像合成的鲁棒多目标检测文章插图
图 2 检测困难实例的示例
为了实现高效和用户友好的操作 , 在对用户的限制最小的情况下 , 我们允许用户自由和随机地放置产品 , 只要它们之间没有严重的遮挡 。 如图 2 所示 , 这种自由的产品放置会导致拥挤的情况 。 在大多数情况下 , 产品放在很近的地方 , 有时它们彼此接触 , 甚至有部分接触阻塞 。 因此 , 在这种拥挤的条件下 , 对产品进行可靠的识别是非常重要的 , 这样才能使所提出的方案完美地运行系统输入这样才能实现在拥塞情况下可靠地产品识别 , 本系统将识别任务分为检测和分类两个阶段 。 该检测器致力于从图像中准确地定位和提取每个产品的区域 。 检测器然后将每个提取的产品区域传递给分类器 , 分类器将集中于逐个对产品(从数百个可能的产品类中)进行分类 。 这样 , 分类器不需要对近距离的遮挡和其他产品具有鲁棒性 , 这与 FasterRCNN(Ren 等人 , 2015 年)、SSD(Liu 等人 , 2016 年)和 YOLO(Redmon 等人 , 2015 年)等先进的识别方法不同 , 后者执行综合检测和分类介入以上设置 , 一旦探测器稳定在拥塞情况下检测单个产品 , 分类任务变得更容易 。 当我们在单个产品的样本图像上训练对象的状态检测器时 , 我们无法在图 2 所示的实例上获得良好的性能 。 为了在现实生活中对零售产品进行可靠的检测 , 我们必须在能够代表正常人类行为的产品放置的图像上训练我们的检测器 , 例如以拥挤的方式放置的产品 。 收集此类培训数据的一种方法是手动放置产品并捕获这些图像 。 然而 , 这种方法既费时又费力 。