IT世界|CMU研究员让机器人学会了听音辨物,不止视觉( 二 )


在逆学习模型的任务中 , 主要解决“物体动作识别”任务 。 另外 , 此模型研究的是声音是否包含有关行为、动作的因果信息 。
在问题设置中 , 模型将物体交互(物体碰撞等动作)之前和之后的观测作为输入 , 具体而言交互之前物体的图像 , 以及交互期间产生的声音 , 模型输出的是交互期间的动作 。 由于逆模型学习可以在以前未见过的物体上进行测试 , 因此作者在论文中提到 , 此模型不仅可以在训练中测试音频特征的泛化 , 而且还可以在新对象上测试音频特征的泛化 。
在前面两个问题中 , 我们已经看到声音确实包含细粒度实例和动作的因果关系的信息 。 但是用什么样的损失函数训练适用于多个下游任务的音频嵌入呢?
一种方法是在Tilt-Bot数据上训练实例识别任务上的嵌入 , 而另一种选择是在逆模型任务上进行训练 。 这两个任务都编码不同形式的信息 , 其中分类编码对象的可识别属性 , 反向模型编码对象的物理属性 。
但是 , 作者从多任务学习的工作中得到了启发 , 训练了一种联合嵌入 , 可以同时对分类和动作信息进行编码 。
另外 , 作者在论文中还提到 , 理解音频嵌入中包含的信息还有一种方法 , 即给定输入对象实例的前三个最近(最相似)的对象实例 。 例如 , 将长螺丝刀与长蝴蝶刀相匹配;将黄色物体与其他颜色物体相匹配 。 如下图的TSN特征图所示 , 进一步证明了相似的物体是如何接近的 , 而物理上不同的物体是如何相距较远的 。
而在卡内基梅隆大学的这项工作中 , 具体是通过把探测交互产生的声音 , 用作表示对象的潜在参数 。
2总结
卡内基梅隆大学的“听音辨物”工作主要有三个贡献:
第一 , 创建了最大的声音-动作-视觉机器人数据集;
第二 , 证明了可以使用声音进行细粒度的物体识别;
第三 , 证明了声音是动作的指示器 。