IT世界|CMU研究员让机器人学会了听音辨物，不止视觉( 二 ) 作者|蒋宝尚

在逆学习模型的任务中，主要解决“物体动作识别”任务。另外，此模型研究的是声音是否包含有关行为、动作的因果信息。
在问题设置中，模型将物体交互（物体碰撞等动作）之前和之后的观测作为输入，具体而言交互之前物体的图像，以及交互期间产生的声音，模型输出的是交互期间的动作。由于逆模型学习可以在以前未见过的物体上进行测试，因此作者在论文中提到，此模型不仅可以在训练中测试音频特征的泛化，而且还可以在新对象上测试音频特征的泛化。
在前面两个问题中，我们已经看到声音确实包含细粒度实例和动作的因果关系的信息。但是用什么样的损失函数训练适用于多个下游任务的音频嵌入呢？
一种方法是在Tilt-Bot数据上训练实例识别任务上的嵌入，而另一种选择是在逆模型任务上进行训练。这两个任务都编码不同形式的信息，其中分类编码对象的可识别属性，反向模型编码对象的物理属性。
但是，作者从多任务学习的工作中得到了启发，训练了一种联合嵌入，可以同时对分类和动作信息进行编码。
另外，作者在论文中还提到，理解音频嵌入中包含的信息还有一种方法，即给定输入对象实例的前三个最近（最相似）的对象实例。例如，将长螺丝刀与长蝴蝶刀相匹配；将黄色物体与其他颜色物体相匹配。如下图的TSN特征图所示，进一步证明了相似的物体是如何接近的，而物理上不同的物体是如何相距较远的。
而在卡内基梅隆大学的这项工作中，具体是通过把探测交互产生的声音，用作表示对象的潜在参数。
2总结
卡内基梅隆大学的“听音辨物”工作主要有三个贡献：
第一，创建了最大的声音-动作-视觉机器人数据集；
第二，证明了可以使用声音进行细粒度的物体识别；
第三，证明了声音是动作的指示器。