IT世界|CMU研究员让机器人学会了听音辨物，不止视觉作者|蒋宝尚

编辑|陈大鑫
在机器人技术中，虽然我们已经在视觉和触觉方面取得了巨大的进步，但是对声音的研究一直稍有欠缺。
近日，来自卡内基梅隆大学的研究员们，首次对声音和机器人动作之间的相互作用进行了大规模研究。
Tilt-Bot本质上是个托盘机器人，由多个关节的机械臂、托盘和固定装置组成，托盘四周有边框，上面贴着用于记录物体撞击的声波捕捉装置。
如上图所示，托盘的正上方还固定了一个摄像头，用于捕捉物体运动轨迹，后期再与声音变化相匹配。
实验时，研究人员会把不同的物体放到托盘中，机械臂随后开始向前后左右倾斜，托盘中的物体也随之移动。
如果倾斜过大，物体就会撞到边框并发出响声，撞击力度越大，捕捉到的声波波峰也就越高。
【IT世界|CMU研究员让机器人学会了听音辨物，不止视觉】因此，受过训练的机器人只需要分析物体滑动和撞击的声音记录，就可以区分不同物体。另外，作者在论文中提到，即使同是金属质地的螺丝刀和扳手也可以成功分辨，总体成功率接近80% 。
值得一提的是，作者在实验过程中，根据收集的信息还创建了包含60个物体， 15,000个交互（碰撞等）的声音-动作-视觉数据集。数据收集过程如下动图所示：
其中，第一个观察意味着：仅仅根据一个物体发出的声音，一个AI学习模型就可以从60个物体中以79.2%的准确率识别该物体；第二个观察意味着，通过声音， AI学习模型就可以预测外力对该物体施加了什么动作；第三个观察意味着，通过声音可以测试物体隐含的物理特性。
以上三个观察，作者用了三种研究方法进行证明。
1研究方法
为了理解和研究声音与动作的协同作用，卡内基梅陇大学的研究人员重点研究了三大类学习任务：1、细粒度分类(或实例识别)；2、逆向模型学习；3、下游正向模型学习（downstreamforward-modellearnin）。
其中，在细粒度识别任务中，一般是用视觉图像作为输入来完成的。在作者的论文中，主要是以音频作为输入研究“声音”中包含什么样的信息。
具体而言，对于作者TiltBot数据集中的60个物体，作者先创建一个包含80%数据的训练集和一个包含20%数据的测试集。
然后，作者训练一个简单的CNN ，只把音频信息作为输入，并输出产生声音的对象的实例标签。这个架构类似于下图?