IT世界|CMU研究员让机器人学会了听音辨物,不止视觉


编辑|陈大鑫
在机器人技术中 , 虽然我们已经在视觉和触觉方面取得了巨大的进步 , 但是对声音的研究一直稍有欠缺 。
近日 , 来自卡内基梅隆大学的研究员们 , 首次对声音和机器人动作之间的相互作用进行了大规模研究 。
Tilt-Bot本质上是个托盘机器人 , 由多个关节的机械臂、托盘和固定装置组成 , 托盘四周有边框 , 上面贴着用于记录物体撞击的声波捕捉装置 。
如上图所示 , 托盘的正上方还固定了一个摄像头 , 用于捕捉物体运动轨迹 , 后期再与声音变化相匹配 。
实验时 , 研究人员会把不同的物体放到托盘中 , 机械臂随后开始向前后左右倾斜 , 托盘中的物体也随之移动 。
如果倾斜过大 , 物体就会撞到边框并发出响声 , 撞击力度越大 , 捕捉到的声波波峰也就越高 。
【IT世界|CMU研究员让机器人学会了听音辨物,不止视觉】因此 , 受过训练的机器人只需要分析物体滑动和撞击的声音记录 , 就可以区分不同物体 。 另外 , 作者在论文中提到 , 即使同是金属质地的螺丝刀和扳手也可以成功分辨 , 总体成功率接近80% 。
值得一提的是 , 作者在实验过程中 , 根据收集的信息还创建了包含60个物体 , 15,000个交互(碰撞等)的声音-动作-视觉数据集 。 数据收集过程如下动图所示:
其中 , 第一个观察意味着:仅仅根据一个物体发出的声音 , 一个AI学习模型就可以从60个物体中以79.2%的准确率识别该物体;第二个观察意味着 , 通过声音 , AI学习模型就可以预测外力对该物体施加了什么动作;第三个观察意味着 , 通过声音可以测试物体隐含的物理特性 。
以上三个观察 , 作者用了三种研究方法进行证明 。
1研究方法
为了理解和研究声音与动作的协同作用 , 卡内基梅陇大学的研究人员重点研究了三大类学习任务:1、细粒度分类(或实例识别);2、逆向模型学习;3、下游正向模型学习(downstreamforward-modellearnin) 。
其中 , 在细粒度识别任务中 , 一般是用视觉图像作为输入来完成的 。 在作者的论文中 , 主要是以音频作为输入研究“声音”中包含什么样的信息 。
具体而言 , 对于作者TiltBot数据集中的60个物体 , 作者先创建一个包含80%数据的训练集和一个包含20%数据的测试集 。
然后 , 作者训练一个简单的CNN , 只把音频信息作为输入 , 并输出产生声音的对象的实例标签 。 这个架构类似于下图?