IT世界|CMU研究员让机器人学会了听音辨物,不止视觉
在机器人技术中 , 虽然我们已经在视觉和触觉方面取得了巨大的进步 , 但是对声音的研究一直稍有欠缺 。
近日 , 来自卡内基梅隆大学的研究员们 , 首次对声音和机器人动作之间的相互作用进行了大规模研究 。
实验时 , 研究人员会把不同的物体放到托盘中 , 机械臂随后开始向前后左右倾斜 , 托盘中的物体也随之移动 。
如果倾斜过大 , 物体就会撞到边框并发出响声 , 撞击力度越大 , 捕捉到的声波波峰也就越高 。
【IT世界|CMU研究员让机器人学会了听音辨物,不止视觉】因此 , 受过训练的机器人只需要分析物体滑动和撞击的声音记录 , 就可以区分不同物体 。 另外 , 作者在论文中提到 , 即使同是金属质地的螺丝刀和扳手也可以成功分辨 , 总体成功率接近80% 。
值得一提的是 , 作者在实验过程中 , 根据收集的信息还创建了包含60个物体 , 15,000个交互(碰撞等)的声音-动作-视觉数据集 。 数据收集过程如下动图所示:
以上三个观察 , 作者用了三种研究方法进行证明 。
1研究方法
为了理解和研究声音与动作的协同作用 , 卡内基梅陇大学的研究人员重点研究了三大类学习任务:1、细粒度分类(或实例识别);2、逆向模型学习;3、下游正向模型学习(downstreamforward-modellearnin) 。
其中 , 在细粒度识别任务中 , 一般是用视觉图像作为输入来完成的 。 在作者的论文中 , 主要是以音频作为输入研究“声音”中包含什么样的信息 。
具体而言 , 对于作者TiltBot数据集中的60个物体 , 作者先创建一个包含80%数据的训练集和一个包含20%数据的测试集 。
然后 , 作者训练一个简单的CNN , 只把音频信息作为输入 , 并输出产生声音的对象的实例标签 。 这个架构类似于下图?
- |世界上最大洞穴,可以容纳70亿人,人类的避难所
- 科学家|本可以改变世界,但却未能真正实现的10项发明和研究
- 青山绿水那些事|很少有中国文化影子,却能影响全世界,中国茶文化最年轻的“学生”
- 宝石流云|迈入芯片强国吗?,中国光刻机明年可以达到世界较为先进的水平
- 外星人|世界观即将崩塌?地心人与地底文明,空洞学说地底文明是真的吗?
- 帝释天|为什么世界各地的神话竟然惊人地相似?也许宙斯跟帝释天是同一人
- 星球狂想战队|世界科技格局
- |世界上“智商最高”的4个人:3个已离世,剩下一个是中国血统
- 华为|白宫也没想到,任正非向全世界摊牌了?没有光刻机华为也能活下去
- 芯片|中国光刻机明年可以达到世界较为先进的水平,迈入芯片强国吗?