具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习( 三 )


3

多模态:声音语义信息的利用
“我们人不但能看还能听,如果看和听同时进行,那会让很多任务变得更加简单。”
上述研究中列举了高博士对声音空间信息的一些研究,而高博士的博士论文中除了研究声音的空间信息,还重点研究了声音的语义信息,探讨了如何同时利用声音和视觉更好地辅助学习视觉任务。那么如何理解声音的语义信息呢?

具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习
文章插图

“比如一个场景中能听到狗在叫,还有小提琴的声音,这些声音其实都能够与特定的物体或事件对应。”
关于声音的语义信息,高博士研究过的声源分离(audio-visual source separation),就是一个典型例子。
他分享了一个著名现象——McGurk Effect,大概意思是视觉能够影响声音的感知。视频中人物发音是一样的,但由于人的嘴唇运动方式不相同,我们在看视频时所感知到的声音竟然不一样。
这种效应有什么意义呢?高若涵解释到,“比如说在一个很嘈杂的环境里,我们的声音与其它声音有重叠,以至于听不到对方在说什么。那么怎么能把一个人的声音单独分离出来呢?或是在一个乐队演奏中,有人在弹钢琴,有人在拉小提琴,他们演奏出来的曲子是很多乐器声音的重叠结合,那么能不能把其中一种乐器的声音单独分离出来呢?”
高若涵表示,此前已有一些研究直接基于声音信息进行分离,但难度很大。“如果是在一个视频里面,我们就可以利用视觉信息,比如嘴唇的运动,帮助分离出声源。”
这种思路可以联系到认知科学里面的“鸡尾酒会效应”,“我们在参加一个鸡尾酒宴会的时候,环境可能会很嘈杂,但是我们的注意力会很容易集中在与你进行谈话的那个人身上。同样,如果两个人在谈话,他们的声音可能是混在一起的,但如果通过结合人脸的视觉信息,就可以更好地将声音分离出来。”
高若涵的博士论文中也涉及了通过视觉信息进行声源分离,包括分离人说话的声音、乐器的声音,而这些就是对声音的语义信息的利用。
除此之外,在高若涵的“Listen to Look: Action Recognition by Previewing Audio”这篇论文中,他们还研究了“声音如何帮助动作识别”,这也是对声音语义信息的利用。

具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习
文章插图

论文地址:https://vision.cs.utexas.edu/projects/listen_to_look/
“比如给我一个没有处理过的很长的视频,我们要预测里面的动作,比如滑水、滑雪等等。之前在计算机视觉领域,人们一般通过分析提取视觉特征来进行预测。但如果视频非常长,就需要很多的计算资源。”
所以高若涵想到:其实声音也可以告诉我们语义上的信息。
在一个很长的视频里面,可以通过动作的声音信息识别,把注意力集中到某一个片段里,然后跳到这个片段去进行视觉识别。这样就可以极大提高视频动作识别的效率。
简言之,视觉和听觉可以进行交互达到感知增益。而无论是视觉感知还是听觉感知,都根植于身体行动,经验建构于具身交互。身体及其与环境的交互对学习活动具有重要的意义和影响,多模态学习离不开具身理论支撑。
4

在具身环境下促进多模态交互
人类在感知世界时,并不是通过天天看视频来进行学习。婴儿在成长过程中也并不是一直看视频学习,而是通过具身学习,用自己的双耳、双眼和触摸等来感知这个世界,并基于反馈来学习技能。具身学习实际上也出现在高若涵研究的方方面面。
首先,他和合作者们研究过一个听觉-视觉-导航三者结合的AI算法。“就是让一个智能体比如机器人在一个空间里通过听觉和视觉信息来找东西。比如有一个电话铃响了,机器人通过声音和视觉的感知,巡航到声音发生的地点。”

具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习
文章插图

论文地址:https://arxiv.org/pdf/2008.09622.pdf
具体而言,智能体学习多模态输入的编码以及模块化导航策略,以通过一系列动态生成的视听航点找到探测目标(例如,左上角房间的电话铃声)。例如,智能体首先在卧室里,听到电话铃响后,识别出它在另一个房间,并决定先离开卧室,然后它可以将电话位置缩小到餐厅,决定进入餐厅,然后找到电话。已有的分层导航方法依赖于启发式方法来确定子目标,而高若涵和合作者们提出的模型学习了一种策略来与导航任务联合设置航点。