视觉语言两开花！谷歌提出全新视觉语言桥梁

编辑 | 陈大鑫
“ 妈妈快来看！有人类在看我。 ”

本文插图
小老虎在动物园指着人类开心地说道。
对动物而言可能有些夸张，但是人类在进行事物的描述时，大多都是一边指着目标物体，一边进行语言的描述吗？
来自谷歌研究院的学者们以此为基础提出了“定位叙事”图像标注方法，在传统图像描述标注方法的基础上，巧妙的利用鼠标轨迹为每个单词都提供了较为密集的视觉基础，可以作为一个更为细粒度的图像监督信号，与此同时，定位叙事还连接了四种模态的数据，包括图像、语音描述、文字描述和鼠标轨迹信号，它们共同作用为视觉与语言联合增加了更多的可能性。
本文已被ECCV2020 Spotlight收录。

本文插图
论文链接：https://arxiv.org/abs/1912.03098
研究动机
连接视觉和语言的一种方式是使用图像描述（Image Captioning），标注者被要求给每张指定的图像编辑一段话来描述图像中的内容，这种链接方式面对的是整个图像，是比较稀疏的。

本文插图
上图中分别为几种连接视觉和语言的标注数据集，（a）是最原始的图像描述，（b）和（c）进行了改进，对关键区域进行了bounding box的标记，（d）是本文提出的“定位叙事”（Localized Narratives）标注方法，下面进行详细介绍。
方法
本文提出了一种全新的多模态图像标注形式，称为“定位叙事” ，下面举个例子：

本文插图
定位叙事要求标注者在描述图像的同时，加入自己的语音描述，还需要使用鼠标在对应图像区域内进行滑动。
如上图所示，注释者一边说 ''图中出现了一个女性'' ，一边将鼠标悬停在她的空间范围，从而为这个名词提供视觉链接。之后，将鼠标移动到气球上，说 ''握住'' 。这样就为这个动作提供了直接的视觉基础。
他还描述了 ''晴朗的蓝天 ''和 ''浅蓝色牛仔裤 ''等背景物体。由于语音与鼠标指针同步，就可以确定描述中每一个词的图像位置，这就为每个词提供了密集的视觉基础。
定位叙事的核心做法是要求注释者在将鼠标悬停在被描述的区域上时，用他们的声音描述图像的内容。语音和鼠标位置信号都是有时间戳的，所以我们可以知道注释者在说每一个字的时候到底指的是什么。
标注提示

本文插图
自动转写和手动转写
转写对齐
转写对齐是针对自动转写描述和手动转写描述进行的，其中和表示单个单词，含有时间戳标记，转写对齐的目标就是将自动转写单词的时间戳迁移到手动转写单词上。
首先定义两个序列中对应单词的编辑距离，即从序列中的错误单词到序列中的正确单词所需的字符插入、删除和替换次数，也可以看作是一个评价函数：
然后我们找到最佳匹配函数就可以完成两个转写描述的对齐。
实验
本文共对四个大规模图像数据集进行了定位叙事的标注，分别是COCO[3]、Flickr30k[4]、ADE20K[5]和Open Images[6]共848,749张图像，目前已全部开放下载。

本文插图
可以看出，定位叙事的名词数量要明显多于其他数据集，此外，定位叙事标注还对很多物体之间的关系进行了标记，除了语言模态的多样性，定位叙事的多样性还体现在视觉模态中，相比传统绘制标记框的方式，使用鼠标轨迹进行视觉基础的标注会带来更多的不确定性，而且也更符合人类本身的感知方式（人类的视线轨迹本身就是动态变化的）。