『』CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

本文插图
本文介绍的是 CVPR 2020 上录用为 Oral 的论文《?Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graph》（已开源），文章作者是中国人民大学博士生陈师哲同学，这项工作是陈师哲同学在澳大利亚阿德莱德大学吴琦老师组访问时所完成。
文 | 陈师哲
编 | 贾伟

本文插图
论文链接：https://arxiv.org/abs/2003.00387
代码链接：https://github.com/cshizhe/asg2cap
1、动机
图像描述生成(Image Captioning)是一个复杂的问题，需要机器掌握多种计算机视觉语义识别技术，例如物体识别、场景识别、属性和关系检测等等，同时还需要将所有检测的结果总结为一个自然语言表述的句子。随着深度学习技术的迅速发展，近期图像描述生成模型取得了相当大的进展，甚至在某些准确度相关指标上超过了人类撰写的文本描述。
尽管现有模型可以生成较为流利和视觉相关的图像描述，但却存在着与用户交互性差、多样性低等问题。一方面，大多数图像描述模型仅被动地生成句子，并不考虑用户感兴趣的内容或者期望描述的详细程度。例如，在图1中，如果用户希望了解关于花朵的详细信息，我们可以很快地为其说出花的颜色、数量等，但是现有系统却无法满足用户这一简单需求。另一方面，这种被动生成模式容易造成句子缺乏多样性，倾向于使用常见的高频表达生成较为“安全”的句子，较为简单空洞，且缺乏关键性的、用户所需的细节信息。

本文插图
图1：意图无关与细粒度可控的图像描述对比。意图无关的图像描述不能生成用户想要描述的内容且缺乏多样性，
为了解决上述问题，少数工作提出了主动控制图像描述生成，主要可以分为风格控制和内容控制两类。风格控制是指生成不同风格的图像文本描述，例如幽默、浪漫等等，而内容控制则旨在控制描述的图像内容，例如指定图片的不同区域、不同物体，从而使得模型能够描述用户感兴趣的图片内容。但是，现有工作都仅提供非常粗粒度的控制信号，例如一个类别标签或者图像区域。这些控制信号无法在更细粒度的级别上控制图像描述的生成，例如，是否需要生成物体的属性，要生成多少属性标签；是否需要描述与目标物体相关的物体，以及物体之间的关系是什么；句子的描述顺序应该如何等等。
我们认为，一个真正有用以及好用的图像描述生成模型，应该是可控的，因此，我们提出了一种更加细粒度的控制信号，称为抽象场景图(Abstract Scene Graph, ASG) ，可以通过图结构同时控制所希望表达的物体、属性和关系，不仅能反映用户细粒度的描述意图，也能生成更具有多样性的图像描述。如图1所示， ASG是一个包含三类抽象节点的有向图，这三类抽象节点分别代表用户希望描述的物体(object)、属性(attribute)和关系(relationship) ，每个抽象节点在图中有具体区域的定位，但却不需要任何具体语义标签。因为ASG不需要任何语义识别，它可以方便地由用户限定或自动生成。
为了基于指定ASG生成图像描述，我们提出了ASG2Caption模型，和普通用于图像描述生成的编码器-解码器框架相比，能够解决ASG控制图像描述生成中的三个主要挑战。
第一，因ASG仅包含抽象的场景框架，无任何语义标签，所以进行编码时既要考虑图中所表达的用户意图，又要识别图中节点的语义。因此，我们提出角色感知的图编码器，以区分不同节点的细粒度意图，并利用图中上下文信息增加每个节点的语义识别能力。