搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述选自arXiv作者：FeilongChen等机器

选自arXiv
作者：FeilongChen等
机器之心编译
编辑：陈萍
一文了解视觉-语言预训练最新进展和新领域。
【搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述】让机器做出与人类相似的反应一直是AI研究不懈追求的目标。为了让机器具有感知和思考的能力，研究人员进行了一系列相关研究，如人脸识别、阅读理解和人机对话，通过这些任务训练和评估机器在特定方面的智能。一般来讲，领域专家通过手工构建标准数据集，然后在这些数据集上训练和评估相关模型。然而，由于相关技术的限制，训练模型往往需要大量的标注数据，以获得更好、更强大的模型。
基于Transformer架构的预训练模型缓解了这个问题。它们首先通过自监督学习进行预训练，从大规模未标记数据中训练模型，从而学习通用表示。它们在下游任务上仅使用少量手动标记的数据进行微调就能取得令人惊讶的效果。自BERT被应用于NLP任务以来，各种预训练模型在单模态领域快速发展，例如VisionTransformer(ViT)和Wave2Vec 。大量工作表明它们有利于下游单模态任务，并避免从头开始训练新模型。
与单模态领域类似，多模态领域也存在高质量标注数据较少的问题。我们不禁会问，上述预训练方法能否应用于多模态任务？研究人员已经对这个问题进行了探索并取得了重大进展。
在本文中，来自中国科学院自动化研究所、中国科学院大学的研究者调查了视觉-语言预训练（vision-languagepre-training ， VLP）最新进展和新领域，包括图像-文本预训练和视频-文本预训练。 VLP通过对大规模数据的预训练来学习不同模态之间语义对应关系。例如，在图像-文本预训练中，研究者期望模型将文本中的狗与图像中的狗外观相关联。在视频-文本预训练中，研究者期望模型将文本中的对象/动作映射到视频中的对象/动作。

文章图片
论文地址：https://arxiv.org/pdf/2202.09061.pdf
为了实现这一目标，研究者需要巧妙地设计VLP对象和模型架构，以允许模型挖掘不同模态之间的关联。
为了让读者更好地全面掌握VLP ，该研究首先从特征提取、模型架构、预训练目标、预训练数据集和下游任务五个方面回顾其最近进展。然后，文章详细总结了具体的VLP模型。最后，文章讨论了VLP的新领域。据了解，这是对VLP领域的首次调查。研究者希望这项调查能够为VLP领域的未来研究提供启示。
VLP综述
VLP五个方面回顾及其最近进展
在特征处理方面：论文主要介绍了VLP模型如何进行预处理和表示图像、视频和文本以获得对应特征。
为了充分利用单模态预训练模型， VLP随机初始化标准transformer编码器来生成视觉或文本表示。从视觉来讲， VLP利用预训练视觉transformer（例如ViT和DeiT）对ViT-PF进行编码。从文本来讲， VLP使用预训练文本transformer（例如BERT）对文本特征进行编码。为简单起见，该研究将这些transformer命名为Xformer 。
在模型架构方面：论文从两个不同的角度介绍VLP模型架构：（1）从多模态融合的角度来观察单流与双流架构（2）从整体架构设计来比较编码器以及编码器-解码器对比。
单流架构是指将文本和视觉特征组合在一起，然后馈入单个transformer块，如下图1(a)所示。单流架构通过合并注意力来融合多模态输入。单流架构的参数效率更高，因为两种模式都使用相同的参数集。
双流架构是指文本和视觉特征没有组合在一起，而是独立馈入到两个不同的transformer块，如图1(b)所示。这两个transformer块不共享参数。为了获得更高的性能，交叉注意力（如图1(b)中的虚线所示）用于实现跨模态交互。为了实现更高的效率，视觉transformer块和文本transformer块之间也可以不采用交叉注意力。

文章图片
许多VLP模型只采用编码器架构，不同模态表示直接馈入输出层。相比之下，其他VLP模型提倡使用transformer编码器-解码器架构，不同模态表示首先馈入解码器，然后馈入输出层。
在预训练目标方面：论文通过使用不同的预训练目标来预训练VLP模型，并将预训练目标总结为四类：完成、匹配、时间和特定类型。
完成（completion）指的是利用未掩码部分来重建掩码元素。以掩码语言建模(MLM)为例，其最早由taylor提出，由于BERT将其作为预训练任务而广为人知。 VLP模型中的MLM类似于预训练语言模型(PLM)中的MLM ，它不仅可以通过其余文本token来预测掩码文本token ，还可以通过视觉token来预测掩码文本token 。根据经验，遵循BERT的VLP模型以15%的掩码率随机掩码每个文本输入token ，并在80%的时间使用特殊token[MASK]、10%的时间使用随机文本token ，剩余10%的时间使用原始token来替换被掩码掉的文本。不过在普林斯顿大学陈丹琦等人的论文《ShouldYouMask15%inMaskedLanguageModeling?》中，作者发现：在有效的预训练方案下，他们可以掩蔽40-50%的输入文本，并获得比默认的15%更好的下游性能。