【变形金刚】ICLR 2020上，Transformers 有何新动向？( 四 ) |文章|何新|人工智能|

本文插图
Example of one of the BERT-based scoring function. Source: BERTScore: Evaluating Text Generation with BERT
为了解决这个问题， BERTScore提出了一种新的度量标准，利用来自BERT的预训练上下文嵌入，并通过余弦相似性匹配候选和参考句子中的单词。
这个过程其实非常简单，不涉及任何微调，仅进行预训练的上下文嵌入，以及余弦相似度和基于频率的重要性加权。
相较于BLUE ，这种度量方法会失去一些可解释性。这种学习型评分标准是否能成为新的评价标准呢？时间会给出答案。
BERT既然这么牛逼，为什么不能用它作为一种度量标准呢？直接把生成句子和参考句子怼进BERT ，然后计算token之间的cos相似度，然后用一个max-pool ，再玄学算一下，暴力有效，因吹斯听！据说和人类评估更接近，而且也比较鲁棒（这篇文章好像是某会被拒了，重投ICLR）。来源：https://xueqiu.com/4851636118/135380777
8、用预训练做检索

本文插图
论文：Pre-training Tasks for Embedding-based Large-scale Retrieval
链接：https://openreview.net/pdf?id=rkg-mA4FDr
大规模查询文档检索问题，即给定一个查询（例如一个问题），会从一个大型文档语料库中返回相应文档集（例如包含答案的段落）。这个问题通常会分为两个步骤：1）检索阶段主要来减小解空间的大小，并返回一个包含候选文档的子集；2）计分阶段，会根据分数对文档进行排序。
对于评分阶段，由于基于交叉注意力模型的BERT类的预训练，有了显著的提高。但检索阶段的研究却仍然较少，目前的方法大多还以来经典的IR技术，例如BM-25（令牌匹配+TF-IDF权重）。这些模型只能处理少量手工的特征，而无法针对感兴趣的其他下游任务进行优化。

本文插图
Source: Pre-training Tasks for Embedding-based Large-scale Retrieval
在这篇文章中，作者对基于嵌入的检索模型，通过适当设计段落级预训练任务， Transformer模型可以显著改善检索的性能；甚至在缺乏监督训练数据的情况下，在问答任务上也比BM25性能更好。
9、用BERT做视觉语言任务

本文插图
论文：VL-BERT: Pre-training of Generic Visual-Linguistic Representations
链接：https://openreview.net/pdf?id=SygXPaEYvH
开源：https://github.com/jackroos/VL-BERT
如何利用预训练和微调框架来学习语言和视觉表示呢？
在这篇文章中，作者引入了一种新型的可做预训练的通用表示形式 VL-BERT 。 VL-BERT以 Transformer和R-CNN作为主干进行扩展（尽管并不是首个这样做的，但它对现有模型的改进让人耳目一新），从而能够将视觉和语言嵌入特征作为输入。输入的每个元素要么是输入句子中的单词，要么是输入图像中的关注区域（RoI）。

本文插图
Source: VL-BERT: Pre-training of Generic Visual-Linguistic Representations
这个设计可以适用于大多数的可视语言的下游任务。作者将VL-BERT与纯文本语料库一起，在大规模概念字幕数据集（Conceptual Captions dataset）上进行了预训练。实验表明，预训练可以很好地协调视觉语言线索，且有利于下游任务。