【变形金刚】ICLR 2020上,Transformers 有何新动向?( 四 )


【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
Example of one of the BERT-based scoring function. Source: BERTScore: Evaluating Text Generation with BERT
为了解决这个问题 , BERTScore提出了一种新的度量标准 , 利用来自BERT的预训练上下文嵌入 , 并通过余弦相似性匹配候选和参考句子中的单词 。
这个过程其实非常简单 , 不涉及任何微调 , 仅进行预训练的上下文嵌入 , 以及余弦相似度和基于频率的重要性加权 。
相较于BLUE , 这种度量方法会失去一些可解释性 。 这种学习型评分标准是否能成为新的评价标准呢?时间会给出答案 。
BERT既然这么牛逼 , 为什么不能用它作为一种度量标准呢?直接把生成句子和参考句子怼进BERT , 然后计算token之间的cos相似度 , 然后用一个max-pool , 再玄学算一下 , 暴力有效 , 因吹斯听!据说和人类评估更接近 , 而且也比较鲁棒(这篇文章好像是某会被拒了 , 重投ICLR) 。 来源:https://xueqiu.com/4851636118/135380777
8、用预训练做检索
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
论文:Pre-training Tasks for Embedding-based Large-scale Retrieval
链接:https://openreview.net/pdf?id=rkg-mA4FDr
大规模查询文档检索问题 , 即给定一个查询(例如一个问题) , 会从一个大型文档语料库中返回相应文档集(例如包含答案的段落) 。 这个问题通常会分为两个步骤:1)检索阶段主要来减小解空间的大小 , 并返回一个包含候选文档的子集;2)计分阶段 , 会根据分数对文档进行排序 。
对于评分阶段 , 由于基于交叉注意力模型的BERT类的预训练 , 有了显著的提高 。 但检索阶段的研究却仍然较少 , 目前的方法大多还以来经典的IR技术 , 例如BM-25(令牌匹配+TF-IDF权重) 。 这些模型只能处理少量手工的特征 , 而无法针对感兴趣的其他下游任务进行优化 。
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
Source: Pre-training Tasks for Embedding-based Large-scale Retrieval
在这篇文章中 , 作者对基于嵌入的检索模型 , 通过适当设计段落级预训练任务 , Transformer模型可以显著改善检索的性能;甚至在缺乏监督训练数据的情况下 , 在问答任务上也比BM25性能更好 。
9、用BERT做视觉语言任务
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
论文:VL-BERT: Pre-training of Generic Visual-Linguistic Representations
链接:https://openreview.net/pdf?id=SygXPaEYvH
开源:https://github.com/jackroos/VL-BERT
如何利用预训练和微调框架来学习语言和视觉表示呢?
在这篇文章中 , 作者引入了一种新型的可做预训练的通用表示形式 VL-BERT 。 VL-BERT以 Transformer和R-CNN作为主干进行扩展(尽管并不是首个这样做的 , 但它对现有模型的改进让人耳目一新) , 从而能够将视觉和语言嵌入特征作为输入 。 输入的每个元素要么是输入句子中的单词 , 要么是输入图像中的关注区域(RoI) 。
【变形金刚】ICLR 2020上,Transformers 有何新动向?
本文插图
Source: VL-BERT: Pre-training of Generic Visual-Linguistic Representations
这个设计可以适用于大多数的可视语言的下游任务 。 作者将VL-BERT与纯文本语料库一起 , 在大规模概念字幕数据集(Conceptual Captions dataset)上进行了预训练 。 实验表明 , 预训练可以很好地协调视觉语言线索 , 且有利于下游任务 。