新智元从BERT、XLNet到MPNet，细看NLP预训练模型发展变迁史( 四 )

本文插图
3.3 MPNet优势
MPNet使用自回归编码，避免了BERT做Mask时可能丢失被Mask的token的彼此关联信息和pretrain（有mask）、finetune（无mask）不一致的问题；通过位置补偿，又解决了XLNet无法看到全局位置信息的缺陷。取其精华，确实是挺巧妙的一种思路。

本文插图
观察输入信息的占比， MPNet输入的信息量是最大的；从直观上理解，模型每次可以接受到更多的文本特征，从而容易训练出更优结果。
3.4 SOTA结果
作者在权威的语义理解评估数据集GLUE上的实验结果表面， MPNet确实比它的前辈BERT和XLNet略胜一筹。另外，作者表示MPNet在训练时加入了全词掩码whole word mask以及相对位置编码等已被证明有效的trick ，加上和RoBERTa训练一样的160GB训练语料，取得这样的结果应该说是情理之中了。

本文插图
末尾的消融实验，可以看到位置补偿和PLM对实验结果的提升都很关键。

本文插图
4.NLP预训练模型趋势跟踪
从目前来看，大规模语料预训练+finetune的方式，应该会是NLP接下去几年的主流。各种基于语言模型的改进也是层出不穷。虽然玩法种类各异，我们还是可以瞥见一些具有突破性的方向。
4.1 土豪系列 - T5、GPT3、MegatronLM

本文插图
前期BERT到RoBERTa ， GPT到GPT2效果的提升，已经证明更多数据可以跑出更强大更通用的预训练模型。去年底到今年，英伟达、谷歌、Open-AI相继放出巨无霸模型MegatronLM（83亿参数）、T5（110亿）、GPT3（1500亿），不断刷榜令人咋舌的同时也彰显了巨头们的实力。
相信未来，巨无霸模型依然会成为大公司的研究目标之一，却让普通科研人员可望不可及。
4.2 小而美系列 - DistillBERT、TinyBERT、FastBERT
没有前排巨头们的经济实力，普通公司和科研机构沿着相反赛道-模型轻量化下足了功夫。如何在尽可能少的参数量下，取得和大模型接近的效果，同时训练/预测速度翻倍，是很实际很有价值的课题。
这其中，有代表性的工作如华为诺亚方舟实验室发布的TinyBERT、北大的FastBERT都取得了瞩目的效果。例如FastBERT在BERT的每一层都接入一个分类器，通过样本自适应机制自动调整每个样本的计算量（容易的样本通过一两层就可以预测出来，较难的样本则需要走完全程）。

本文插图
FastBERT
图中“Speed”代表不确定性的阈值，和推理速度成正比。在Speed=0.2时， FastBERT速度可以提升1-10倍，且精度下降全部在0.11个点之内。
除了知识蒸馏，常规的模型轻量化一般包含层数裁剪、精度量化等手段。
4.3 潜力股系列 - few shot learning
在实际业务场景中，对于中小AI企业往往容易出现数据量不足的问题。例如用户需要订制一个FAQ问答机器人，有100个标准问，但表示每个问句只有2-3条同义句...

本文插图
战略上， “客户就是上帝“的精神激励我们不能虚，要迎难而上。战术上，除了花高成本找标注团队造数据外，迁移学习、小样本学习可能会非常有帮助。受到人类具有快速从少量（单）样本中学习能力的启发（例如生活在北方的人可能没有见过榴莲，一旦看过一次榴莲的照片，就认识了！），让模型在少量样本中学习获得有力的泛化能力，成为近年的研究热点之一。