新智元从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史( 四 )


新智元从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史
本文插图
3.3 MPNet优势
MPNet使用自回归编码 , 避免了BERT做Mask时可能丢失被Mask的token的彼此关联信息和pretrain(有mask)、finetune(无mask)不一致的问题;通过位置补偿 , 又解决了XLNet无法看到全局位置信息的缺陷 。 取其精华 , 确实是挺巧妙的一种思路 。
新智元从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史
本文插图
观察输入信息的占比 , MPNet输入的信息量是最大的;从直观上理解 , 模型每次可以接受到更多的文本特征 , 从而容易训练出更优结果 。
3.4 SOTA结果
作者在权威的语义理解评估数据集GLUE上的实验结果表面 , MPNet确实比它的前辈BERT和XLNet略胜一筹 。 另外 , 作者表示MPNet在训练时加入了全词掩码whole word mask以及相对位置编码等已被证明有效的trick , 加上和RoBERTa训练一样的160GB训练语料 , 取得这样的结果应该说是情理之中了 。
新智元从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史
本文插图
末尾的消融实验 , 可以看到位置补偿和PLM对实验结果的提升都很关键 。
新智元从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史
本文插图
4.NLP预训练模型趋势跟踪
从目前来看 , 大规模语料预训练+finetune的方式 , 应该会是NLP接下去几年的主流 。 各种基于语言模型的改进也是层出不穷 。 虽然玩法种类各异 , 我们还是可以瞥见一些具有突破性的方向 。
4.1 土豪系列 - T5、GPT3、MegatronLM
新智元从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史
本文插图
前期BERT到RoBERTa , GPT到GPT2效果的提升 , 已经证明更多数据可以跑出更强大更通用的预训练模型 。 去年底到今年 , 英伟达、谷歌、Open-AI相继放出巨无霸模型MegatronLM(83亿参数)、T5(110亿)、GPT3(1500亿) , 不断刷榜令人咋舌的同时也彰显了巨头们的实力 。
相信未来 , 巨无霸模型依然会成为大公司的研究目标之一 , 却让普通科研人员可望不可及 。
4.2 小而美系列 - DistillBERT、TinyBERT、FastBERT
没有前排巨头们的经济实力 , 普通公司和科研机构沿着相反赛道-模型轻量化下足了功夫 。 如何在尽可能少的参数量下 , 取得和大模型接近的效果 , 同时训练/预测速度翻倍 , 是很实际很有价值的课题 。
这其中 , 有代表性的工作如华为诺亚方舟实验室发布的TinyBERT、北大的FastBERT都取得了瞩目的效果 。 例如FastBERT在BERT的每一层都接入一个分类器 , 通过样本自适应机制自动调整每个样本的计算量(容易的样本通过一两层就可以预测出来 , 较难的样本则需要走完全程) 。

新智元从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史
本文插图
FastBERT
图中“Speed”代表不确定性的阈值 , 和推理速度成正比 。 在Speed=0.2时 , FastBERT速度可以提升1-10倍 , 且精度下降全部在0.11个点之内 。
除了知识蒸馏 , 常规的模型轻量化一般包含层数裁剪、精度量化等手段 。
4.3 潜力股系列 - few shot learning
在实际业务场景中 , 对于中小AI企业往往容易出现数据量不足的问题 。 例如用户需要订制一个FAQ问答机器人 , 有100个标准问 , 但表示每个问句只有2-3条同义句...
新智元从BERT、XLNet到MPNet,细看NLP预训练模型发展变迁史
本文插图
战略上 , “客户就是上帝“的精神激励我们不能虚 , 要迎难而上 。 战术上 , 除了花高成本找标注团队造数据外 , 迁移学习、小样本学习可能会非常有帮助 。 受到人类具有快速从少量(单)样本中学习能力的启发(例如生活在北方的人可能没有见过榴莲 , 一旦看过一次榴莲的照片 , 就认识了!) , 让模型在少量样本中学习获得有力的泛化能力 , 成为近年的研究热点之一 。