详解微软 ALUM：当语言模型遇到对抗训练( 二 )

2020-11-16

文章插图
实验提升泛化能力

BERT BASE是使用与Devlin等人相同的设置训练的标准BERT base模型。（即1M步， batch size = 256）。
BERT+BASE与BERT BASE相似，不同之处在于其训练步数为1.6M ，与对抗预训练所需时间大致相同（ALUM BERT-BASE）。
ALUM BERT-BASE是一个BERT模型，使用与BERT BASE相同的设置进行训练，但最后的500K步骤使用ALUM 。每一个对抗训练步骤大约比标准训练步骤长1.5倍。

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图
提升鲁棒性

详解微软 ALUM：当语言模型遇到对抗训练

文章插图
结合对抗预训练和对抗微调之前都是在预训练阶段做的对抗， ALUM RoBERTa-LARGE-SMART在预训练和微调阶段均做对抗。

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图
结论提出了一种通用的对抗性训练算法ALUM：
对抗预训练可以显著提高泛化能力和鲁棒性。
ALUM大大提高了BERT和RoBERTa在各种NLP任务中的准确性，并且可以与对抗微调相结合以获得进一步的收益。
未来的发展方向：

进一步研究对抗性预训练在提高泛化和鲁棒性方面的作用；
对抗性训练加速；
【详解微软 ALUM：当语言模型遇到对抗训练】将ALUM应用于其他领域。

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图
点分享

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

详解微软 ALUM：当语言模型遇到对抗训练

文章插图

上一篇：爷青回？联想中国手机部总经理陈劲暗示乐檬手机要回归了

下一篇：售前售后一条龙服务！绿厂的Breeno让双十一快乐翻倍