详解微软 ALUM:当语言模型遇到对抗训练( 二 )


详解微软 ALUM:当语言模型遇到对抗训练文章插图
实验提升泛化能力

  • BERT BASE是使用与Devlin等人相同的设置训练的标准BERT base模型 。 (即1M步 , batch size = 256) 。
  • BERT+BASE与BERT BASE相似 , 不同之处在于其训练步数为1.6M , 与对抗预训练所需时间大致相同(ALUM BERT-BASE) 。
  • ALUM BERT-BASE是一个BERT模型 , 使用与BERT BASE相同的设置进行训练 , 但最后的500K步骤使用ALUM 。 每一个对抗训练步骤大约比标准训练步骤长1.5倍 。

详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图
提升鲁棒性
详解微软 ALUM:当语言模型遇到对抗训练文章插图
结合对抗预训练和对抗微调之前都是在预训练阶段做的对抗 , ALUM RoBERTa-LARGE-SMART在预训练和微调阶段均做对抗 。
详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图
结论提出了一种通用的对抗性训练算法ALUM:
对抗预训练可以显著提高泛化能力和鲁棒性 。
ALUM大大提高了BERT和RoBERTa在各种NLP任务中的准确性 , 并且可以与对抗微调相结合以获得进一步的收益 。
未来的发展方向:
  • 进一步研究对抗性预训练在提高泛化和鲁棒性方面的作用;
  • 对抗性训练加速;
  • 【详解微软 ALUM:当语言模型遇到对抗训练】将ALUM应用于其他领域 。

详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图
点分享
详解微软 ALUM:当语言模型遇到对抗训练文章插图
详解微软 ALUM:当语言模型遇到对抗训练文章插图