positioning是什么意思 accurate是什么意思( 三 )


预训练语言模型(最具有代表性的模型包括 ELMo、BERT 和 GPT)对自然语言处理领域产生了深远的影响,是深度学习时代自然语言处理领域里程碑式的研究成果 。
这一系列基于深度学习技术的模型只需要利用非监督的语言模型训练目标函数即可从海量的文本中捕捉和学习到各种类型的有效信息,能够动态生成更加准确的具有上下文信息建模能力的字、词、短语乃至句子和篇章的向量表示和生成概率,并可以在多种下游任务上取得惊艳的效果 。
例如问答、阅读理解、文本蕴含、语义相似度匹配、文本摘要、代码生成、故事创作等 。除了强大的表示学习能力和多任务泛化属性以外,这些预训练语言模型还具有强大的小样本学习能力,只需要很少数据样本(甚至是在零样本学习的设置下),即可理解特定的任务并取得和监督学习模型相当甚至更好的表现 。
在众多模型中,2020 年 5 月 OpenAI 公司所提出的第三代 GPT 模型(GPT-3)凭借其当时最大的参数规模、非凡的模型能力、多任务泛化表现以及小样本学习能力入选 2021 年 MIT Technology Review 的 “全球十大突破性技术” 。
(2) GPT 等系列模型发展过程和能力变化
预训练语言模型数量众多,其中具有里程碑意义的典型模型包括 ELMo、BERT 和 GPT 。限于篇幅,在此只选择 GPT 系列模型进行代表性介绍 。
在对 GPT-3 模型进行解读之前,我们首先对预训练语言模型的初衷和中间发展过程进行回顾 。以 N-Gram 为代表的传统语言模型是计算给定语言片段的概率或者给定上文预测下一个词的出现概率,采用的是传统的基于频率的离散统计概率模型 。
其主要问题是离散的词表示方法描述能力差,参数空间成指数级增长,基于频率的统计概率模型建模能力差,导致最终语言模型描述能力不足、鲁棒性差、准确率不高 。
为解决上述问题,以 ELMo、BERT 和 GPT 为代表的预训练语言模型利用大规模甚至全网数据,基于生成式语言模型或者掩码语言模型,用神经网络方法训练语言模型 。
这样,预训练语言模型既有传统模型的概率输出,也可生成语言片段的向量表示 。由于采用神经网络的方法,可以利用可导、可微等强大的数学工具和极大规模的数据,所以预训练语言模型上下文建模能力超强,可计算出更加准确的概率和上下文强相关的语言片段的动态向量表示 。
ELMo 开启了第二代预训练语言模型的时代,即上下文相关和 “预训练 + 微调” 的范式 。ELMo 是一种生成式模型,以双向 LSTM 作为特征提取器,利用上下文信息动态建模,较好地解决了以 Word2Vec 为代表的第一代预训练语言模型存在的一词多义问题,在自然语言生成任务上表现尤为出色 。
BERT 是一种掩码式语言模型,以 Transformer Encoder 为特征提取器,在自然语言分析和理解任务上表现尤为出色 。GPT 是一种生成式模型,以 Transformer Decoder 为特征提取器,在自然语言生成任务上表现更为突出 。
在上述系列模型提出以前,以自然语言理解为代表的下游任务主要采用监督学习的方式在相应的标注数据集上训练模型 。这就需要每一个目标任务有充足的标注数据,并且在特定任务上训练的模型无法有效地泛化到其他任务上 。
在数据不足的情况下,这类判别式模型就无法取得令人满意的效果 。针对这一问题,OpenAI 团队提出了第一代的生成式预训练语言模型(GPT-1)是基于 Transformer Decoder 的生成式语言模型,对该模型结构没有新颖改动,但扩大了模型的复杂度 。
该类生成式预训练模型只需要利用非监督的语言模型目标函数即可进行训练,因此可以利用海量的无标注数据进行模型学习 。除此以外,GPT-1 模型在增强下游任务时对各种输入数据的格式进行了统一,以实现最小的模型结构修改 。
基于以上两个特点,GPT-1 只需要简单的微调监督训练即可用于下游任务,并取得显著的效果提升,展示了生成式预训练语言模型强大的泛化能力 。额外的评测发现 GPT-1 在零资源的设置下仍然具有一定的泛化能力 。
这些结果展示了生成式预训练的强大威力,为后续参数规模更大、所需训练数据更多的模型版本奠定了基础 。
GPT-2 在 GPT-1 的基础上,对模型结构进行了 5 点微小改进,增加更多的训练数据,进一步提升了生成式预训练语言模型的泛化能力,重点解决 GPT-1 在下游任务使用时需要监督微调训练的问题 。
通过在模型训练时引入任务信息、利用比 GPT-1 模型更多的训练数据(40GB vs. 5GB)、搭建更大参数规模的模型(15 亿 vs. 1.17 亿),GPT-2 模型在零资源的设置下超越了多种下游任务上的前沿模型,例如机器翻译、阅读理解、长距离依赖关系建模等 。