科技圈里那些事Y 智源、清华开源中文大规模预训练模型，26亿参数( 二 ) 机器之心报道机器之心编辑部近日

文章图片
其中CDial-GPT是清华大学对话交互式人工智能（CoAI）实验室2020年提出的中文对话预训练模型。用于衡量多样性的Dist-n指标的两个数字分别是所有不重复的N-Gram的数量及占所有N-Gram的比例。可以看到，在无监督的设定下，清源CPM具有更好的泛化性，在有监督设定下，清源CPM能达到比CDial-GPT更优的效果，尤其在多样性指标上表现更佳。
文本分类
清源CPM使用头条新闻标题分类（TNEWS ，采样为4分类）、IFLYTEK应用介绍分类（IFLYTEK ，采样为4分类）、中文自然语言推断（OCNLI ， 3分类）任务作为文本分类任务的基准。具体做法是，先输入分类样本，再输入「该文章的类别为/该介绍的类别为/两句话的关系为」，要求模型直接生成标签，四个标签中概率最高的标签作为预测结果。在无监督设定下，不同规模的清源CPM在文本分类任务上的精确度如下表所示：

文章图片
清源CPM能够在无监督的设定下达到比随机预测好得多的精确度（TNEWS/IFLYTEK/OCNLI随机预测精确度分别为0.25/0.25/0.33）。
自动问答
CPM使用DuReader和CMRC2018作为自动问答任务的基准，要求模型从给定段落中抽取一个片段作为对题目问题的答案，其中DuReader由百度搜索和百度知道两部分数据组成。在无监督的设定下，不同规模的CPM模型的表现如下表所示：

文章图片
【科技圈里那些事Y 智源、清华开源中文大规模预训练模型，26亿参数】其中单样本是指在测试时，从数据集中随机抽取一个正确的「(段落，问题，答案)」三元组，插入到用于评价的样例前，作为CPM模型生成答案的提示；零样本是指直接使用CPM模型预测给定段落和问题的答案。在单样本设定下， CPM能从给定的样本中学习到生成答案的模式，因此效果总是比零样本设定更好。由于模型的输入长度有限，多样本输入的场景将在未来进行探索。
模型效果展示
我们可以从以下示例中，观察CPM预训练中文语言模型的效果。比如基于对单个常识性问题的学习，依照规律进行提问和正确回答：

文章图片
根据前文真实的天气预报，继续报道天气预报（不保证正确性）：

文章图片
执行数理推理：

文章图片
甚至续写《红楼梦》片段：

文章图片
据了解，清源CPM未来计划开源发布更大规模的预训练中文语言模型、以中文为核心的多语言预训练模型、融合大规模知识的预训练语言模型等。