科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数( 二 )


科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数
文章图片
其中CDial-GPT是清华大学对话交互式人工智能(CoAI)实验室2020年提出的中文对话预训练模型 。 用于衡量多样性的Dist-n指标的两个数字分别是所有不重复的N-Gram的数量及占所有N-Gram的比例 。 可以看到 , 在无监督的设定下 , 清源CPM具有更好的泛化性 , 在有监督设定下 , 清源CPM能达到比CDial-GPT更优的效果 , 尤其在多样性指标上表现更佳 。
文本分类
清源CPM使用头条新闻标题分类(TNEWS , 采样为4分类)、IFLYTEK应用介绍分类(IFLYTEK , 采样为4分类)、中文自然语言推断(OCNLI , 3分类)任务作为文本分类任务的基准 。 具体做法是 , 先输入分类样本 , 再输入「该文章的类别为/该介绍的类别为/两句话的关系为」 , 要求模型直接生成标签 , 四个标签中概率最高的标签作为预测结果 。 在无监督设定下 , 不同规模的清源CPM在文本分类任务上的精确度如下表所示:
科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数
文章图片
清源CPM能够在无监督的设定下达到比随机预测好得多的精确度(TNEWS/IFLYTEK/OCNLI随机预测精确度分别为0.25/0.25/0.33) 。
自动问答
CPM使用DuReader和CMRC2018作为自动问答任务的基准 , 要求模型从给定段落中抽取一个片段作为对题目问题的答案 , 其中DuReader由百度搜索和百度知道两部分数据组成 。 在无监督的设定下 , 不同规模的CPM模型的表现如下表所示:
科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数
文章图片
【科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数】其中单样本是指在测试时 , 从数据集中随机抽取一个正确的「(段落 , 问题 , 答案)」三元组 , 插入到用于评价的样例前 , 作为CPM模型生成答案的提示;零样本是指直接使用CPM模型预测给定段落和问题的答案 。 在单样本设定下 , CPM能从给定的样本中学习到生成答案的模式 , 因此效果总是比零样本设定更好 。 由于模型的输入长度有限 , 多样本输入的场景将在未来进行探索 。
模型效果展示
我们可以从以下示例中 , 观察CPM预训练中文语言模型的效果 。 比如基于对单个常识性问题的学习 , 依照规律进行提问和正确回答:
科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数
文章图片
根据前文真实的天气预报 , 继续报道天气预报(不保证正确性):
科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数
文章图片
执行数理推理:
科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数
文章图片
甚至续写《红楼梦》片段:
科技圈里那些事Y 智源、清华开源中文大规模预训练模型,26亿参数
文章图片
据了解 , 清源CPM未来计划开源发布更大规模的预训练中文语言模型、以中文为核心的多语言预训练模型、融合大规模知识的预训练语言模型等 。