科技圈里那些事Y 智源、清华开源中文大规模预训练模型，26亿参数机器之心报道机器之心编辑部近日

机器之心报道
机器之心编辑部
近日，北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型CPM-LM ，参数规模达26亿，预训练中文数据规模100GB 。
自2018年谷歌发布BERT以来，预训练模型在自然语言处理（NLP）领域逐渐成为主流。今年5月份， OpenAI推出的史上最大AI模型GPT-3更是引起了大量讨论。但是，目前NLP领域的预训练模型多针对英语语言，以英语语言数据为训练数据，例如GPT-3：

文章图片
用于训练GPT-3的数据集。
近日，北京智源人工智能研究院和清华大学研究团队合作开展了一项名为「清源CPM(ChinesePretrainedModels)」的大规模预训练模型开源计划，旨在构建以中文为核心的大规模预训练模型。首期开源内容包括预训练中文语言模型和预训练知识表示模型，可广泛应用于中文自然语言理解、生成任务以及知识计算应用，所有模型免费向学术界和产业界开放下载，供研究使用。
清源CPM主页：https://cpm.baai.ac.cn/
清源CPMGithub托管代码主页：https://github.com/TsinghuaAI/
模型特点
根据清源CPM主页介绍，该计划发布的预训练模型具备以下特点：
模型规模大：本次发布的CPM-LM参数规模达26亿，预训练中文数据规模100GB ，使用了64块V100GPU ，训练时间约为3周；CPM-KG的参数规模为217亿，预训练结构化知识图谱为WikiData全量数据，包含近1300个关系、8500万实体、4.8亿个事实三元组，使用了8块V100GPU训练时间约为2周。
语料丰富多样：收集大量丰富多样的中文语料，包括百科、小说、对话、问答、新闻等类型。
学习能力强：能够在多种自然语言处理任务上进行零次学习或少次学习，并达到较好的效果。
行文自然流畅：基于给定上文，模型可以续写出一致性高、可读性强的文本，达到现有中文生成模型的领先效果。
在模型训练方面， CPM模型预训练过程分布在多块GPU上，采用层内并行的方法进行训练，并基于当前已有的成熟技术，减少同步提高通讯速率。
在硬件设施方面，为训练该CPM模型，共有64块V100显卡投入使用。经过预训练的CPM模型可以用来促进诸多下游中文任务，如对话、论文生成、完形填空和语言理解等。
为了促进中文自然语言处理研究的发展，该项目还提供了CPM-LM(2.6B)模型的文本生成代码，可用于文本生成的本地测试，并以此为基础进一步研究零次学习/少次学习等场景，详情参见项目GitHub主页。
模型性能
清源CPM使用新闻、百科、对话、网页、故事等不同类型的中文语料数据进行预训练。在多个公开的中文数据集上的实验表明，清源CPM在少样本或无样本的情况下均能够实现较好的效果。
中文成语填空ChID
ChID是2019年清华大学对话交互式人工智能实验室（CoAI）收集的中文成语填空数据集，其目标是对于给定的段落，在10个候选项中选择最符合段意的成语进行填空。

文章图片
其中有监督设定是指在ChID的训练集上进行训练，随后在测试集上测试；无监督设定是指不经过任何额外训练，直接使用预训练模型进行测试。具体做法是，将候选项依次填入段落中，计算填充后段落的困惑度(Perplexity) ，选择困惑度最小的候选项作为预测结果。表中汇报了预测的准确率，可以看到， CPM(大)在无监督设定下甚至达到了比有监督CPM(小)更好的结果，反映出清源CPM强大的中文语言建模能力。
对话生成STC
STC是2015年华为诺亚方舟实验室提出的短文本对话数据集，要求在给定上文多轮对话的条件下预测接下来的回复。