PingWest品玩|如何打造中国版的“万能AI”GPT-3 既能问答、翻译、写文章

既能问答、翻译、写文章，也能写代码、算公式、画图标......OpenAI2020年5月推出的GPT-3 ，因其神奇的通用性而走红AI领域。

文章图片
GPT-3是用英文语料做预训练的，主要应用于英文相关场景，而中文业界和学术界已经出现了期待中文版GPT-3的声音。
“GPT-3与出门问问的技术基础紧密相关。虽然现阶段GPT模型还并非完美，但它是目前我们能看到，通往更加通用的语言智能的重要路径之一。 ”从事中文语音交互的AI公司出门问问创始人兼CEO李志飞告诉品玩。
出门问问一直对更加通用的语言智能很感兴趣。团队正深入理解GPT-3的相关论文，推进相关实验，尝试提升训练效率等工作。

文章图片
如何打造中文版GPT-3？
那么，如果要打造一个中文版的GPT-3 ，该怎么操作？
“与英文相比，中文版GPT-3的诞生将经历一个从零到一的过程，可以借鉴英文GPT-3技术迭代的相关经验。 ”李志飞对品玩表示。 GPT-3的技术迭代之路，是一个不断增大训练数据量和模型参数规模的过程。
本质上， GPT-3是一个大规模预训练NLP（自然语言处理）模型。大规模预训练是指，先用大量没有标注的语料做无监督学习，得到一套模型参数，然后再用少量标注语料精调，最后应用于具体的下游NLP任务。这种模式已经诞生了不少成功的NLP模型，如Google2018年推出的Bert ，但其通用性上依然不足。直到GPT-3推出，让这类预训练模型的通用性上了一个台阶。
从GPT第一代到GPT-3 ，其模型层面一直都是基于Transformer（一种领先的提取语义特征方法）做预训练，没有什么改变，但训练数据量和模型规模十倍、千倍地增长。
2018年6月发布的GPT第一代，预训练数据量仅为5GB 。 GPT-2增长为40GB ， GPT-3更是猛增到45TB（等于45000GB）。而模型规模方面，从GPT第一代的1.17亿参数量，指数增长为1750亿。

文章图片
随着数据量和模型规模的增大， GPT逐渐舍弃了用少数标注语料精调这一步，完全基于预训练得出的参数，去做下游任务，精确度依然有一定保证。
GPT所需算力也越来越夸张，初代GPT在8个GPU上训练一个月就行，而GPT-2需要在256个GoogleCloudTPUv3上训练（256美元每小时），训练时长未知。到GPT-3 ，预估训练一个模型的费用超过460万美元。
相应地，参与到GPT论文的作者从初代的4位，增加到第三代的31位。并且， 31位作者分工明确，有人负责训练模型，有人负责收集和过滤数据，有人负责实施具体的自然语言任务，有人负责开发更快的GPU内核。

文章图片
借鉴GPT-3的迭代经验，李志飞认为开展中文GPT-3模型训练比较合理的路径是：“从中小规模的模型入手，开展研究及实验，达到一定效果后再推广到大模型上进行验证” 。
至于人力方面的配置，他表示GPT是一个非常综合的大系统工程，涉及到学术、工程、商业等团队之间的大规模协同。一般需要搭建几十人的团队，其中包括科学家、工程师、项目经理等角色。
虽然可以借鉴英文GPT-3技术迭代的相关经验，但是在创建中文版GPT-3的过程中，也需要解决很多独特的问题，如中文训练数据、算力等。
“一方面，我们需要将更多的时间精力，投入在高质量、多样性的训练文本的获取上。 ”李志飞说， “另一方面，计算的效率问题，也是目前大规模深度学习模型训练所面临的共同挑战。 ”