PingWest品玩|如何打造中国版的“万能AI”GPT-3( 二 )


从总体规模、数据质量及多样性上看 , 目前能够从互联网上获取到的高质量中文数据 , 相比英文数据要少一些 , 这可能会影响到中文模型的训练效果 。 不过 , 从已有的研究分析结果来看 , 数据并非越多越好 。
“我们可以结合数据优化、数据生成等方式来提高训练语料的有效性 。 初步来看 , 具体训练语料 , 主要包括百科问答、新闻资讯、博客电子书类数据及其它泛爬数据 , 经过数据处理后其规模在500GB左右 。 ”李志飞说 。
GPT-3模型参数到达1750亿 , 其背后训练资源的开销非常庞大 , 预估训练一个模型的费用超过460万美元 。 不过 , 随着国内外各项研究的推进 , 预训练模型的训练效率将会不断提升 。
“我们可以借鉴其他预训练语言模型的优化经验 , 在训练语料、网络结构、模型压缩等方面多做工作 , 预计将模型的单次训练成本降低一个数量级 。 ”李志飞说 。
看上去 , 构建中文GPT-3是一件很费劲的事情 , 但这项工作带来的回报也非常可观 。 李志飞对品玩表示 , GPT-3展现出的通用能力 , 可以将其视为下一代搜索引擎和AI助理 , 所以这项技术本身的商业应用场景可以很广阔 。
其次 , 构建GPT模型的过程中 , 将涉及到超算中心和AI算法平台的建设 , 这些算力和算法平台可以为企业、科研机构、政府提供底层服务 , 通过开放平台为产业赋能 , 如智能车载、智慧城市、科技金融等领域 。
另外 , 虽然GPT本质是一个关于语言的时序模型 , 但语言之外的其它时序问题 , 如经济、股票、交通等行为预测 , 也有可能成为潜在应用场景 。
GPT-4可能如何演化?GPT-3目前的表现虽然令人震惊 , 但它本身还存在着很多问题 , 比如它并不能真正理解文本的含义 , 只是对词语进行排列组合 。 而且 , 研究员也并未完全了解它的工作机制 。 李志飞预测 , 下一个版本GPT-4将会在模型规模、小样本学习、多模态、学习反馈机制和与任务执行结合方面进行改进 。
毫无疑问 , GPT-4模型会更加暴力 。 李志飞说:“下一代GPT模型必然在数据规模、模型参数、算力等方面都会有很大提升 。 另外 , 下一代的GPT模型可能不局限于英文 , 将能处理更多跨语言层面的任务 。 ”
目前的GPT-3模型还严重依赖小样本学习机制 。 虽然GPT-3不需要精调 , 但是在完成具体的NLP任务时 , 还是会把少量和任务相关的实例给模型 。 在零样本和单样本的任务上 , GPT-3退化比较明显 , 事实上后面两个任务才是更普遍遇到的问题 。
“下一代GPT模型需要加强在理论上的泛化能力 , 以便更好地处理零样本和单样本的任务 。 ”李志飞表示 。
下一代的GPT模型极有可能是一个多模态的模型 。 OpenAI认为 , 纯文本的自回归预训练模型达到当下的规模 , 已经快接近极限了 , 需要往多模态模型方向发展 , 把文本、语音、图像这些内容结合起来进行学习 。 李志飞认为 , 多模态模型 , 一方面可以引入语言之外的更多维度的信息 , 另外一方面可以促使模型学习完成更通用化的表示 , 以此加强模型的泛化能力 。
PingWest品玩|如何打造中国版的“万能AI”GPT-3
文章图片
另外一个重要的进化 , 是引入学习反馈机制 。 目前GPT模型只是能够在完全无监督的条件下 , 读取海量互联网文本数据进行学习 , 但是人类的学习过程是跟物理世界有交互的 , 只有这样才能建立更多物理世界的“常识” , 比如说杯子应该在桌子上面而不是下面 。 如果要到达更加通用的状态 , 除了多模态外 , 还要在学习过程中引入物理世界的反馈机制 。
“当然 , 这个反馈也是通过数据来实现的 , 而不是让GPT真正像人一样去探索物理世界 。 ”李志飞说道 , “另外 , 鉴于GPT希望实现完全无监督学习的初衷 , 这个反馈更多是隐式的和延迟的 , 而不是显式的和及时的 。 为了做到这些 , 需要引入强化学习(re-inforcementlearning)之类的机制 。 ”