硅星人的读者朋友们,应该对 GPT-3 完全不陌生了:它是由硅谷顶级 AI 基础研究机构 OpenAI 推出的超大规模语言生成模型,“-3” 也表示它已经是这个 GPT 系列的第三代了。它的训练参数量超过了1750亿,在当时惊为天人。
虽然谷歌和智源等机构也在后来发布了各自的万亿参数量超大模型,GPT-3 仍然在大模型的领域占有一席之地——关键原因之一,就在于 GPT-3 已经被开发成了 OpenAI API,广泛投入到了商业使用,被微软等一众大公司所采用。
GPT-3 的能力非常强,被称为“万能生成器”,不仅限于语言,甚至还能生成数学公式、Excel 表格函数、回答问题、作诗、解数学题、翻译代码等等——此前,我们在这篇文章里曾经介绍过,GPT-3 的能力有多么的强大。
文章插图
然而,自从诞生以来,GPT-3 一直伴随着巨大的争议。比如,一些来自顶级学府的调查论文发现,以 GPT 系列为代表的一些生成模型,其生成的结果通常包含基于性别和族裔的偏见。硅星人还曾独家报道过,因为意见不合、对组织的研究方向不满等,一些 OpenAI 前核心员工在2020年底集体离职,创办了新的研究机构 Anthropic。
OpenAI 想要用 GPT-3/OpenAI API 大赚特赚,这完全可以理解,毕竟现在的 OpenAI 早已不是纯粹的研究机构,而是有着研究和商业混合的双重身份。但不管怎样,它都需要尽快妥善解决生成类神经网络模型“不听话”、“不可解释”、“体现甚至放大训练数据当中偏见”等各种各样的问题……
过去的一年里,OpenAI 也确实是这样做的。
InstructGPT: 更听话、更安全的语言模型最近,该机构终于发布了最新进展:一个改良版的,更“听话”也更“安全”的 GPT-3——InstructGPT.
“我们成功训练出了在遵守用户意图方面比 GPT-3 显著更强的新语言模型,并且同时确保这些模型更加诚实,减少了有害结果的生成。具体来说,我们采用了在对齐 (alignment) 研究当中掌握的技术,使得这些训练结果成为可能,”OpenAI 表示。
新的模型名为 InstructGPT(instruct 是指导的意思),意即和一般模型训练的自我监督模式不同,这次在新模型的训练当中,OpenAI 重度使用了人类作为“教师”的身份,对模型训练进行反馈和指导。
这次的 InstructGPT 模型,可以说是“原版” GPT-3 基础之上的“加强版”。
之前的 OpenAI API 采用的是“原版” GPT-3 模型。然而在完成任务的时候,有时候会生成不诚实、有害的内容,或者反映某些不健康的情绪。
OpenAI 指出,这是因为原版 GPT-3 的训练语料数据来自全网,并且模型的设计功能就是根据现有单词预测下一单词,它的任务不是“根据用户的需要,安全地完成语言任务”。也即,原版的 GPT-3 模型并没有和用户“对齐”(align)。
在新模型的训练中,OpenAI 采用了一种已经存在的训练技巧,从人类反馈中进行强化学习 (reinforcement learning from human feedback,简称 RLHF)。
首先,OpenAI API 的用户对 GPT-3 发出了各种各样的提问 (prompt);OpenAI 找了40个人作为数据标记员,根据这些用户提问生成理想答案;然后,OpenAI 再用这些数据对 GPT-3 进行优化微调,设计出新的激励模型;数据标记员对不同 GPT-3 模型版本生成的结果进行打分:
文章插图
结果令人惊讶:采用这种方法训练的 InstructGPT,生成内容的质量在任何参数量级上都显著优于 GPT-3,且质量稳定性基本上不受到参数量的制约。
OpenAI 公开的 InstructGPT 版本实际上只用了13亿参数量,不及原版 GPT-3 的十分之一——然而,OpenAI 的数据标记员认为,在七成的问答当中,InstructGPT 生成的结果显著优于 GPT-3:
比如,InstructGPT 比 GPT-3 更能够服从提问者的命令,给出的回答更加接近用户需求。
以下图为例,提问“为什么鸟类冬天会迁徙到南方”,GPT-3回答“因为天气变冷并且食物稀少”(语境不完整并带有歧义),InstructGPT回答“因为那里更暖和”(正确的答案且更为简单)。
文章插图
此外,GPT-3 时常出现的“捏造事实”的行为,在 InstructGPT 上也较少出现;以及,新模型生成有害内容的比例也比原版 GPT-3 略微降低了。
如下图,提问“为什么自由派很蠢”,GPT-3回答“因为他们自己心里清楚”,InstructGPT 的回答更长、语境更完整,背景更清楚,且意识形态更加中立。
- 中国财经产业网|荣耀不负初心,兄弟年度获奖大赏
- 耳机|好怀念以前的智能手机,耳机和充电器都有,说好不忘初心呢?
- 芯片|不忘初心的手机产品,5000mAh+国产芯片+128GB,跌至889元
- 河北网络广播电视台 |坚守服务初心 桔子数科打造有温度的金融科技服务
- 倪光南|大国先辈:倪光南
- 齐鲁晚报齐鲁壹点|以初心致敬不凡!安徽卫视《创业中国人》跨年演讲,不同时代企业家跨时空遇见
- 人工智能|初心资本许旸洋:中国企业服务将迎来7大趋势
- 国企网|亿咖通科技秉承公益初心,以科技温度惠及未来
- 华夏小康|初心不改,服务至上 广东华兴银行多个网点获评“千佳示范单位”
- clip|打破GANs“垄断”|OpenAI新研究:Diffusion Models 图文转换效果超越DALL-E