OpenAI 拾回初心？总爱乱讲话的GPT-3终于懂事了( 二 ) 芯研所|autonuma|AMD|工程师|内核

文章插图
在内容有害性 benchmark 中，OpenAI 采用了 RealToxicity 这样一个包含大量有害内容的训练数据集，结果显示 InstructGPT 的有害性 0.196，低于 GPT-3 的 0.233.

文章插图
值得一提的是：InstructGPT 已经作为 OpenAI API 的语言模型，内测长达一年的时间了，提升非常显著，效果令人满意。
所以，OpenAI 也已经决定，将 OpenAI API 的背后的默认语言模型技术，从原版 GPT-3 直接更换为 InstructGPT。
“我们相信，在训练循环中加入人类反馈对模型进行微调，能够有效改善模型的安全性和可靠性，我们也将持续在此方向上努力，”OpenAI 在官网上写道，
更重要的是，据 OpenAI 透露，InstructGPT 也是该机构持续多年的对齐研究的成果首次应用于其产品，“我们这样做的一个最重要目的，就是让语言模型更加有用，更加真诚，并且有效抑制有害内容和偏见的生成。”
不过，这种新的模型训练方式也有其弊端。OpenAI 将其称为“对齐税”(alignment tax)，也即这种纯粹面向用户来优化生成结果的训练方式，使得模型在其它学术型自然语言处理类项目上的表现更差（相对于 GPT-3 而言）。
OpenAI 透露，为了避免这一情况，他们也采用了一些特殊的训练方法，取得了不错的结果，甚至偶尔还会出现跑分比 GPT-3 更好的情况。
AI 歧视：再见，再也不见机器学习技术近几年突飞猛进，许多强大的 AI 算法诞生。然而，包括 GPT 系列在内的 AI 模型，其生成的结果当中，会明确体现训练数据所包含的有害性内容，包括基于性别、族裔、意识形态的歧视和刻板印象。
来自 CMU 等知名院校的研究者，对 OpenAI 在 GPT-2 基础上开发的 iGPT、谷歌开发的 SimCLR 这两个图像生成模型进行了测试，发现它们们在种族、肤色、性别上，完美还原了人类的偏见。
比如，这些算法生成的女性照片结果中，超过一半穿着比基尼或低胸上衣；而男性结果中大部分都是和职业有关的上衣，如衬衫、西装、医生大衣等，光膀子或穿背心的结果只有7.5%。
研究者还发现，这些算法更多将男人和“商务”、“办公室”关联，将女人和“孩子”、“家庭”关联；白人更多和工具关联，而黑人更多和武器关联。

文章插图
另一篇来自于斯坦福大学和麦克马斯特大学的论文指出，GPT-3 等大规模语言生成模型对一些民族存在严重的歧视问题，在生成结果中经常将他们和枪支、炸药、谋杀、暴力关联在一起。

文章插图
批评者普遍认为，生成类模型出现这种问题的背后原因就是它们所采用的方法——无监督或自监督学习。这种训练方式的好处，在于一些领域普遍缺乏标注数据集，而无监督学习在缺乏标注数据的条件下表现仍然比较优秀；然而它的坏处，就在于它会不可避免地“学会”数据集当中所隐含的歧视思维。
与此同时，OpenAI 也在加大、加快 GPT-3 的商业化。比如在2020年 OpenAI 正式公布 GPT-3 不久后，微软就宣布和该机构展开深度合作，独家获得 GPT-3 授权，将其应用到微软用户使用的各种产品和 AI 解决方案中。
而这样的问题得不到解决，意味着更多人可能会在使用科技产品时，受到歧视和偏见的“二次伤害”……

文章插图
去年，一家名为 Anthropic 的 AI 科研机构宣布成立。该机构的非营利运作模式和初期的 OpenAI 十分相似，而实际上其创始团队正是从 OpenAI 出走的：
创始人 Dario & Daniela Amodei 兄妹都是 OpenAI 早期员工。Dario 曾在百度研究院工作，在吴恩达手下干过，发表过多篇可解释 AI、AI 安全方面的论文，离职前在 OpenAI 担任研究 VP；Daniela 离职前担任 OpenAI 安全和政策 VP；其它创始成员如 Chris Olah、Jared Kaplan、Sam McCandlish、Gabriel Goh 等，均为 OpenAI 核心人员。
而在当时，硅星人曾经独家报道，这些人从 OpenAI 出走并创立 Anthropic，正是因为不认可 OpenAI 的方向改变和某些做法。

文章插图
Anthropic 成员认为，人们正在疯狂地把某些“一知半解”的知识用于开发神经网络，并且又把这样开发出来的 AI 系统用于越来越高风险的场景，同时却又缺额发对于 AI 可解释性和安全的思考——这就是深度学习领域的现状。