OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了( 二 )



OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章插图
在内容有害性 benchmark 中,OpenAI 采用了 RealToxicity 这样一个包含大量有害内容的训练数据集,结果显示 InstructGPT 的有害性 0.196,低于 GPT-3 的 0.233.

OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章插图
值得一提的是:InstructGPT 已经作为 OpenAI API 的语言模型,内测长达一年的时间了,提升非常显著,效果令人满意。
所以,OpenAI 也已经决定,将 OpenAI API 的背后的默认语言模型技术,从原版 GPT-3 直接更换为 InstructGPT。
“我们相信,在训练循环中加入人类反馈对模型进行微调,能够有效改善模型的安全性和可靠性,我们也将持续在此方向上努力,”OpenAI 在官网上写道,
更重要的是,据 OpenAI 透露,InstructGPT 也是该机构持续多年的对齐研究的成果首次应用于其产品,“我们这样做的一个最重要目的,就是让语言模型更加有用,更加真诚,并且有效抑制有害内容和偏见的生成。”
不过,这种新的模型训练方式也有其弊端。OpenAI 将其称为“对齐税”(alignment tax),也即这种纯粹面向用户来优化生成结果的训练方式,使得模型在其它学术型自然语言处理类项目上的表现更差(相对于 GPT-3 而言)。
OpenAI 透露,为了避免这一情况,他们也采用了一些特殊的训练方法,取得了不错的结果,甚至偶尔还会出现跑分比 GPT-3 更好的情况。
AI 歧视:再见,再也不见机器学习技术近几年突飞猛进,许多强大的 AI 算法诞生。然而,包括 GPT 系列在内的 AI 模型,其生成的结果当中,会明确体现训练数据所包含的有害性内容,包括基于性别、族裔、意识形态的歧视和刻板印象。
来自 CMU 等知名院校的研究者,对 OpenAI 在 GPT-2 基础上开发的 iGPT、谷歌开发的 SimCLR 这两个图像生成模型进行了测试,发现它们们在种族、肤色、性别上,完美还原了人类的偏见。
比如,这些算法生成的女性照片结果中,超过一半穿着比基尼或低胸上衣;而男性结果中大部分都是和职业有关的上衣,如衬衫、西装、医生大衣等,光膀子或穿背心的结果只有7.5%。
研究者还发现,这些算法更多将男人和“商务”、“办公室”关联,将女人和“孩子”、“家庭”关联;白人更多和工具关联,而黑人更多和武器关联。

OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章插图
另一篇来自于斯坦福大学和麦克马斯特大学的论文指出,GPT-3 等大规模语言生成模型对一些民族存在严重的歧视问题,在生成结果中经常将他们和枪支、炸药、谋杀、暴力关联在一起。

OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章插图
批评者普遍认为,生成类模型出现这种问题的背后原因就是它们所采用的方法——无监督或自监督学习。这种训练方式的好处,在于一些领域普遍缺乏标注数据集,而无监督学习在缺乏标注数据的条件下表现仍然比较优秀;然而它的坏处,就在于它会不可避免地“学会”数据集当中所隐含的歧视思维。
与此同时,OpenAI 也在加大、加快 GPT-3 的商业化。比如在2020年 OpenAI 正式公布 GPT-3 不久后,微软就宣布和该机构展开深度合作,独家获得 GPT-3 授权,将其应用到微软用户使用的各种产品和 AI 解决方案中。
而这样的问题得不到解决,意味着更多人可能会在使用科技产品时,受到歧视和偏见的“二次伤害”……

OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章插图
去年,一家名为 Anthropic 的 AI 科研机构宣布成立 。该机构的非营利运作模式和初期的 OpenAI 十分相似,而实际上其创始团队正是从 OpenAI 出走的:
创始人 Dario & Daniela Amodei 兄妹 都是 OpenAI 早期员工。Dario 曾在百度研究院工作,在吴恩达手下干过,发表过多篇可解释 AI、AI 安全方面的论文,离职前在 OpenAI 担任研究 VP;Daniela 离职前担任 OpenAI 安全和政策 VP;其它创始成员如 Chris Olah、Jared Kaplan、Sam McCandlish、Gabriel Goh 等,均为 OpenAI 核心人员。
而在当时,硅星人曾经独家报道,这些人从 OpenAI 出走并创立 Anthropic,正是因为不认可 OpenAI 的方向改变和某些做法。

OpenAI 拾回初心?总爱乱讲话的GPT-3终于懂事了
文章插图
Anthropic 成员认为,人们正在疯狂地把某些“一知半解”的知识用于开发神经网络,并且又把这样开发出来的 AI 系统用于越来越高风险的场景,同时却又缺额发对于 AI 可解释性和安全的思考——这就是深度学习领域的现状。