写作神器还是魔鬼化身？万能语言模型GPT-3起底( 五 ) 智东西编译|心缘编辑|漠影20

美国科技企业家凯文·拉克（KevinLacker）向GPT-3提出了一系列事实性问题，与它进行问答对话。 AI有时做得不错，有时则不能回答好没有意义的问题。
例如，拉克向GPT-3提供如下的一个问答提示：

文章图片
在前8条问答中， GPT-3均给出了准确的回答：

文章图片
▲拉克与向GPT-3进行问答对话的示例
示例链接：https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html
但当被问及奇怪的问题：“从夏威夷跳到17需要多少条彩虹？”
GPT-3竟也能胡诌出：“从夏威夷跳到17需要两条彩虹。 ”

文章图片
最后被问到：“你理解这些问题吗？”
GPT-3“恬不知耻”地回复：“我理解这些问题。 ”

文章图片
看来论脸皮厚， AI模型有时能跟人类不相上下。
其他测试表明， GPT-3可以通过特定的提示进行训练，以避免这些失误。
因为拥有更多参数、训练数据和学习时间，更大的模型可能会做得更好。但这将变得越来越昂贵，而且不能无限期地持续下去。
语言模型的不透明复杂性造成了另一个限制。如果模型有不必要的偏见或错误想法，则很难打开黑盒并修复它。
未来的一条道路是将语言模型与知识库（陈述性事实的精选数据库）相结合。
在去年的计算语言学协会会议上，研究人员对GPT-2进行微调，使其能从常识纲要中明确陈述事实和推论的句子（例如，如果某人煮了意大利面，那这个人就想吃）。
结果，它写出了更合乎逻辑的短篇小说。
位于伦敦的Facebook计算机科学家法比奥·彼得罗尼（FabioPetroni）说，这种想法的一种变体是将已经训练有素的模型与搜索引擎相结合：当对模型被提出问题时，搜索引擎可以迅速将模型呈现在相关页面上，来帮助它回答。
OpenAI正在寻求另一种引导语言模型的方法：微调过程中的人工反馈。
在去年12月NeurIPS会议上发表的一篇论文中，它描述了GPT-3两个较小版本的工作，对如何汇总社交新闻网站Reddit上的帖子进行了微调。
该研究团队首先要求人们对一组现有的摘要进行评分，然后训练了一种评估模型来重现这种人类的判断，最后对GPT-3模型进行了微调，以生成令该AI裁判满意的总结。
最终，另一组独立的人类裁判甚至更喜欢模型的总结，而不是人类写的总结。
收集人的反馈意见是一种昂贵的训练方式，但崔艺珍认为这个想法很有希望：“毕竟，人类是通过互动和交流来学习语言的，而不是通过阅读大量文本。 ”
结语：我们距离真正的人机交互还有多远？
包括班德在内的一些研究人员认为，只要语言模型仅停留在语言领域，它们可能永远无法达到人类水平的常识。
孩子们通过观察、体验和行动来学习。语言之所以对我们有意义，只是因为我们将其根植于文字之外的东西上，人们不会通过对词频的统计来理解一本小说。
鲍曼预见了3种可能将常识引入语言模型的方法。
对于一个模型来说，使用所有已编写的文本可能就足够了。或者可以在YouTube剪辑上训练它，这样动态图像就能带来对现实更丰富的了解。
但这种被动消费可能还不够。他说：“非常悲观的观点是，我们只有建立一支机器人大军，并让它们与世界互动，才能实现这一目标。 ”
大型语言模型显然正成为AI世界的新工具，但它们会是通向真正人机交互的正确道路吗？
一切尚且未知。
【写作神器还是魔鬼化身？万能语言模型GPT-3起底】来源：Nature