写作神器还是魔鬼化身?万能语言模型GPT-3起底( 五 )
美国科技企业家凯文·拉克(KevinLacker)向GPT-3提出了一系列事实性问题 , 与它进行问答对话 。 AI有时做得不错 , 有时则不能回答好没有意义的问题 。
例如 , 拉克向GPT-3提供如下的一个问答提示:
文章图片
在前8条问答中 , GPT-3均给出了准确的回答:
文章图片
▲拉克与向GPT-3进行问答对话的示例
示例链接:https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html
但当被问及奇怪的问题:“从夏威夷跳到17需要多少条彩虹?”
GPT-3竟也能胡诌出:“从夏威夷跳到17需要两条彩虹 。 ”
文章图片
最后被问到:“你理解这些问题吗?”
GPT-3“恬不知耻”地回复:“我理解这些问题 。 ”
文章图片
看来论脸皮厚 , AI模型有时能跟人类不相上下 。
其他测试表明 , GPT-3可以通过特定的提示进行训练 , 以避免这些失误 。
因为拥有更多参数、训练数据和学习时间 , 更大的模型可能会做得更好 。 但这将变得越来越昂贵 , 而且不能无限期地持续下去 。
语言模型的不透明复杂性造成了另一个限制 。 如果模型有不必要的偏见或错误想法 , 则很难打开黑盒并修复它 。
未来的一条道路是将语言模型与知识库(陈述性事实的精选数据库)相结合 。
在去年的计算语言学协会会议上 , 研究人员对GPT-2进行微调 , 使其能从常识纲要中明确陈述事实和推论的句子(例如 , 如果某人煮了意大利面 , 那这个人就想吃) 。
结果 , 它写出了更合乎逻辑的短篇小说 。
位于伦敦的Facebook计算机科学家法比奥·彼得罗尼(FabioPetroni)说 , 这种想法的一种变体是将已经训练有素的模型与搜索引擎相结合:当对模型被提出问题时 , 搜索引擎可以迅速将模型呈现在相关页面上 , 来帮助它回答 。
OpenAI正在寻求另一种引导语言模型的方法:微调过程中的人工反馈 。
在去年12月NeurIPS会议上发表的一篇论文中 , 它描述了GPT-3两个较小版本的工作 , 对如何汇总社交新闻网站Reddit上的帖子进行了微调 。
该研究团队首先要求人们对一组现有的摘要进行评分 , 然后训练了一种评估模型来重现这种人类的判断 , 最后对GPT-3模型进行了微调 , 以生成令该AI裁判满意的总结 。
最终 , 另一组独立的人类裁判甚至更喜欢模型的总结 , 而不是人类写的总结 。
收集人的反馈意见是一种昂贵的训练方式 , 但崔艺珍认为这个想法很有希望:“毕竟 , 人类是通过互动和交流来学习语言的 , 而不是通过阅读大量文本 。 ”
结语:我们距离真正的人机交互还有多远?
包括班德在内的一些研究人员认为 , 只要语言模型仅停留在语言领域 , 它们可能永远无法达到人类水平的常识 。
孩子们通过观察、体验和行动来学习 。 语言之所以对我们有意义 , 只是因为我们将其根植于文字之外的东西上 , 人们不会通过对词频的统计来理解一本小说 。
鲍曼预见了3种可能将常识引入语言模型的方法 。
对于一个模型来说 , 使用所有已编写的文本可能就足够了 。 或者可以在YouTube剪辑上训练它 , 这样动态图像就能带来对现实更丰富的了解 。
但这种被动消费可能还不够 。 他说:“非常悲观的观点是 , 我们只有建立一支机器人大军 , 并让它们与世界互动 , 才能实现这一目标 。 ”
大型语言模型显然正成为AI世界的新工具 , 但它们会是通向真正人机交互的正确道路吗?
一切尚且未知 。
【写作神器还是魔鬼化身?万能语言模型GPT-3起底】来源:Nature
- 魔兽怀旧服:选择60还是70版本?策划不解决根本问题,宁愿养老
- 20万的SUV中好车不少,这几台经济省油,还是销量王
- 魅族18上市遭遇差评,是产品不行,还是价格太高?
- 宋慧乔的素颜比化妆耐打!素颜脸还是化妆脸?区别就在这5点
- 梦幻西游:找人抓鬼的两种方式哪个更划算,按小时还是按只数?
- 这是|搞笑GIF: 你这一脚也太狠了吧,你这是救人还是害人?
- 剖腹产需不需要提前住院?还是当天才去?
- 迷你世界五周年庆猜测!会不会是保护麋鹿?还是保护历史文化?
- 搞笑|搞笑GIF趣图:媳妇,煲汤把锅都毁了,以后还是长点心吧!
- 国产MPV终于上了一道硬菜,重达1.9吨,还是2+2+2座椅