InfoQGPT-3,价值460万美元的语言模型( 二 )


问:法国的首都是哪里?
答:
现在则给出多个提示:
问:法国的首都是什么?
答:巴黎
问:西班牙的首都是什么?
答:马德里
问:立陶宛的首都是什么?
答:维尔纽斯
问:巴西的首都是什么?
答:
对 NLP 社区来说 , "GPT-3" 中值得关注的一点是 , 语言模型在标准测试集上的表现可以比我们想的要强很多 , 途径就是这种多提示方法和更大的参数量 。 将这两种方式结合起来后 , 你甚至可以在一部分任务中获得最顶尖的成绩 。
我觉得有些人会认为这是很重要的 , 他们会觉得这表明 transformer 语言模型具备像人类那样 , 只需很少的数据就 " 迅速抓住重点 " 的能力 。 这和 Gary Marcus 的某些看法也有关系 。
但在 " 直接学习(learning on-the-fly)" 这个层面 , 这篇论文似乎完全没兴趣可言 , 这很古怪 。 论文中有一大堆图表 , 展示的都是各种参数条件下的性能表现 , 总之就是为了说明越大越好 。 但是我只找到了一个图表展示的是和参数 K 相关的性能表现 , K 就是提示中不同任务示例的数量 。
而且这张图展示的数据并没那么好看:
InfoQGPT-3,价值460万美元的语言模型
本文插图
一个任务示例的表现要好于零个示例(GPT-2 论文就是零) , 但示例数量继续增长下去就没什么效果了;显然这里 " 越大越好 " 的理论没怎么生效 。
奇怪的是 , 这张图的标题说明了这些是开发数据集的结果 , 因此不能直接与水平线给出的测试集结果对比——可他们还是这么画了!他们的确在其他地方报告了 SuperGLUE 的测试集结果 , 但是只适用于 K=32 。 此外 , 这张图缺少误差线也是个问题 。
1.3:基准测试
他们在这篇论文中谈的全是如何在测试集的某些指标上取得出色的成绩 。
所以我说它就是为了讨好 NLP 社区:整个社区都用这些指标衡量自己的水平 , 因此理所当然地 , 社区“必须”重视这些结果 。 可是到这一步 , 这就有点像古德哈特定律的样子了(为刷分而刷分) 。
GPT-2 并不是因为在这些任务上表现出色才脱颖而出的 。 它之所以有那么高的地位 , 是因为它是一个非常好的语言模型 , 展示了一种对语言的全新理解方式 。 它在标准测试中做的好不好对我来说没那么重要 , 强调这一点就好像是习惯用右手的人只用左手画了一幅画(还画得不怎么样) , 以此来证明他多有艺术天赋一样 。
GPT-2 的优秀之处并不在于它擅长“回答问题” , 而在于它擅长所有任务 , 因此只盯着 " 回答问题 " 就显得目光很短浅了 。
GPT-2 为 transformer 带来的进步太大了 , 所以社区甚至创建了一个新的基准测试“SuperGLUE” , 因为以前的黄金标准(GLUE)现在显得太简单了 。
GPT-3 实在没什么进步 , 甚至在 SuperGLUE 上表现都不怎么样 。 它也就相当于把人的右手绑背后还能勉强画一幅画的水平 。
可能有人会说 , 10 岁的数学神童并没有证明什么新定理 , 但是他用 10 分钟就能在高考数学卷上拿到不错的成绩 , 这难道不算是突破性的进步吗?
也许是吧?有那么一点?
1.4:烦恼
我思考这篇论文思考得越多 , 它就越让我心烦意乱 。 本来 transformer 是非常有趣的事物 。 可是在 2020 年 , 这可能是关于 transformer 最无趣的论文了 。
第二部分
2.1:再谈“小样本学习”
初读时 , 我以为论文中只有一个图展示了性能随 K(小样本数量)变化的情况 , 但我没注意论文第 4 页的图 1.2 。
这张图比前文提到的那张给的数据要好些 , 但并不足以改变我的看法 , 那就是作者并没有多大兴趣来展示在文本走向上的 " 渐进式学习 " 。
他们试图用图 1.2 证明的论点是 , 更大的模型会带来更多的渐进式学习 , 因此 , 他们的整体策略——“使用大模型 + 小样本学习以提升基准测试表现”——是让两个部分(大型模型 , 少量学习)产生一加一大于二的效果 。