评委|谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

文章插图

作者 | 杏花

编辑 | 青暮

在日常生活中，我们需要一些「标准」来衡量个人的行为。
而在科研工作中，研究人员也需要一些「基准」来评估模型的性能。
因此，不管是普遍的「标准」还是特定的「基准」，它们都有一定的参考意义。
然而，如果有一天我们发现这些「参照物」与实际生活渐行渐远时，它们该往何处去？
近日，由加州大学伯克利分校、华盛顿大学和谷歌研究院合著的论文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基准定义的模糊任务在促进智能理解上的局限性，就像用有限的博物馆来代表整个世界一样。

文章插图

论文地址：https://openreview.net/pdf?id=j6NxpQbREA1
在这篇论文中，研究人员阐述了机器学习（ML）对通用任务框架（CTF）的过度依赖，因为这个框架不恰当地演变成我们今天所理解的这些声称评估「通用能力」的基准。值得注意的是，研究团队并不否认这些基准的实用性，而是希望指出将其作为框架存在的固有缺陷。

展示「整个世界」的博物馆 VS ImageNet

这篇论文最能引起共鸣的一点就是用故事书作为引子，且将情节贯穿全文，使得论文的研究内容更为直白易懂。
这本书就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》，书中的主人公Grover参观了一家声称展示「整个世界」的博物馆。
该博物馆的每个展厅都陈列着不同类别的东西，有些类别是随意和主观的，比如「你在墙上看到的东西（ Things You Find On a Wall ）」和「房间里能让你挠痒痒的东西（ The Things that Can Tickle You Room ）」；有些类别则非常具体的，例如「胡萝卜屋（ The Carrot Room ）」，而另一些则含糊不清，如「高大的厅堂（ The Tall Hall ）」。

文章插图

当Grover认为自己已经参观完博物馆的一切时，他来到写着「其他东西（Everything Else）」的大门前。打开门后，却发现自己置身于外面的世界。
作为儿童故事，Grover的经历是荒诞的。然而，在实际的研究中，例如人工智能尤其是ML领域，也存在类似的固有错误逻辑，其中许多流行的基准依赖于固有的错误假设。
这篇论文的研究人员认为，在诸如「视觉理解」或「语言理解」之类的模糊任务中，作为衡量一般能力进展的基准，与有限的博物馆在代表「整个世界的一切」方面一样无效，且这两个谬论的原因是相似的，即本质上是基于特定的、有限的且局限于上下文的环境。
GLUE或ImageNet之类的基准测试常常被提议为验证任何给定模型性能的基本通用任务的定义。其结果是，通过这些基准数据集证明合理的结论往往远远超越了它们最初设计的任务，甚至超出了最初的开发目标。
尽管作为迈向「通用目标」的标志，这些基准存在明显的局限性。事实上，这些基准的开发、使用和采用表明了一个结构有效性的问题，其中涉及的基准——由于它们在特定数据、度量和实践中的实例化——不可能捕获任何具有代表性的关于它们的普遍适用性的结论。
论文的作者们认为测量通用能力的目标（即通用对象识别、通用语言理解或领域独立推理等目标）不能充分体现在数据定义的基准中。研究人员注意到，当前的趋势不恰当地扩展了CTF范式，以将其应用于与现实世界目标或背景不同的抽象表现任务。
从历史上看，CTF的开发正是为了引入实用导向和严格范围的人工智能任务，即自动语音识别（ASR）或机器翻译（MT），其中所需的验证是基准是否准确地反映了计算机在现实环境中所要求的实际任务。这一波定义不明确的「通用」目标则完全颠覆了其引入的意图。
与其把Grover的经历当成儿童故事来看，倒不如说这是一则深刻的寓言故事。当Grover打开「其他东西」的大门时，却发现自己置身于博物馆外的大千世界。故事的结尾或许已经预示了这个研究的结论，ImageNet之类的基准定义必然不能代表适应所有现实世界模糊任务的「通用目标」。

文章插图

因此，这篇论文确实有许多值得讨论和深思的地方。ImageNet存在不足，那其他基准定义就是完美无缺的吗？除了ImageNet，目前在通用对象识别上还有更好的参照基准吗？该如何看待以及解决基准定义越来越「不基准」这个问题？