评委|谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆( 二 )

外行看热闹，内行看门道，这么头疼的问题就应该交给专业人士。

OpenReview官方怎么评

迎面向我们走来的是第一位评委，该评委发出了“反对CV和NLP的“通用”基准中令人信服的观点！（A compelling argument against "general" monolithic benchmarks in vision and NLP）”的赞叹，因为他觉得这篇论文史料详实，观点明确，分析到位，着实令人信服。

评委|谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

文章插图

论文的研究人员先在文中铺垫了大量的背景知识，向读者展现了通用人工智能和基准测试的相关研究，并分析了ML的基准测试何时开始作为评估范围狭窄的任务性能的标准化方法。最后，结论就水到渠成了：通用语言理解和通用对象识别的基准本质上是有缺陷的，因为它们应用于狭窄的范围。

文章插图

最后，这位评委真诚地希望计算机视觉和NLP社区能认真对待这篇论文，因为他认为该论文对在这两个领域取得更有意义的进展做出了宝贵的贡献，而不仅仅是追求最先进的技术。
但美中不足的是，既然发现了ImageNet基准存在局限性，那有什么办法可以减少对这些通用标准的过度依赖？看来论文的研究人员也还没找到这个问题的答案。

文章插图

而第二位评委对这篇论文的评价是：通用人工智能基准的谬论（The Fallacy of Benchmarks for General Artificial Intelligence ）。因为这篇论文的受众主要是AI领域的研究人员，所以作者在前文回顾了通用AI的相关基准，一下拉近了与读者的距离。此外，引用Grover的故事也使得该论文有趣易懂。

文章插图

即使这篇论文的开头存在表述问题，未能无缝衔接主题，但瑕不掩瑜，评委二号高度赞扬了这篇论文为ML领域的研究指明了方向。

文章插图

接着，评委三号也带着他的观点款款走来：好论文！但改一下结构就更好了（Well argued paper, with some reorganization suggested）。这位评委指出，这篇论文最大的亮点是观点独特且论据充足。但也发出了和第一位评委相同的疑惑：所以，有什么解决方案可以减少对通用标准的过度依赖？

文章插图

不同于前三位评委的「慷慨」，第四位评委只给出了5分的评价，认为这篇论文只是：当前基准测试的简史（History of the benchmarks we use today）。从这个评语不难看出，这位评委觉得这篇论文列举了很多基准测试且强调了它们的局限性，但作者团队并没有采取任何立场。

文章插图

最后，评委五号不见其人，先闻其声：很棒！但还有上升空间（Great, but improvements needed）。第五位评委认为这篇论文在梳理和总结相关工作的方面做得非常好，同时有大量的研究支撑文中的论点，希望这篇论文能引起相关领域研究人员的重视。

文章插图

正因为对这篇论文寄予了极高的期望，因此评委只给出了6分的评价，同时罗列了非常详细的修改建议，希望论文的作者能加以改进。

Reddit网友怎么说

看完五大评审的官方评论，总结起来基本就是：论文不错，观点新颖，论据充分，要是能提出解决方案就更好了。此外，有三位评委都不约而同地希望这篇论文能引起相关领域的重视。
Reddit上关于这篇文章的讨论热度也不小，我们来看看神通广大的网友怎么说。

文章插图

某位网友一针见血地指出，虽然ImageNet等基准测试像「有限的博物馆」一样存在不足，但却是目前我们训练模型最有力的工具。

文章插图

确实，就像上述评委提到的，ImageNet是有局限性，但是否有更好的解决方案？因此，有热心网友为论文的作者修改了摘要：没有任何数据集能够捕捉所有细节的全部复杂性，就像没有博物馆可以包含整个世界中所有的事物一样。