评委|谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆( 二 )
外行看热闹,内行看门道,这么头疼的问题就应该交给专业人士。
文章插图
论文的研究人员先在文中铺垫了大量的背景知识,向读者展现了通用人工智能和基准测试的相关研究,并分析了ML的基准测试何时开始作为评估范围狭窄的任务性能的标准化方法。最后,结论就水到渠成了:通用语言理解和通用对象识别的基准本质上是有缺陷的,因为它们应用于狭窄的范围。
文章插图
最后,这位评委真诚地希望计算机视觉和NLP社区能认真对待这篇论文,因为他认为该论文对在这两个领域取得更有意义的进展做出了宝贵的贡献,而不仅仅是追求最先进的技术。
但美中不足的是,既然发现了ImageNet基准存在局限性,那有什么办法可以减少对这些通用标准的过度依赖?看来论文的研究人员也还没找到这个问题的答案。
文章插图
而第二位评委对这篇论文的评价是:通用人工智能基准的谬论(The Fallacy of Benchmarks for General Artificial Intelligence )。因为这篇论文的受众主要是AI领域的研究人员,所以作者在前文回顾了通用AI的相关基准,一下拉近了与读者的距离。此外,引用Grover的故事也使得该论文有趣易懂。
文章插图
即使这篇论文的开头存在表述问题,未能无缝衔接主题,但瑕不掩瑜,评委二号高度赞扬了这篇论文为ML领域的研究指明了方向。
文章插图
接着,评委三号也带着他的观点款款走来:好论文!但改一下结构就更好了(Well argued paper, with some reorganization suggested)。这位评委指出,这篇论文最大的亮点是观点独特且论据充足。但也发出了和第一位评委相同的疑惑:所以,有什么解决方案可以减少对通用标准的过度依赖?
文章插图
不同于前三位评委的「慷慨」,第四位评委只给出了5分的评价,认为这篇论文只是:当前基准测试的简史(History of the benchmarks we use today)。从这个评语不难看出,这位评委觉得这篇论文列举了很多基准测试且强调了它们的局限性,但作者团队并没有采取任何立场。
文章插图
最后,评委五号不见其人,先闻其声:很棒!但还有上升空间(Great, but improvements needed)。第五位评委认为这篇论文在梳理和总结相关工作的方面做得非常好,同时有大量的研究支撑文中的论点,希望这篇论文能引起相关领域研究人员的重视。
文章插图
正因为对这篇论文寄予了极高的期望,因此评委只给出了6分的评价,同时罗列了非常详细的修改建议,希望论文的作者能加以改进。
Reddit上关于这篇文章的讨论热度也不小,我们来看看神通广大的网友怎么说。
文章插图
某位网友一针见血地指出,虽然ImageNet等基准测试像「有限的博物馆」一样存在不足,但却是目前我们训练模型最有力的工具。
文章插图
确实,就像上述评委提到的,ImageNet是有局限性,但是否有更好的解决方案?因此,有热心网友为论文的作者修改了摘要:没有任何数据集能够捕捉所有细节的全部复杂性,就像没有博物馆可以包含整个世界中所有的事物一样。
- 中宣部版权管理局|中宣部版权局:全国首例制售盗版冰墩墩等玩偶被判一年
- 游戏手机|6000mAh国产旗舰松动,16+256G迎来新低价,没白等
- 安卓|谷歌发布Android 13开发者预览版,首批适配多款谷歌手机
- 小钢炮|等等党再坚持一下:RTX40显卡10月上市,但价格要涨一波
- asml|动作接二连三,ASML就EUV光刻机等不及了
- 小米科技|小米10到底要不要尝鲜MIUI13?看了用户更新体验后,建议等等
- 高通骁龙|年后哪款新品值得等?2022春季即将发布的新手机盘点
- 苹果|苹果又被告了!iPhone和iPad等涉嫌侵犯专利,动画又要被砍?
- 显示器|聊聊2022年高端显示器:技术更新乱局将起,等等党一定胜利
- OPPO Find|红米K50电竞版、OPPO Find X5、努比亚红魔7蓄势待发,谁更值得等