『量子位』“我为什么反对AI论文强制开源代码”
晓查发自凹非寺
量子位报道|公众号QbitAI
AI论文 , 到底该不该强制开源代码?
NeurIPS2020官方近日发布了一份开源指南 。 从2019开始 , NeurIPS就“强烈建议”提交论文代码 , 不过仍非强制 。
但无论如何 , 官方传达出了一种信号:AI学术顶会开源代码已是行业趋势 。
NeurIPS此举也引发了一场“年经”式的讨论:如果将来学术会议要求必须开源 , 投稿人应该拒绝吗?
而让人始料未及的是 , 不少网友认为:不开源 , 我有理 。
文章图片
反对一:代码并没有那么重要
首先 , 开源代码的目的是什么?是为了让其他研究者可以复现结果 。
如果一篇论文包含足够多的细节 , 那么别人就可以根据其中的公式自己写出代码 , 对于这类论文 , 可以不公开代码 。 不过前提必须是提供足够多的细节 。
比如谷歌的AlphaGo就没有开源代码 , 但是没有人怀疑它的正确性 , 事实上也有很多人根据谷歌论文复现了AlphaGo 。
文章图片
而且作者本人的代码可能会出现错误 , 不开源的一个好处就是让其他研究者独立复现 。
万一作者在代码里挖了个不明显的“坑” , 其他人也可以规避 , 防止被带到沟里 。
另外 , 也不要高估代码的价值 , 经典论文可以几十年长盛不衰 , 但是代码很可能十年后就难以运行了 。
当然 , 还有一种观点就是 , 对于AI来说 , 数据集更重要 。 没有数据的代码是没有价值的 , 而很多数据集没法开放 , 这意味着你即使拿到代码 , 也无法复现SOTA结果 。
反对二:要为作者考虑
不开源同时也是为了照顾作者的种种特殊情况 。
比如一些研究者是从事纯理论的研究 。 有一个网友就说 , 他甚至都不知道怎么构建Docker容器 , 虽然发表了多篇论文都在GitHub上开源了代码 , 但它从来不维护 。
文章图片
所以 , 论文是否开源应该根据代码对于文章的重要性而定 , 不该一刀切 。
还有一些商业公司的研究者 , 他们在写论文的时候用到了公司内部专有软件库 , 如果强制开源 , 他们必须从头再写一遍代码 , 费时费力 , 对这些人也是不公平的 。
【『量子位』“我为什么反对AI论文强制开源代码”】还有一些作者 , 本身并不是不想开源 , 而是希望能够将成果保护一段时间 , 在论文发布几个月后再开源代码 , 这对于从事医疗、法律领域的学者很重要 。
综上所述 , 反方网友认为 , 强制开源过于极端 , 应该对论文开源持鼓励态度 , 而不是强制 。
支持开源:不开源怎能让人信服
首先是一名从事石油行业的网友说 , 他们行业的数据都是商业机密 , 所以不会发布任何数据和代码 , 甚至会在文章中丢掉一些公式来隐藏成果 , 还声称98%的正确率 。 结果怎能让人信服 。
他认为不公开数据和代码 , 就像把一篇论文中所有的关键要素都删了 , 这样的研究即使发表出来也毫无价值 。
还有一些人认为 , 强制开源会改变其他行业对机器学习的偏见 。
很多其他学科的人都把机器学习看成伪科学 , 这是为什么?因为AI领域的论文发布过程非常不成熟 。
科学方法的关键是一致性和可重复性 。 追逐单一的指标 , 每个人都对SOTA着迷 , 这是一个巨大的问题 。
而开源是解决此问题的一种方法 。
去年 , AI知名女学者AnimaAnandkumar曾在个人博客里公开喊话 , 强烈
- 『软件』明知有的副业是骗人的,为什么还是有很多人去做呢?
- 火星:明明距离地球最近的行星是金星,为什么全世界却都赶着去探测火星?
- 5g手机@5G手机出来许久,为什么大家都不买?这4个原因足以说明!
- 「」9个出人意料的事物,能让你,变成十万个为什么!
- 高通骁龙▲为什么懂手机的人建议选择麒麟820手机,而不是骁龙765G?
- 「5g手机」5G手机卖得很火,为什么大家买了5G手机还在用4G网?原因很无奈!
- 短视频▲王哥自媒体:短视频自媒体为什么你做赚不到收益,一定有这三个问题存在
- [月球]古人把月球称为广寒宫,为什么在古代,他们就知道月球很冷?
- [华为]智商税?为什么华为9元取卡针好评率达99%,苹果液态金属针受捧?
- 黑寡妇蜘蛛▲母螳螂吃公螳螂时,公螳螂为什么不逃跑?不是不想跑是根本跑不掉