基金会|MindSpore: 作为一个开源社区,开放是核心


在开源方面,中国似乎一直在践行“拿来主义”,对开源代码的贡献远远比不上其他国家。
据CodersRank统计,在2012-2019期间,对全世界开源代码贡献最多的城市主要位于美欧地区,旧金山一骑绝尘,名列前10的其他欧美城市还包括纽约、伦敦、柏林、多伦多、西雅图、洛杉矶、巴黎与巴塞尔。此外,亚洲地区的东京与首尔亦榜上有名。
基金会|MindSpore: 作为一个开源社区,开放是核心
文章插图
而中国的表现,则“名落孙山”。换言之,中国在开源方面,相较其他国家而言,仍相对落后。在大多时候,中国的开发者是使用来自美国的开源技术,而不是贡献自己的开源代码。
针对这个问题,我们要如何破解呢?
近日,来自中国科学院大学的包云岗教授针对如何破解中国开源的“拿来主义”,提出中国要加大对开源技术的投入,形成一批由中国发起的有影响力的开源项目,争取到更多话语权。事实上,华为也认识到了这个问题,在Linux上的投入非常大:在Linux Kernel 5.10中,华为的Patch贡献量已经排到全世界第二,仅次于Intel。
据包云岗教授总结,开源主要有两种模式:一种是由非营利组织主导,如Linux基金会、Apache基金会、RISC-V基金会等,商业应用一般需加入基金会,缴纳会员费;另一种是由企业主导,如谷歌 (Andriod, Chromium, TensorFlow)、RedisLab (Redis)、Wave Computing (MIPS)等,商业应用需与主导企业签署协议。
由企业主导的开源,比如谷歌的TensorFlow,只单向开源代码,很少接受社区反馈,本质上是通过开源形成技术垄断。相比之下,由Linux基金会等非盈利机构主导的开源项目则更开放:代码开源、流程开放、管理开放,通过贡献度来决定话语权。
开源对AI技术发展的影响无疑是巨大的。秉承推动中国AI开源发展的原则,LF AI & DATA DAY(AI开源日)于2020年11月7日在深圳市南山区鹏城实验室举行。“AI开源日”是鹏城实验室、LF AI & DATA基金(Linux基金旗下的一个子基金)与OpenI启智社区达成三方合作的里程碑活动。
作为此次活动的联合举办方之一,MindSpore社区以运营负责人黄之鹏为代表,阐述了AI原生编程(AI Native Programming)生态的建设意义,强调了开放治理对开源社区发展的意义。AI科技评论对黄之鹏进行了访谈,就此次合作的背景与意义、以及MindSpore对开源发展的计划展开了讨论。
一、开源初期:机遇与挑战并存
黄之鹏认为,国内AI开源正处于爆发式增长的初期,原因主要有两点:一是更多人了解到开源是什么,并拥抱开源的理念;二是很多公司开始意识到,通过开源协作的方式,很多项目的开发效率会提高,对公司“摊薄”成本也有好处。
近几年,开源技术受到越来越多国内企业的青睐,这与诺贝尔经济学奖科斯的交易成本(Transaction Cost)理论有关。根据该理论,每一笔交易都有成本。对于企业来说,在完成相同功能的情况下,交易成本越低的技术越受欢迎。而开源极大地降低了交易成本。阿里云的前副总裁章文嵩曾提到,阿里使用开源技术来实现“去IOE”,成本只需要原来的1/140。
在初始阶段,国内AI开源发展的机遇与挑战并存。一方面,现在国家非常强调创新,而开源是一项能够促进技术创新的举措,因为开源吸引了大量的开发者,相当于在技术的发展中众筹了更多的智力。而另一方面,国内的开源相关的历史、文化、规则、法律等仍需长足建设。比方说,在代码开放的情况下,如何避免成果剽窃与篡改这一类问题。
针对这一担忧,黄之鹏提到,MindSpore使用的是非常主流的Apache 2.0开源许可证。当开发者在做贡献时,他能够清楚知道他的受让所遵守的约定,给予了什么、保留了什么。如果存在剽窃行为,原作者很容易举证。此外,MindSpore强调开放治理,即一个人作出贡献后,所有人都会知道并认可他的贡献。借助于业界最主流的Git代码管理机制,即使是简单的合入补丁,文件也会标注作者的名字。
此外,社区如何吸引更多开发者参与开源呢?MindSpore建立开发者成长体系,设立相应的奖励机制:
1)普通开发者:零门槛参加社区活动,可以加入微信群提问任何问题,无论多么小白。
2)优秀开发者:通过答辩选取。每个竞选者通过分享自己的故事,以及使用MindSpore进行的技术突破与创新,基于个人的开源成就而当选。
3)布道师:要求在一定规模的会议上分享过MindSpore的议题,提交过特性补丁并被接纳。黄之鹏介绍道,“深度学习的门槛比较高,如果你有特性补丁被SIG的Approver团队核录的话,意味着你对深度学习框架的理解已经非常深。”