中国|中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律( 六 )


中国|中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律
文章插图
(b) 提出有效数据集排名前 10 的出版地点的有效数据集提出率。
Figure 7:提出有效 AI 标记排名前 10 的出版地点的有效 AI 标记提出率。出版地点提出的 AI 标记的数量从上到下递减。
由图 7a 我们可以看出, ECCV 虽然是 CCF 的 B 类会议,但是其有效方法提出率要高于 CVPR。在提出有效方法的数量排名前十的出版地点中,有 7 个都是 A 类的出版地点,这说明 A 类出版地点中的论文质量确实要比 B 和 C 类的高。
图 7b 展示了有效数据集的分布情况。我们可以看出,CVPR 提出更有效数据集的数量和提出率都排名第一。ECCV 虽然是 B 类会议,但是提出有效数据集的数量和提出率仅次于 CVPR。在提出有效数据集的数量排名前十的出版地点中,有 6 个是 A 类的出版地点,也反映出 A 类出版地点确实更关注有效数据集的提出。
4.1.3 每年使用排名数量前十的有效 AI 标记
本节分别对 2005-2019 年间每年使用的有效方法和有效数据集的数量进行了统计分析。
(1) 每年使用数量排名前 10 的有效方法
我们对 2005-2019 年间每年使用的有效方法数量进行了统计,每年排名前十的有效方法如图 8 所示。
中国|中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律
文章插图
Figure 8:每年使用数量排名前十的有效方法
由图 8 可以看出,SVM 作为一种传统的机器学习方法,每年都被广泛使用。LDA 作为用于文本挖掘的经典的主题模型,在 2005-2015 年间一直被广泛应用。但是随着深度学习的快速发展,在 2015 年以后,其使用占比明显下降。2015 年以后,深度学习越来越流行,深度学习方法成为 AI 领域的主流。
计算机视觉和自然语言处理是 AI 研究中的两个重要研究学科。由图 8 可知,计算机视觉中的方法始终占据很大的比例,这表明计算机视觉一直是 AI 的热门研究分支。
(2) 每年使用数量排名前 10 的有效数据集
我们对每年使用的有效数据集的数量进行了统计,每年排名前十的有效数据集如图 9 所示。
中国|中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律
文章插图
Figure 9:每年使用数量排名前十的有效数据集
由图 9 可知,MNIST 作为最经典的数据集之一,每年都被普遍使用。2016 年,SemEval 数据集进入了排名前十的行列,而 SemEval 数据集是情感分析常用数据集。由此可看出,2016 年,情感分析受到了广泛关注。2017 年,KITTI 数据集进入了排名前十的行列,而 KITTI 数据集是无人驾驶领域经典数据集,说明 2017 年无人驾驶领域受到了广泛关注,并且在 2017-2019 年期间,KITTI 数据集在每年前十数据集中的占比逐渐提高。此外,由该图我们还可以看出,一般数据集在发布后,至少需要两年时间才会得到认可和在相应领域的广泛使用。比如 PASCAL VOC 数据集 2007 年发布,2009 年被广泛使用;Weizmann 数据集 2006 年发布,2010 年被广泛使用;COCO 数据集 2014 年发布,2016 年得到广泛使用。
人脸识别是计算机视觉领域中比较热门的研究方向。我们对每年排名前 10 的有效数据集中人脸识别数据集的占比情况进行了统计,如表 5 所示。
中国|中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律
文章插图
Table 5:每年排名前 10 的有效数据集中人脸识别数据集的占比
表 5 显示,2005-2019 年人脸识别的常用数据集有 Caltech、Yale、CMU PIE、CelebA。Caltech 在每年排名前十的有效数据集中均出现且占比都较高。Yale 出现的年份也很多,但是在 CelebA 数据集出现后,其地位就被 CelebA 替代。
4.2 有效方法的传播
本节对有效方法在数据集上的传播和在国家之间的传播分别进行了分析 。
4.2.1 在数据集上的传播
我们对 2005 年到 2019 年每年由 CCF corpus 中的文献提出的有效方法在数据集上的传播情况进行了分析。y 年提出的有效方法于 y 到 y+△y 时间区间内在数据集上的传播率计算公式如下:
中国|中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律
文章插图
其中,M_y 表示所有在 y 年被提出的方法,表示在 y 到 y+△y 时间区间内被应用在方法 m 上的数据集集合,。
基于公式 8,我们得到每年由 CCF corpus 提出的有效方法一年内、两年内、三年内在数据集上的传播率,如图 10 所示。
中国|中国提出的AI方法影响越来越大,天大等从大量文献中挖掘AI发展规律
文章插图
Figure 10:有效方法在数据集上的传播率
由图 10 可知,随着时间的发展,有效方法在数据集上的传播率呈逐渐上升的趋势,各种知名方法在文献未正式发表以前就通过类似 arxiv 的渠道为人们熟知。