【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

2017 年 11 月 8 日,在北京国家会议中心举办的 AI WORLD 2017 世界人工智能大会开放售票!早鸟票 5 折 抢票最后两天。还记得去年一票难求的AI WORLD 2016盛况吗?今年,我们邀请了冷扑大师”之父 Tuomas 亲临现场,且谷歌、微软、亚马逊、BAT、讯飞、京东和华为等企业重量级嘉宾均已确认出席。

关于大会,请关注新智元微信公众号或访问活动行页面:http://www.huodongxing.com/event/2405852054900?td=4231978320026了解更多

1新智元推荐  

来源:机器人圈

原文来源:Kakao AI Report

编译:嗯~阿童木呀,多啦A亮

【新智元导读】为了研究AI研究领域的最新趋势,Kakao AI 研究小组对2005年至2016年期间ICML和NIPS发表的6163篇科学论文进行了分析,从累积引用,作者合作网络以及论文关键词等多个角度分析了AI和机器学习的趋势和变化。

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

最近,有关人工智能(AI)的研究在各个领域都取得了显著的成果。这主要归功于长期以来一直致力于这个研究领域的AI研究人员的努力。如果根据引用次数、参与人数、接受论文数量和历史记录来看的话,关于AI的最重要的学术会议就是ICML(International Conference on Machine Learning)和NIPS(Neural Information Processing Systems)。相较于ICML的重点是机器学习,NIPS涵盖的课题领域就较为广泛了,包括认知科学和应用机器学习。在37年前的1980年,ICML举行了第一次学术会议,并于今年8月在澳大利亚悉尼举行了第34次会议。NIPS成立于1987年,并计划于2017年12月在加利福尼亚举行第30届会议。

为了研究AI研究领域的最新趋势,研究小组对2005年至2016年期间ICML和NIPS发表的6163篇科学论文进行了分析,从各种角度,如累积引用,作者的合作网络,以及论文中关键字的变化,分析了最近的趋势和变化。

过去12年顶会接收论文数量变化

 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

ICML在过去12年接受的论文数量的变化

从2005年到2016年,ICML总共接受了2315份论文。2016年接受的论文数量为322篇,比11年前的134篇论文翻了一倍还多。

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

NIPS在过去12年接受的论文数量的变化

而至于NIPS,接受的论文数量从2005年的207份增加到2016年的568份,增加了一倍多。

研究团队可以证实,对于ICML和NIPS来说,2012年接受的论文数量与2011年相比都有显著上升。这是2012年人工智能研究历史上的一个重要事件。2012年,Geoffrey E.Hinton教授和他的团队(多伦多大学)在Imagenet大型视觉识别大赛(ILSVRC)中使用深度神经网络展示了一个很好的成果。

ICML+NIPS,谁是机器学习领域被引用最高的作者?

 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

在过去的12年里,ICML中被引用次数最高的前20名作者

 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

在过去的12年里,NIPS中被引用次数最高的前20名作者

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

 在过去的12年里,ICML和NIPS中累计被引用次数最高的前20名作者

以下图表显示了(分别为NIPS和ICML)中接受论文和被引用总数最高的前30名作者。 (下载原始文件)(http://github.com/giallo41/Data_Science/blob/master/Conf/data/ALL_most_cited_author_Graph.xlsx)

 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

以下图表表示的是年度引用次数最多的15名作者:

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

在被引用最多的15名作者中,每年被引用次数的变化

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

 在被引用最多的15名作者中,年度论文的变化

该研究小组调查了在ICM和NIPS中排名前15位的作者的12年变化趋势。之所以选择15个作者的原因是,这个数字可以通过数据可视化显示出最有效的趋势。上面的图表显示了这15位作者的累计引用次数和被接受的论文数量。他们表示,那些在接受论文数量上逐渐变化的作者,每年也会不断地发表论文。在GitHub上可以找到完整的ICML和累计引用的列表。

下表列出了以上图表中15位作者所发表的论文中引用最多的论文。(下载原始文件)(http://github.com/giallo41/Data_Science/blob/master/Conf/data/Top15_most_cited_papers.xlsx)

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

大多数引用的文章由这15位作者撰写

作者合作关系网络

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

具有较高引用率的作者合作网络

上图显示了ICML和NIPS接受的论文中被引用最多的作者的协作网络。粗体线意味着他们经常作为合作者出版。为了更好地进行分析,研究团队创建了由15位被引用次数最多的作者发表论文的共同作者的关系网络图。分析中使用的数据可以在GitHub中找到。 (下载原始图片)(http://github.com/giallo41/Data_Science/blob/master/Conf/author_network.png)

最常用于标题的关键词

为了间接地展示出过去12年里人工智能领域的研究课题的变化,研究团队分析了论文标题中的关键字的变化。首先,团队在过去的12年中,用了词“云”来了解趋势变化的大致情况。过去12年在ICML和NIPS中使用频率最高的两个关键字是“学习”和“模型”。由于这两个词是目标研究期间在论文标题中出现的频率最高,所以团队认为,除了这两个词之外的其他关键字将显示AI研究的趋势变化。选定的基础年份是2006年,2011年和2016年。选择5年的时间间隔能够更为清楚地研究变化。

出现在ICML接受的论文标题中的关键词(更大的词意味着它们更常用于标题中。)

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

ICML 2006

 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

ICML 2011

  

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

ICML 2016

 

对于ICML收录的论文,2006年论文题目中最常使用的关键词是“贝叶斯”、“核”和“分类”。 但是,2016年收录的论文则频繁出现“网络”、“算法”、“优化”,“深度”等关键词。

 

NIPS收录的论文标题中出现的关键字(越大的词意味着它们更常在标题中出现)。

 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

NIPS 2006

 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

NIPS 2011

  

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

NIPS 2016

 

对于NIPS收录的论文,2006年论文题目中最常使用的关键词是“贝叶斯”、“核”、“分类”和“聚类”,与ICML收录的论文中出现的相似。相比之下,“深度”、“自然”、“网络”和“随机”等词在2016年被NIPS收录的论文中出现最为频繁。对这些关键词的考察,我们了解了过去10年研究主题的变化。

 

为了了解过去10年人工智能研究课题的变化,对频繁出现的标题关键词进行了分析。

  

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

ICML录用论文中的标题关键词比较:2006年和2016年

  

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

NIPS录用论文中的标题关键词比较:2006年和2016年

 

虽然关键字“深度”在ICML中没有出现,但在2006年的NIPS中只出现一次,但在2016年随着“网络”一词成为最显著的关键字,在ICML中出现了22次,在NIPS中出现了43次。

 

年度文章标题的主要关键词的出现次数比较:

 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

年度ICML论文中主要关键词出现次数的变化

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

年度NIPS论文中主要关键词的出现次数的变化

 

AI领域研究人员关系网络

AI研究网络的主要broker是Michael I. Jordan。

研究团队还根据NIPS和ICML的录用论文,对研究人员网络进行了研究。特别注意网络中研究人员的身份。所选择的基本指标是度中心性(degree centrality),其通过对每个实体对网络中的其他实体的直接链接的数量进行计数来衡量实体的连接度,以及中介中心性(Betweenness Centrality),指的是作为连接网络中的其他实体的broker的能力。为了将这两个概念应用于研究网络,度中心性意味着研究人员之间的直接联系的程度,而中介中心性意味着研究人员之间broker的能力。对于构成网络结构的研究人员数量,NIPS为5878人,ICML为3949人。基于网络分析的结果,以度中心性和中介中心性排名前20位的研究人员如下所示。图中的索引是使用顶部数字的绝对值作为分母的标准化值,这使得相对比较更容易。

 

对于NIPS来说,加州大学伯克利分校教授Michael I. Jordan在度中心性和中介中心性领域排名第一。Jordan也是吴恩达的指导教授,他被称为四大AI大神之一。在ICML中介中心性领域Jordan排名第一。这意味着Michael I. Jordan是AI研究网络的灵魂人物。换句话说,他是连接两个研讨会研究网络研究人员的关键实体。通常,broker对网络内的通信进行控制,网络的成员依赖于broker。网络分析表明Michael I. Jordan一直是人工智能研究的中心人物。

 

除了Jordan,所谓的AI大神,如Jordan的学生吴达恩,Geoffrey E. Hinton和Yoshua Bengio也占据了网络排名的顶层。在韩国,密歇根大学计算机科学与工程系教授Honglak Lee在ICML排名第十九位,他是在吴恩达的指导下完成博士论文的。

 

处于中心的Michael I. Jordan的AI研究人员网络如下所示。

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

ICML作者网络关系分析

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20

NIPS作者网络关系分析

研究方法说明

1.数据收集

ICML会议:http://www.machinelearning.org/icml.html

NIPS 进程:http://papers.nips.cc/

2005年至2016年期间录用的论文被使用情况。

 

2.抽样

使用了2005年至2016年间在ICML录用的2315篇论文和NIPS录用的3848篇论文。

 

3.论文引文

使用网站http://scholar.google.co.kr检查文章标题的引用。随着新论文的录用,现有论文的引用次数逐渐增加。为分析目的,引用次数为4月21日的数量为基础。

 

4.分析方法

http://github.com/giallo41/Data_Science/tree/master/Conf

研究团队收集的数据文件和用于分析的Python源代码可以在这里找到。

 

? ICML和NIPS论文题目、作者以及过去12年每篇论文的引用次数以Excel格式统计,并使用Python的Pandas DataFrame进行分析。

 

?添加了每个作者过去12年的累计引用次数,并且使用dataframe.sort()方法选择了大多数引用的作者。

 

?对于论文标题分析,标题中的单词被分隔并转换为小写。那么这样的话,就像‘:’, ‘?’, ‘for’, ‘a’, ‘an’ ,’in’, ‘of’, ‘with’, ‘and’, ‘the’, ‘to’, ‘on’, ‘from’, ‘by’, ‘using’, ‘very’, ‘via’, ‘it’, ‘that’, ‘as’, ‘,’ ,’which’, ‘-’, ‘through’, ‘without’, ‘while’, ‘is’, ‘than’, ‘where’, ‘much’, ‘many’, ‘or’ 和 ‘so’被丢弃。

 

? 由Python提供的单词云包用于词云分析,其描述了每个关键字在相对字体大小方面的发生频率。

 

5.网络分析的概念和方法

(1)概念

有时研究人员独立主导完成研究,有时与其他人合作进行研究。我们假设有研究员A,研究A可以参与研究(a),也参与研究(b)。在这种情况下,研究人员A可以作为两个研究之间的桥梁。正如我们从这个例子中所看到的,中间人有可能在一个网络中连接不同的信息或知识。在许多对网络结构感兴趣的领域,包括组织社会学,(可能)担任中间人角色的实体对已经使用“中介中心性(betweenness centrality)”的概念进行了研究。该方法也适用于本文。此外,考察实体之间的联系程度的度中心性(Degree Centrality)也被用作测量指标。度中心性确定一个实体对与其相关的其他实体的影响程度。

(2)方法

在2005—2016年期间NIPS和ICML录用的论文作者做出总结。ICML的研究人员为3949人,NIPS为5878人。作者的列表被排序成行和列,产生一个方形矩阵。 ICML是一个3949×3949矩阵,NIPS是一个5878×5878矩阵。我们计算了每位研究人员与其他研究人员一起写论文的次数。如果A和B一起写了四篇论文,那么A列B列中的值为4。这个矩阵是使用UCINET 6.0进行分析的,这是一个网络分析工具。从分析结果中,我们分别提取了分别为度中心性和中介中间性前20名。

(本文授权转载自机器人圈,原来源 Kakao AI Report,编译 嗯~阿童木,多啦A亮)

【扫一扫抢购“早鸟票”】

AI WORLD 2017 世界人工智能大会购票二维码: 

【ICML+NIPS过去12年数据】机器学习被引次数最高作者Top 20