【AI学霸榜】世界名校十大学霸获200万奖金，NLP、CV等四大领域学本文将详细呈现学霸们的求学经历和感悟

新智元原创

作者：弗朗西斯

【新智元导读】2018年1月22日，10位来自世界名校的候选人获得2017年度百度200万人民币奖学金，这10位“未来之星”主要专注计算机视觉、自然语言处理、机器学习、数据挖掘四大领域。新智元第一时间与获奖同学取得联系，本文将详细呈现学霸们的求学经历和感悟，并独家分享他们和自己的学术大牛导师的相处轶事。

1月22日，2017年度百度奖学金颁奖典礼在百度科技园举行，10位来自世界名校的候选人平分200万人民币奖金。

经过从初选到答辩的层层选拔，来自清华大学的王奕森和林衍凯、北京大学的王云鹤、复旦大学的吴昊、中国人民大学的陈师哲、哈尔滨工业大学的朱鎔、厦门大学的张飚、卡耐基梅隆大学的胡志挺和王小龙、麻省理工学院的李成涛荣获2017年度百度奖学金。

百度技术委员会主席吴华、百度视觉技术部、人脸技术部、增强现实技术部总监吴中勤、百度校园品牌部主任李轩涯等嘉宾及往届百度奖学金得主代表出席了颁奖典礼。

新智元以四大研究领域分类，分别呈现这十位“未来之星”对各自专业、生活的分享。

计算机视觉

王云鹤（北京大学）：

我在神经网络加速压缩方面做了深入研究，提出利用离散余弦变换将卷积神经网络预测过程中的卷积计算从空间域转换为频率域，在准确度只有轻微下降的前提下，预测速度大幅度提升、模型消耗的存储大幅度降低。该方法极具创新性和实用性。

深度卷积神经网络压缩这个课题非常具有应用前景，因为深度学习模型在大多数任务（例如图像识别、图像超分辨率等）上的精度已经达到了落地需求，但是它们的线上速度和内存消耗还没有达到落地需求。

然而，越来越多的实际应用需要用到这些深度学习模型，例如手机、智能摄像头、无人车等。所以如何设计更轻便、更高精度的深度神经网络仍旧是一个亟需解决的问题。

陈师哲（人民大学）：

人大信息学院直博三年级的学生，导师是金琴老师。我的研究方向是多媒体计算，通过多模态的语义分析实现更加和谐自然的人机交互，主要分为两个方面：

1）客观语义分析：根据视频内容生成自然语言描述（video captioning），客观地理解多模态视频中的物体/动作/关系等等;

2）情感语义分析：多模态情感识别和理解（multimodal affective computing），通过不同模态分析人物的情感状态从而更好地与人类交互。这些工作都是非常具有挑战性的，我希望之后继续深造，在这些研究课题上有更加深入的理解和突破。

这两项研究其实都是介于基础理论研究和实际应用之间的一个中间步骤，未来3年将和实际应用场景结合，例如，情感识别应用于广告服务中提高广告制作效率，在交互机器人中提高交互水平等。

王小龙（卡内基梅隆大学）：

4年级博士生，我的研究方向是计算机视觉和机器学习。毕业论文的方向是利用视觉数据的冗余性进行深度学习的无监督学习和视频识别。我的毕业时间还未确定,往后的职业发展偏向公司的研究院或者高校教职。

卷积神经网络中的无监督学习还有很多可以探索的空间,尤其是在RGBD数据和视频特征方面, 可以更多的借助无监督学习来提升识别效果。在视频的网络模型设计方面,我们做了一次初步的成功尝试,但任然有很大的提升空间。

自然语言处理

张飚（厦门大学）：

我叫张飚，来自厦门大学软件学院，师从厦门大学苏劲松博士，同时也受苏州大学熊德意教授指导，现处于硕士三年级（最后一年）。目前我已申请出国留学，未来三年将在英国爱丁堡大学自然语言处理实验室Rico Sennrich博士名下继续从事自然语言处理，特别是机器翻译方向的研究，所以现阶段我仍然全身心的投入到学术研究当中。

我硕士阶段的毕业方向是神经机器翻译方向，通过设计更加高效的编码器、解码器网络结构来进一步提升现有系统的翻译性能。至于往后的职业发展，虽然也有接触过包括百度、腾讯、阿里、今日头条等在内的几个互联网公司，我暂时还没有完全想好，不过今后的发展应该依然和科研紧密关联。

最近我们设计了一套全新的循环神经单元，采用最少的模型参数和最少的矩阵运算，在最基本的浅层神经机器翻译系统上面，达到了又快又好的翻译效果。

上述项目的难点在于，模型的运行效果通和模型参数以及矩阵运算次数之间通常是此消彼长的，如何寻找两者之间的折中点非常困难。我们的项目组在这一方向付出了大量努力，也积累了丰厚的技术经验，好在最终成功地找到了在目前看来最佳的设计选择。相信我们的项目会给其他科研人员在设计新模型时带来全新的启示。

林衍凯（清华大学）：

清华大学计算机系自然语言处理组，导师孙茂松教授，副导师刘知远副教授，毕业论文方向《知识的表示、抽取与应用》。我认为目前自然语言处理技术发展的重要方向是如何将知识融入到目前的自然语言处理任务中，做到真正的理解。

博士生期间我认为我最大的收获是认识到做学术并不仅仅是发表论文，而是可以做出真正有用有价值的工作。

在我博士生三年级下半年的时候，我开始研究自动问答，将其作为我知识应用的一个研究方向。选择自动问答的原因是一方面自动问答（或者机器阅读理解）是目前自然语言处理领域一个非常热门的方向，另外一方面自动问答也是一个非常直观可以对知识进行应用的一个任务。

在这个问题上，孙茂松老师和刘知远老师对我的建议是希望我做出来的成果可以真正被使用，而不是简单的几篇学术论文。而目前大多数自动问答由于回答问题类型覆盖率的原因很难被实际应用，所以他们希望我好好思考如何针对这个问题进行解决。

经过一段时间的阅读论文，我认为根据问题检索相关文本并对其进行阅读理解来进行开放问答是目前自动问答的最好的解决方式。这种方法可以利用大规模的文本来提高回答问题类型的覆盖率，使得自动问答可以趋近于实用。因此，我接下来应该会结合文本和知识图谱，推出一个更加实用的问答系统。

胡志挺（卡耐基梅隆大学）：

卡耐基梅陇大学(CMU)机器学习系博士生，导师是Eric Xing教授，Petuum Inc. Research Scientist and manager。专注于研究结合深度学习与结构性知识(Structure knowledge)的机器学习框架、贝叶斯方法、大规模机器学习，及其在自然语言处理、医疗、计算机视觉等的应用。他的研究工作Harnessing Deep Neural Networks with Logic Rules获评ACL 2016杰出论文。他获得2017 IBM Fellowship和2017 百度奖学金。未来希望同时推动学术前沿研究和工业实际应用的发展。

深度学习目前在很多应用领域都获得很大突破和越来越广泛的应用，但其问题也很明显，包括对大规模标注数据的依赖、预测结果的不可解释性、难以直接结合人类先验知识和意图（intention）等。

解决这些问题需要将结构性知识、领域知识与深度神经网络相结合，使神经网络中结合结构性偏差（structural bias），并调控神经网络的学习过程。该研究方向的进步将对几乎所有的应用领域（智能医疗、对话、自动驾驶、法律等等）产生很大的推动。

机器学习

王奕森（清华大学）：

计算机系博士4年级，目前正在美国佐治亚理工学院交换，正在赶各种 deadline。我研究工作主要是树类机器学习模型，尤其是随机森林模型相关的基础理论和应用，以及树类模型往深度学习模型上的迁移。

最简单的树类模型就是决策树，它不仅简单易懂而且计算效率很高。我们提出了一种统一的决策树框架——Tsallis决策树——来大一统了现有的决策树算法。针对组合决策树模型，比如随机森林，我们不仅提出了一种定量分析树与树之间相关性的多变量准则，而且确保了该相关性准则的无偏性、可解释性和可拓展性。此外，我们还填补了随机森林模型理论和实践之间的gap，提出了具有一致性的随机森林算法，该算法既有理论保证，也有良好的实际性能支撑。

目前还在探索一些想法，如何将树类模型的优秀性质迁移到深度神经网络模型中去，为深度模型提供可解释性、泛化性分析等。

李成涛（麻省理工学院）：

博士四年级。现在还在博士漫漫长路上艰难前行，不过应该快要看到毕业的曙光了（笑）。我的研究主要是关于多样性采样方面的，具体来讲就是在一个数据集中采样出一些具有代表性的，没有冗余信息的一些样本来代表整个数据集，比如一本书的梗概，一段视频的剪辑等等，简言之就是从大量信息中提取“干货”。

通过多样性采样，我们可以极大地减少处理数据的时间，在很短的时间内获得较多的信息。我之前做过一些多样性采样的理论工作，主要是关于如何提升多样性采样的效率的。比如我们研究的一个比较典型的多样性采样的概率分布，Determinantal Point Process。它的采样过程非常耗时，我和导师研究后通过使用马尔科夫链进行采样，在理论上证明了它的采样效率要高于原本的方法，并且运用数值计算的技术（Gauss Quadrature），极大地提升了采样效率。

数据挖掘

朱鎔（哈尔滨工业大学）：

计算机科学与技术学院四年级博士研究生，师从李建中教授和邹兆年副教授。我的研究兴趣包括数据库、数据挖掘和大数据，研究方向为图数据分析技术。我的博士课题为多层图分析技术研究。目前对于学术上兴趣比较浓厚，准备在学术上有所发展，考虑联系海外高校继续深造。

简单来说，我们的研究解决了从多源的图数据中发现有用知识的难题。多源图数据不仅仅是对于多个图数据的简单组合，而是从一维到多维的有机扩展。因此他具有更加复杂的计算语义，同时对于算法的效率也有了更高的要求，在语义定义、算法设计和理论分析上都有很大的难度。

为此，我们针对这一方向进行了一系列系统性的研究。从横向来看，我们针对多源图数据多方面的性质进行了分析，针对一系列问题提出了高效、准确的算法。我们提出了一种新的计算框架，称为同步计算，在很多问题上相比以往的计算方法有几个数量级的效率提高。

从纵向来看，我们的研究从基础理论出发，而后到算法设计，最后在落实到应用中去。我们针对多源数据稠密区域发现的算法，在生物网络分析上取得了很好的效果。正在准备申请专利。目前我们正在研究解决的多源数据用户影响力最大化问题就是一个来源于实际应用的问题。在社交数据上，这一问题的结果可以用最少的代价产生最大的影响效果，在广告投放和服务推荐中是一个非常有用的工具。

吴昊（复旦大学）：

导师孙未未教授，实验室为移动数据管理实验室。现在的状态是一半从学术界脱身去工业界感受下人工智能领域域学术界的区别。毕业论文将会围绕轨迹序列建模任务进行展开。今年下半年开始找工作，往后的职业发展是在工业界打拼，从事与AI领域相关的工作。

现阶段我所研究的是对城市人类运动行为所产生的轨迹数据进行建模的任务，目前提出了基于循环神经网络的一种适用于城市规模轨迹数据的轨迹模型，相对于已有的基于浅模型(shallow)的模型。

深度模型在当前拥有大量数据的情况下体现出巨大的优势，建模效果远好于已有的模型。对轨迹数据建立概率模型能够支持丰富的应用，包括路径推荐、异常检测、缺失推断、模拟生成、行为预测等，具有很大的研究价值和意义。

对于想要进入该领域的学弟学妹，有何学术上的建议

朱鎔（哈尔滨工业大学）：第一，对于计算机的博士，数学能力的培养，怎么强调都不过分。我的导师会给所有博士生一个必读的数学书单，内容包括组合数学、图论、概率论、博弈论、矩阵分析等等内容。

我认为，除掉生物信息等边缘性的领域，从事核心计算机领域研究的博士生，没有深厚的数学造诣，读博过程会很困难。因为在问题建模、算法设计和理论分析全过程中，都离不开数学工具。数学是一门抽象思想的学问。其实计算机的很多问题，都是数学的一个具体应用。数学工具的熟练掌握，会让很多分析变得很简单。

第二，就是珍惜时间。读博不过4-5年时间，过的很快。我看到过很多读博多年一事无成最后无法毕业的博士。既然决定走上读博道路，就早做努力、珍惜光阴。我的导师要求我每周工作60小时（每周六天，每天10小时）。我认为这个要求并不过分。对于刚刚开始从事科研工作的人来说，勤奋是非常有必要的。

吴昊（复旦大学）： 六个字：多看、多做、多想。“多看”即保持文献的阅读，尤其现在AI领域发展极快，可以把paper当新闻读物看。“多做”即不仅仅停留在阅读paper的层面，可以尝试去实现别人或自己提出的算法，paper是不会把所有的坑给详详细细的写出来的。

只有自己勤coding才会发现那些潜在的坑，一个一个解决后才会提升自己的能力。最后一个阶段“多想”即多思考，仅仅看别人的文献、实现别人的方法，永远只能停留在复制别人工作的层面，作为一个博士生，需要的是创造，需要发明别人没有想到的方法，而这就需要对问题的深入思考。

李成涛（麻省理工学院）：对于想要进入领域的学弟学妹，不敢妄谈“经验”，只想说说自己读博期间的一点感受：我一直觉得好的数学技巧和直觉是做出有影响力的工作的必要条件。数学不仅可以用来理解某个模型“为什么好”，也可以帮助我们了解模型的局限性，然后设计更好的模型，做出更好的研究。所以我对学弟学妹们的建议是，可以多学一点数学。

王奕森（清华大学）：首先，时间管理。博士科研时间大部分都是要自己安排的，科研和生活中的琐事怎么协调是一个技术活。一定要避免让自己整天很忙，但又不知道在忙啥。

其次，多读多看，除了自己领域的paper要多看之外，别的领域的文章也可以适时的多看一些，殊不知有一些idea就是来源于别的领域的。

最后，一定要耐得住寂寞经得起诱惑。

陈师哲（人民大学）：科学研究不是随随便便的一件工作，研的意思是深入地探求，究是深究到底，研究就是反复深入地去寻求事物的本质/规律，来解决问题。所以在反复探索研究的过程中，我觉得最重要的是培养自己基本一些研究素养：求真与怀疑；独立与自主；努力与坚持。这些品格的培养是进行好的科研工作的必备条件。

另外我觉得随着各个方向的开源代码工具和教程的普及，使得科研的进入门槛并不高，很多人即使对这些领域并不深入了解也能作出一些还可以的工作。这并不是一件坏事，整个科研领域的广度在拓展。但对于专业的科研学习者来说，要更加有危机感，不要满足于站在前辈们的肩膀上，而是要发挥自己的才能和积极思考，去开拓这个领域的深度。

林衍凯（清华大学）：（1）可以通过阅读经典书籍（如PRML、Yoshua Bengio《Machine Learning》、李航《统计学习方法》等）对这个领域的背景知识有一定的了解。（2）掌握一种深度学习工具（如Tensorflow、Pytorch等），能使用其实现和调试端到端模型、记忆模型等常用的神经网络模型。在学术生涯中，我们遇到的最多的问题就是模型不work，如何在遇到问题的时候迅速的确定是代码实现的问题还是idea本身的问题是很重要的，可以极大地让你在学术研究中少走弯路。（3）每天坚持阅读Arxiv上的领域最新论文，了解目前学术界的最新动态（4）增强自己的英文能力包括听说和写作的技巧，在发表学术论文的过程中，虽然工作本身是否扎实十分重要，但是如何将自己的工作在论文中向大家展示也是一项决定你论文是否能被录用的关键因素。

王云鹤（北京大学）：1.数学基础知识，因为人工智能领域有太多的问题本质上都是数学问题，如果自己的数学知识不够充足，就会发现有些问题自己可以发现但是解决不了，非常尴尬。

2.编程能力，这个倒是计算机系必备。因为现在的实验通常都需要建立在非常大的数据集上，所以如何高效的实现自己的代码是非常有助于快速的验证。

3.沟通能力，与老板、与合作伙伴，良好的沟通能力会让大家都心情愉悦，任务也可以快速高质量地完成。

4.自我调节能力，稿子被拒多次、连续赶ddl、失眠等，都是研究生面临的最大问题，保持好心情和健康的身体。

张飚（厦门大学）：师父领进门，修行在个人”，保持和导师之间的积极沟通，同时在平时自己多主动地下一些功夫。现在做科研和过去有很大不同，深度学习的发展使得各个领域的入门门槛普遍降低，而且网上都有大量的开源代码和系统，所以提高自己的自主学习能力、独立思考能力，积极阅读论文、跑实验积累经验，对自己的科研帮助会很大的。

胡志挺（卡耐基梅隆大学）：打好专业基础（数学、机器学习等），关注最新学术和业界进展的同时，对经典的领域和研究方向也要深入学习，往往能从经典中发现不一样的视角、和最新的研究碰撞出不一样的火花。科研成果应更多注重质量而非数量。

学霸书单

朱鎔（哈尔滨工业大学）：我平时比较喜欢阅读诗词方面的东西，比如《诗经》《漱玉词》等等。我觉得博理工科士生不能光看专业性的书籍，也应该有一点人文艺术情怀。比如我导师就特别喜欢绘画。我对于古诗词很感兴趣。我觉得诗词是人心灵的倾诉，是交流情感很好的方式，也可以很大的舒缓平时学业的压力。

吴昊（复旦大学）：《ロスジェネの逆襲》中文名不知道怎么翻比较合适（失落世代的逆袭？）。朋友特地从日本给我带的，池井户润的书，也就是前几年非常流行的半泽直树日剧的原著小说作者，电视剧拍了第一第二卷，这本『ロスジェネの逆襲』则是该系列的第三卷，讲的是第二卷结局半泽被下放到东京中央银行的证券子公司（东京中央证券）里的故事，如同前两卷一样好看，剧情扣人心弦，推荐。

王奕森（清华大学）：学术的话，Ian Goodfellow的Deep Learning，这是一本我觉得无论是入门者还是老手都能从中收获你想要得到的知识的书，而且他online更新接收大家批评的方式让这本书错误极少而且知识点也比较的新。

陈师哲（人民大学）：《你今天真好看》：一本很温暖治愈的漫画。

王云鹤（北京大学）：莫言《生死疲劳》：类似背景下的书其实有很多，但是莫言老师的这部作品实在是令人耳目一新。

张飚（厦门大学）：平时看的书不算太多，有空会看看《三国演义》，个人比较喜欢这种经典书籍，里面所包含的人情世故、处世哲学、成败得失总是让人值得玩味，而且随着个人阅历的增加，每次阅读都会有不同的感想，感觉很受用。

王小龙（卡内基梅隆大学）：《Seeing Black and White 》(by Alan Gilchrist）这也是别人推荐我看的书,从心理学的角度探讨光照和成像的一些问题。我们训练了很多神经网络处理视觉问题,但其实对人为什么能看到图像,为什么能分清楚黑色和白色这个问题还是不知道的。

加入社群

新智元AI技术+产业社群招募中，欢迎对AI技术+产业落地感兴趣的同学，加小助手微信号: aiera2015_1 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名-公司-职位；专业群审核较严，敬请谅解）。

此外，新智元AI技术+产业领域社群(智能汽车、机器学习、深度学习、神经网络等)正在面向正在从事相关领域的工程师及研究人员进行招募。

加入新智元技术社群共享AI+开放平台