宋舒然|斯隆奖新晋得主宋舒然:从视觉出发,打造机器人之「眼」( 二 )


「印象中,当时机器人的研究里面,最难的也是计算机视觉的部分。虽然我的专业不是计算机视觉,但我在那个过程中也学到了不少知识,比如视觉追踪与检测。」宋舒然回忆道。
除了参加机器人社团,宋舒然还在大三那年(2012年)参加了香港科技大学与美国麻省理工学院(MIT)的暑期交换生项目。「那一年是第一届,申请的人并不多,所以我就非常幸运地得到了这个机会。」
虽然只有短短一个暑假,交换期间参与研究的内容也十分基础,但整个过程给宋舒然留下了深刻的印象。
宋舒然记得,当时她每天都会去MIT CSAIL的大楼,每天在路上都能遇到形形色色的人。在这栋形状奇特的大楼里,有很多做机器人研究的人,她每天都可以在大楼里看到各种各样奇怪的机器人,「研究者不停地调试着什么」,整个研究氛围非常活跃。
当时她的指导老师是图形学领域的大神 Frédo Durand。宋舒然记得,虽然 Frédo 是一名非常有名、事物繁多的教授,但还是会不厌其烦地腾出教研时间指导交换生们学习目标课程,与他们固定时间开会、解答疑问。在这个过程中,宋舒然也学到了许多图像视觉的知识。
原先宋舒然只是对研究感兴趣,但这次赴MIT交换的经历使她下定了读博的决心:
「刚上大学时我并没有想好之后要读博,或者在学术领域有多大的发展。但到了MIT,认识的学生都是PhD,他们做的研究非常有意思,做研究的过程感觉非常振奋,让我开始觉得我好像也很想去做研究。」

2、请回答2015:突破3D视觉
2013年,宋舒然加入普林斯顿大学的计算机视觉与机器人实验室(计算机视觉领域的知名华人学者邓嘉也在共同领导该实验室)攻读博士,先后师从肖健雄(2016年离开普林斯顿去创业)与Thomas Funkhouser。据悉,Thomas Funkhouser每年均只招收1-2名博士生。
宋舒然|斯隆奖新晋得主宋舒然:从视觉出发,打造机器人之「眼」
文章插图

图注:普林斯顿大学
普林斯顿大学最吸引宋舒然的一点是它较小的实验室规模,和与之带来的能与教授进行更多交流的机会。
读博期间,宋舒然的研究内容聚焦在计算机视觉。虽然本科时做过物体追踪项目,但宋舒然回忆,在刚开始读博时,她的视觉基础是相对薄弱的。
在导师的指导下,她延续本科时期的学习,先是研究3D物体检测与追踪。当时恰逢微软推出一个新的3D感知相机(Kinect 3D Camera Sensor-System),他们便思考是否能用这些新设备,将2D物体检测延伸到3D物体追踪。
宋舒然|斯隆奖新晋得主宋舒然:从视觉出发,打造机器人之「眼」
文章插图

图注:微软在2013年推出的Kinect 3D相机感知系统
2014年前后,计算机视觉领域的一个重要研究方向就是2.5D到3D的物体识别与检测追踪。宋舒然从2013年开始研究,恰好赶上了这一热潮,加上个人的后天努力,她的博士生涯也因而比大多数人的成长要迅速得多。
2015年是宋舒然在计算机视觉研究上的「丰收年」。那一年,她在计算机视觉顶会上发表了4篇高引论文,篇篇经典,而彼时距离她入学博士才不过两年时间:

  • 3d shapenets: A deep representation for volumetric shapes(谷歌学术引用3500+)
  • Shapenet: An information-rich 3d model repository(谷歌学术引用2500+)
  • Sun rgb-d: A rgb-d scene understanding benchmark suite(谷歌学术引用1100+)
  • Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop(谷歌学术引用1000+)
宋舒然对AI科技评论介绍,她第一次接触深度学习是在“3D ShapeNets: A Deep Representation for Volumetric Shapes”这篇工作中,经汤晓鸥与吴志荣的带领入门。当时,就读于香港中文大学的吴志荣到普林斯顿交换,宋舒然与他由此结识。
「那时候深度学习还没有那么火。2D视觉开始火起来,但把深度学习用于3D视觉的研究还几乎没有。我当时完全没有做过深度学习的研究,只是做过一些比较传统的2D识别与检测。因为志荣在汤晓鸥的组里做了很多深度学习的研究,所以我们就把他拉过来一起合作。」宋舒然回忆道。
开辟性的工作往往艰难重重。宋舒然记得,当时他们在合作的过程中遇到了很多困难,其中最大的困难是没有成熟的机器学习库或框架去支持深度学习系统的搭建,「只有贾扬青提出的Caffe,而且比较初期的Caffe并不支持计算机视觉的操作」。
所以他们当时的研究重点就放在了如何开发系统、将2D算法转化为可以接受3D数据上。他们当时的想法其实非常简单 –从2D pixel 表征方式转化成 3D voxel 的表征方式。虽然现在看来这个方法有很多明显的缺陷(需要大量的显存空间), 但好处是可以沿用很多传统的2D 算法,比如卷积。