宋舒然|斯隆奖新晋得主宋舒然:从视觉出发,打造机器人之「眼」( 六 )
换言之,在视觉与机器人的联姻中,不仅是视觉帮助机器人感知,反过来,机器人的动作也会增加视觉的感知。
6、探讨「通用人工智能」
AI科技评论:Yann LeCun 之前一直强调自监督学习是下一代人工智能的重要方向,老师您怎么看?
宋舒然:我非常同意。我觉得的确是的。现在我们已经在监督学习上取得了很多的进展,包括ImageNet和现有的许多Benchmark(基准),下一步如果我们想用上更大的数据集,其实很难再标注更多的数据了。我们需要的是在算法上的提高,就是如何去利用这些没有标注的数据。
在这个方向上,不同的领域有不同的定义方法。如何去定义自监督学习?我觉得这是最核心的问题。在计算机视觉领域,你可以做视频预测;在自然语言处理方向,你可以做语言计算。我一直在想的是,在机器人领域,如何定义自监督学习?如何去定义一个统一框架可以去做自主自监督学习?
AI科技评论:而且之前很多人在强调这个方向的时候,好像都没有提到跟现实的交互。
宋舒然:对的,因为它的成本的确比较高。如果你没有机器人,你需要买一个机器人。而且就算是有机器人,通过交互去收集数据,感觉上是要比标注数据慢很多的。但这并不代表它没有前景;相反,我觉得这是一个更有潜力的方向。雷峰网
尤其是,如果你考虑未来的人工智能发展,当机器人不再是一个昂贵的设备,当机器人的标价降低、遍布各地,并且可以执行很多任务时,我觉得通过交互的自监督学习会变成更主流的方法。
AI科技评论:明白。老师您可否再总结一下,这种交互加自监督学习的学习方式,过去的发展、当前存在的瓶颈和未来趋势是什么?
宋舒然:目前「自监督+交互」的方式里仍然掺杂了许多人为经验。我们现在的许多工作,比如我们可以用自监督的方式做「抓取」,原因是我们可以很好地计算这个物体是不是被抓起来了。对于「展开」这个动作也是一样的。我们可以通过物体的表面、面积有没有展开作为一个监督的信息。但是这些奖励虽然是自监督,可以直接从图像里计算,但它也是由人来定义的,是经验告诉我们可以得到这样的信息。
而且我觉得在任何一个算法里,如果必须由一个人类工程师去定义事情的话,往往会成为一个瓶颈。所以展望未来,我们如何去减少这种人为的经验?是不是可以通过学一个未来预测模型,或者学一个比较通用的世界模型,然后用一种比较统一的方式去看,或者比较直觉的方式去设计?而不是我们需要去对每一个任务特定设计世界模型。我觉得这个可能是将来比较有意思的发展方向。
AI科技评论:目前对于通用人工智能的实现,您有没有一些理解和设想?
宋舒然:我觉得我没有很清晰的理解和设想(笑)。通用人工智能是最终目标,但我们的确还有很大的距离。很多想法是有意思的,但以我现在有限的理解,还是需要很长时间的发展,很难说哪个方向是更有前景的,或更有意义的。雷峰网
但我觉得学习嵌入式智能是非常关键的一步,因为我觉得通用人工智能不只是理解网络信息,不只是理解图像或抽象数据,还需要理解物理、理解3D环境。
AI科技评论:就是先不说通用人工智能是什么样子,但是要增进我们对通用人工智能的理解的话,我们不能局限于当前已有的这些任务,而是要去不断探索新的任务是吗?
宋舒然:对的,而且不能只考虑对机器学习模型进行抽象,还要考虑如果你要构建一个「物理分身」(physical embodiment),比如机器人,它是可以在现实的物理世界中去与不同的物体互动的。
不说人工智能,只是说我们(人类)的智能。其实我们学到了很多智能,但不只是通过网络,不只是通过读书、看图片或看视频,很大一部分的智能是在交互中学习的,比如怎么走路,怎么拿起物体。
所以我的一个理解是,实现通用人工智能,机器人或嵌入式智能是非常重要的一步。
注:琰琰、青暮对本文亦有贡献。雷峰网
参考链接:
1. https://www.researchgate.net/figure/The-Microsoft-Kinect-3D-Camera-Sensor-System-an-IR-transmitter-3D-Depth-Sensors_fig15_309740491
2. https://www.cs.princeton.edu/news/andy-zeng-shuran-song-win-best-systems-paper-award
3. https://www.cs.princeton.edu/news/article/shuran-song-wins-facebook-fellowship
4. https://www.cs.princeton.edu/news/deep-learning-improves-robotic-vision
5. https://www.cs.princeton.edu/news/scene-completing-system-may-show-robots-what-theyre-missing