宋舒然|斯隆奖新晋得主宋舒然：从视觉出发，打造机器人之「眼」( 四 )

所以，2017年的比赛中，他们只取得了第三名的成绩。但是，这次的合作也激起了宋舒然对机器人视觉的研究热情，他们发现了许多有意思的问题，激发了许多提升系统的想法，于是决定继续合作参加2018年的比赛。

文章插图

图注：MIT-Princeton 团队在亚马逊机器人竞赛 (2018)
这一次，宋舒然和整个团队对物体姿态的算法进行了重新整合，不再使用中间的物体姿态作预测，而是直接从图像出发去预测机器人应该采取怎样的动作。如此一来，整个算法系统的速度有了大幅提升，而且更加通用。
亚马逊挑战赛的内容是：机器人要从一个装了各种物体的盒子里挑选出目标物体。这时，盒子里的物体之间可能彼此遮挡，会挡住机器人的视线。
针对这个问题，宋舒然团队摈弃了之前「先识别物体」的步骤，而是设为「先抓取物体」，把物体先取出来再识别。这时，机器人只需要知道物体的哪个部位更易抓取，而无需判断物体是什么，系统的鲁棒性也大大加强了。
在改进算法后，他们的机器人抓取速度快速提升，获得了2018年亚马逊抓取机器人挑战赛的冠军，还获得2018年亚马逊最佳操作系统论文奖。
自此，宋舒然也正式踏上了用计算机视觉帮助机器人感知物理世界、与物理世界交互的研究道路。

4、简单，但高效
2018年，宋舒然从普林斯顿大学获得计算机博士学位，后加入哥伦比亚大学计算机系担任助理教授。问及为何选择哥大，她给出的理由是：
「我选择哥大的一个重要原因是地理位置。我还是喜欢待在城市里。我是在北京长大的，然后去了香港读大学。去了普林斯顿后，我就发现我不适合在一个小镇子里生活，所以我就想回到大城市，就选了哥大，因为它在纽约。」

文章插图

图注：哥伦比亚大学
担任教职后，宋舒然在机器人视觉的研究上屡出成果，三年内接连拿下RSS 2019最佳系统论文奖、T-RO 2020最佳论文奖、CoRL 2021最佳系统论文奖，相关工作还获得了IROS 2018、RSS 2019、CVPR 2019、ICRA 2020等顶级会议的最佳论文提名。
2018年，宋舒然团队延续亚马逊挑战赛的思路，进一步研究机器人在「推」与「抓」两个动作上的协同。尽管强化学习在当时很火，但宋舒然的这个工作首次在机器人视觉研究中直接引入了强化学习方法，并获得了IROS 2018最佳感知机器人论文奖提名。

文章插图

图注：该感知机器人先「推开」物体，再「抓取」物体
「当时我们的最终目标是能把物体抓起来。『抓』这个动作很好评估，只要能抓起来就是positive reward（正向奖励）。但『推』这个动作很难评估，什么样的『推』才算是好的『推』？所以我们就采用强化学习方法，提供一个好的评估函数去定义『推』，最后只需要编写一个最终奖励（即推的动作能帮助抓取物体）即可。」宋舒然向AI科技评论解释道。
据宋舒然介绍，在她与团队「凭直觉」做这个项目之前，大多数人都认为强化学习方法需要大量的数据，所以很难在真实的机器人上直接训练。即使到现在，强化学习被应用于机器人的方法也不是主流，宋舒然与团队也没想到「真的能跑起来」，可以说打破了不可为的魔咒、给予了该方向的研究者以莫大的信心。
宋舒然在机器人视觉系统上的第一个里程碑工作当属获得RSS 2019最佳系统论文奖的「TossingBot」。在这个工作中，他们与谷歌的研究团队合作，最终成果登上了《纽约时报》商业板块的封面。

文章插图

图注：TossingBot登上《纽约时报》商业版封面
这个投掷机器人的「绝杀技」是可以学习快速准确地捡起任意物体，并将其扔到附近的目标框中。研究者认为，投掷是一种利用动力学来提高机械手能力的绝佳方法。例如，「在拾取与放置的例子中，投掷可以使机械臂快速地将物体放入其最大运动范围之外的选定盒子中，从而提高其可接触的物理范围和拾取速度。」
这个工作背后的关键思想是「残差物理学」（Residual Physics），可以将简单的物理学与深度学习相结合，使系统能够从试错中快速训练、并泛化到新的场景中。
物理学提供了世界如何运作的先验模型，宋舒然与团队可以利用这些模型开发初始控制器。比如，在投掷中，他们可以使用弹道学来估计使物体降落在目标位置所需的投掷速度，同时使用神经网络在物理估计之上预测调整，以补偿未知动态以及现实世界的噪声和可变性。