可加性|普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观( 二 )

文章插图

图 / 双足机器人（图源网络）
然而现实的场景往往不符合假设，不存在精确的数学描述。课题中，要先不施加电机输入，观察机器人在斜坡如何利用重力和摆动被动走起来；走起来后，收集它的行走轨迹数据。然后，再基于数据，探索如何通过控制髋关节的电机，设计一个自适应的反馈系统，让机器人摆脱对重力的依赖、在平地上健步如飞。
面对这样一个动态过程，强化学习被派上用场：如果把双足机器人系统当成一个黑箱函数，基于价值函数和策略函数不断迭代、更新、实验、逼近，就能通过不断的试验进行在线学习，算出一个最适合双足行走机器人的状态-价值函数，找到最优控制策略。

文章插图

图 / 王梦迪在 2017 年中国人工智能大会上作演讲，谈控制论与人工智能的关系
随着控制问题的复杂度不断提升，控制算法对系统建模的依赖也需逐渐放松，注重通过实验来收集数据、从数据中总结模型信息、在线学习来逼近最优系统操控策略的强化学习方法将在复杂系统中扮演越来越重要的角色。从这一点来看，控制论成就了人工智能的核心，而强化学习等新兴方法又反哺了控制问题的求索：
「比如，下棋本身无法用微分方程来描述，但我们可以一边下、一边收集下棋和对手的信息。当我们对要控制的系统的先验知识越来越少时，我们就越来越依赖于来自经验与数据的近似，并利用大规模深度神经网络进行高通量的计算、拟合和推理。」王梦迪介绍。
基于反馈、优化、乃至于深度学习，现代人工智能早已改变了人类的生活和认知，从自动驾驶到机器人流水线，从宏观电网调度到微观的蛋白质优化。控制论中的许多经典思想和方法，比如贝尔曼方程、模拟、反馈、系统辨识等方法，深刻影响了以深度强化学习为代表的现代人工智能研究上。

2、MIT读博：科研观的形成
在MIT读博期间（2007-2013），王梦迪师从 Dimitri P.Bertsekas教授，隶属于信息与决策系统实验室（Laboratory for Information and Decision Systems, LIDS），主攻控制算法与随机优化问题。
MIT 的 LIDS 实验室的研究传承来自于维纳与香农。维纳是控制论之父，而香农是信息论之父，控制论和信息论，分别代表了工业自动化时代和信息时代的开端。自成立以来，LIDS实验室的杰出科学家们便追求将控制论与信息论结合起来，用于复杂系统的智能化和信息化。
王梦迪的博士导师、美国国家工程院院士 Dimitri P.Bertsekas 是自动控制领域的宗师，于控制论、优化、运筹、神经网络等多个领域做出过奠基性贡献。
王梦迪对AI科技评论回忆，读博那会，导师Bertsekas非常宽松。王梦迪是他的关门弟子，他一直很鼓励她的发散性思考，从不否定她的各种脑洞大开的想法，这让王梦迪进一步释放了在清华时就开始积淀的对开创性的新问题、新领域的追求：
「我现在回想起来，他从来没有说过一句令我沮丧的话。如果我处在他的位置，可能对『我』会有挺多意见的。」
在Bertsekas的门下，王梦迪更多是学习到了一种高级的研究品味。这是一种与大咖导师同行、耳濡目染之下培养的研究思路。
Bertsekas在应用数学与系统控制方向均有极高的研究造诣，著有《概率导论》、《非线性规划》、《随机优化控制》与《强化学习与最优控制》等十多本著作与教材，是名副其实的大咖。在他的反复锤炼下，王梦迪慢慢明白一项好的研究工作应当具备怎样的标准，「他是一点一点地把我拎到了那个高度。」

文章插图

图 / Dimitri P. Bertsekas
Bertsekas是2019年完成《强化学习与最优控制》一书，彼时，王梦迪已离开导师的庇荫许久，在强化学习这一她自己独立拓展的领域打开一片新的天地，成为了人工智能、强化学习领域能够独当一面的学者。
对控制论与强化学习的关系思考，也使王梦迪相信：学习效率更高、泛用性更强的算法，是人工智能的未来。

3、机器学习与强化学习理论探索
王梦迪在2014年开始进入普林斯顿担任助理教授，2019年成为普林斯顿大学的终身教授，之后王梦迪加入了普林斯顿当时刚成立不久的统计与机器学习中心（Center for Statistics and Machine Learning，CSML），是最早加入CSML的教授之一。