可加性|普林斯顿大学王梦迪:从基础理论到通用算法,看见更大的AI世界观( 四 )



4、拓展强化学习在复杂现实场景中的通用性
所有强化学习的算法都受限于马尔可夫决策过程中的奖励可加性 (reward additivity),即「目标价值函数是每一步所得奖励的累加值期望」。奖励的可加性是贝尔曼方程(Bellman Equation)、控制论、乃至所有强化学习算法的数学基础。
尽管奖励的可加性能推导出数学上优美的贝尔曼方程,却极大地限制了强化学习的应用,因为在大量的非游戏的现实场景中,目标函数往往不是奖励的简单相加。在风险控制、策略模仿、团队协作等场景中,真正的目标函数往往是关于状态轨迹的复杂非线性函数,如风险函数、散度等等,甚至包含复杂的非线性安全约束条件。由于缺乏可加性,这些重要的实际问题无法用强化学习解决。
然而,当可加性不再成立,强化学习和控制的数学基础不复存在,我们熟悉的价值函数(Value Function)也不再存在。同时,策略优化算法的基础——强化学习之父Rich Sutton证明的策略梯度定理(Policy Gradient Theorem)也不复成立。
在智能决策领域,不满足奖励可加性的问题无解。
王梦迪团队挑战了这个全新的领域,拓展了强化学习的边界。当面对复杂目标函数、奖励不再可加时,王梦迪团队利用数学对偶原理,重新定义了策略梯度,得到了全新的更泛用的变分策略梯度定理(Variational Policy Gradient Theorem)。他们证明,对于更复杂的目标函数,其策略梯度依然可以计算,并且其等价于一个极大极小值问题的最优解。被重新定义的策略梯度,带来了全新的算法和应用。也就是说,强化学习可以进一步推广到金融风控、多智能体、模仿学习等现实场景中。
可加性|普林斯顿大学王梦迪:从基础理论到通用算法,看见更大的AI世界观】强化学习的边界,从奖励可加的马尔可夫决策过程,推广到更一般性的、更复杂的策略优化问题。这一系列工作收到了强化学习领域和数学优化领域的关注,连续两年在NeurIPS 2020与2021上被选为Spotlight Paper:

  • J Zhang, C Ni, Z Yu, CSzepesvári, M Wang. On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method. (NeurIPS 2021)
  • J Zhang, A Koppel, AS Bedi, C Szepesvari , Mengdi Wang. Variational Policy Gradient Method for Reinforcement Learning with General Utilities. (NeurIPS 2020)
面向未来,王梦迪在强化学习中的另一项重要研究,便是数据降维(Dimensionality Reduction)和离线学习 (Offline Learning)。
王梦迪的研究路线一向清晰:从理论研究出发,再将理论上的突破推向实际应用。基于离线数据的、在现实生活中落地的决策优化问题,便是王梦迪团队的一块「硬骨头」。
如前所述,在常见的游戏AI任务中,智能体能够通过不断模拟实验来收集数据,然后用这些数据来训练系统的策略网络。数据越多,算力充足,则算法越强,比如Alpha Go,AlphaStar,就能打败人类世界的冠军战队。
但在现实生活中,许多关键领域,比如医学与金融,并不具备像游戏般的完美模拟环境。因此,在模拟器上十分完美的强化学习算法,在现实生活中就未必能轻松地解决工程问题,比如医疗场景中的策略优化、复杂电力系统的最优控制等。这就是sim2real的难点。
王梦迪曾参加过一些医疗领域和生物技术领域的人工智能探索。在这些项目中,她的任务是将病人的病例数据当成「棋谱」,从中学习针对某一病例的诊断策略,并研究能否进一步优化诊断流程,降低病人的重症率。与游戏中的智能体可以「盲目」尝试、无限模拟不同,在医学环境中,病人没有办法做新的实验,而且数据可能极其有限。
在数据有限的情况下,研究者还能找到最优策略吗?亦或者是否可以退而求其次,将现有的策略进行最大程度的提高?如果要继续做实验,那么应该如何进行,才能以最小的代价收集到这些数据?这些问题,也就是「离线强化学习」所关心的问题。
显然,离线强化学习更看重「有效率」的尝试。王梦迪与团队通过数据降维的embedding方法,将数据从高维空间切换到低维空间,从而保留最有内容的信息,规避数据的过度拟合现象,为离线强化学习的研究开辟了新的道路。这些新探索在AI+医疗、新金融、AI「智造」等领域带来新的可能性。

5、面向未来的AI
应用数学和基础理论,往往是发现通用算法的起点。研究问题的通用性,逐渐拓宽研究的边界,加速了学科的交流与合作,也成就了王梦迪更大的研究世界观。