可加性|普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观( 四 )

4、拓展强化学习在复杂现实场景中的通用性
所有强化学习的算法都受限于马尔可夫决策过程中的奖励可加性 (reward additivity)，即「目标价值函数是每一步所得奖励的累加值期望」。奖励的可加性是贝尔曼方程（Bellman Equation）、控制论、乃至所有强化学习算法的数学基础。
尽管奖励的可加性能推导出数学上优美的贝尔曼方程，却极大地限制了强化学习的应用，因为在大量的非游戏的现实场景中，目标函数往往不是奖励的简单相加。在风险控制、策略模仿、团队协作等场景中，真正的目标函数往往是关于状态轨迹的复杂非线性函数，如风险函数、散度等等，甚至包含复杂的非线性安全约束条件。由于缺乏可加性，这些重要的实际问题无法用强化学习解决。
然而，当可加性不再成立，强化学习和控制的数学基础不复存在，我们熟悉的价值函数（Value Function）也不再存在。同时，策略优化算法的基础——强化学习之父Rich Sutton证明的策略梯度定理（Policy Gradient Theorem）也不复成立。
在智能决策领域，不满足奖励可加性的问题无解。
王梦迪团队挑战了这个全新的领域，拓展了强化学习的边界。当面对复杂目标函数、奖励不再可加时，王梦迪团队利用数学对偶原理，重新定义了策略梯度，得到了全新的更泛用的变分策略梯度定理（Variational Policy Gradient Theorem）。他们证明，对于更复杂的目标函数，其策略梯度依然可以计算，并且其等价于一个极大极小值问题的最优解。被重新定义的策略梯度，带来了全新的算法和应用。也就是说，强化学习可以进一步推广到金融风控、多智能体、模仿学习等现实场景中。
【 可加性|普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观】强化学习的边界，从奖励可加的马尔可夫决策过程，推广到更一般性的、更复杂的策略优化问题。这一系列工作收到了强化学习领域和数学优化领域的关注，连续两年在NeurIPS 2020与2021上被选为Spotlight Paper：

J Zhang, C Ni, Z Yu, CSzepesvári, M Wang. On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method. (NeurIPS 2021)
J Zhang, A Koppel, AS Bedi, C Szepesvari , Mengdi Wang. Variational Policy Gradient Method for Reinforcement Learning with General Utilities. (NeurIPS 2020)

面向未来，王梦迪在强化学习中的另一项重要研究，便是数据降维（Dimensionality Reduction）和离线学习（Offline Learning）。
王梦迪的研究路线一向清晰：从理论研究出发，再将理论上的突破推向实际应用。基于离线数据的、在现实生活中落地的决策优化问题，便是王梦迪团队的一块「硬骨头」。
如前所述，在常见的游戏AI任务中，智能体能够通过不断模拟实验来收集数据，然后用这些数据来训练系统的策略网络。数据越多，算力充足，则算法越强，比如Alpha Go，AlphaStar，就能打败人类世界的冠军战队。
但在现实生活中，许多关键领域，比如医学与金融，并不具备像游戏般的完美模拟环境。因此，在模拟器上十分完美的强化学习算法，在现实生活中就未必能轻松地解决工程问题，比如医疗场景中的策略优化、复杂电力系统的最优控制等。这就是sim2real的难点。
王梦迪曾参加过一些医疗领域和生物技术领域的人工智能探索。在这些项目中，她的任务是将病人的病例数据当成「棋谱」，从中学习针对某一病例的诊断策略，并研究能否进一步优化诊断流程，降低病人的重症率。与游戏中的智能体可以「盲目」尝试、无限模拟不同，在医学环境中，病人没有办法做新的实验，而且数据可能极其有限。
在数据有限的情况下，研究者还能找到最优策略吗？亦或者是否可以退而求其次，将现有的策略进行最大程度的提高？如果要继续做实验，那么应该如何进行，才能以最小的代价收集到这些数据？这些问题，也就是「离线强化学习」所关心的问题。
显然，离线强化学习更看重「有效率」的尝试。王梦迪与团队通过数据降维的embedding方法，将数据从高维空间切换到低维空间，从而保留最有内容的信息，规避数据的过度拟合现象，为离线强化学习的研究开辟了新的道路。这些新探索在AI+医疗、新金融、AI「智造」等领域带来新的可能性。

5、面向未来的AI
应用数学和基础理论，往往是发现通用算法的起点。研究问题的通用性，逐渐拓宽研究的边界，加速了学科的交流与合作，也成就了王梦迪更大的研究世界观。