AlphaGo原来是这样运行的,一文详解多智能体强化学习( 五 )
在 MADDPG 中 , 个体维护的中心化 Q 值需要知道全局的状态信息和所有智能体的动作信息 , 此时假设了智能体能够通过通信或者是某种方式得知其他智能体的观测值和策略 , 这种假设前提过于严格 。 MADDPG 进一步提出了可以通过维护策略逼近函数 \ hat{\miu}来估计其他智能体的策略 , 通过对其他智能体的行为建模使得维护中心化的 Q 值、考虑联合动作效应对单个个体来说是可行的 。 智能体 i 在逼近第 j 个智能体的策略函数时 , 其优化目标是令策略函数能够近似经验样本中智能体 j 的行为 , 同时考虑该策略的熵 , 可表示为:
文章插图
除了考虑联合动作以外 , MADDPG 在处理环境不稳定问题方面还使用了策略集成(policies ensemble)的技巧 。 由于环境中的每个智能体的策略都在迭代更新 , 因此很容易出现单个智能体的策略对其他智能体的策略过拟合 , 即当其他智能体的策略发生改变时 , 当前得到的最优策略不一定能很好的适应其他智能体的策略 。 为了缓和过拟合问题 , MADDPG 提出了策略集成的思想 , 即对于单个智能体 i , 它的策略μi 是由多个子策略μi^k 构成的集合 。 在一个 episode 中 , 只使用一种从集合中采样得到的子策略进行决策和完成交互 。 在学习过程中最大化的目标是所有子策略的期望回报 , 即
每个子策略的更新梯度为:
总的来说 , MADDPG 的核心是在 DDPG 算法的基础上 , 对每个智能体使用全局的 Q 值来更新局部的策略 , 该方法在完全合作、完全竞争和混合关系的问题中都能取得较好效果 。 算法流程如下所示:
文章插图
图 7:MADDPG 算法流程 。 图源:[9]
2. 反事实多智能体策略梯度法方法(Counterfactual Multi-Agent Policy Gradients, COMA)
文章插图
在合作式的多智能体学习问题中 , 每个智能体共享奖励(即在同一个时刻获得相同的奖励) , 此时会存在一个 “置信分配” 问题(credit assignment):如何去评估每个智能体对这个共享奖励的贡献?
COMA 方法在置信分配中利用了一种反事实基线:将智能体当前的动作和默认的动作进行比较 , 如果当前动作能够获得的回报高于默认动作 , 则说明当前动作提供了好的贡献 , 反之则说明当前动作提供了坏的贡献;默认动作的回报 , 则通过当前策略的平均效果来提供(即为反事实基线) 。 在对某个智能体和基线进行比较的时 , 需要固定其他智能体的动作 。 当前策略的平均效果和优势函数的定义如下:
文章插图
文章插图
COMA 方法结合了集中式训练、分布式执行的思想:分布式的个体策略以局部观测值为输入、输出个体的动作;中心化的 critic 使用特殊的网络结构来输出优势函数值 。
具体地 , critic 网络的输入包括了全局状态信息 s、个体的局部观测信息 o、个体的编号 a 以及其他智能体的动作 , 首先输出当前智能体不同动作所对应的联合 Q 值 。 然后 ,再经过 COMA 模块 , 使用输入其中的智能体当前策略和动作 , 计算反事实基线以及输出最终的优势函数 。
文章插图
图 8:(a) COMA 方法中的 actor-critic 框架图 , (b) actor 的网络结构 , (c) critic 的网络结构(包含了核心的 COMA 模块来提供优势函数值) 。 图源:[10]
2.2 value-based 的方法
在前面提到的 policy-based 方法中 , 中心化的值函数是直接使用全局信息进行建模 , 没有考虑个体的特点 。 在多智能体系统是由大规模的多个个体构成时 , 这样的值函数是难以学习或者是训练到收敛的 , 很难推导出理想的策略 。 并且仅依靠局部观测值 , 无法判断当前奖励是由于自身的行为还是环境中其他队友的行为而获得的 。
文章插图
值分解网络(value decomposition networks, VDN)由 DeepMind 团队在 2018 年提出 , 该方法的核心是将全局的 Q(s,a)值分解为各个局部 Qi(si,ai)的加权和 , 每个智能体拥有各自的局部值函数 。
文章插图
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 行业|现在行业内客服托管费用是怎么算的
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 手机基带|为了5G降低4G网速?中国移动回应来了:罪魁祸首不是运营商
- 技术|做“视频”绿厂是专业的,这项技术获人民日报评论点赞
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 体验|闭上眼睛点外卖是什么感觉?时隔一年再次体验,进步令人欣慰
- 再次|华为Mate40Pro干瞪眼?P50再次曝光,这次是真香!
- 当初|这是我的第一部华为手机,当初花6799元买的,现在“一文不值”?
- 无国界|嘴上说着支持华为,却为苹果贡献了2000亿!还真是科技无国界啊?