AlphaGo原来是这样运行的,一文详解多智能体强化学习( 三 )
图 4:nash-Q learning 算法流程 。 图源:[5]
1.2.3 智能体之间是完全合作关系
前面提到的智能体之间的两种关系 , 都涉及到了个体和个体的相互竞争 , 所以对于个体来说 , 在策略学习过程中考虑对方(更一般地 , 其他智能体)的决策行为 , 才能够做出更好地应对动作 , 这是比较容易理解的 。 那么 , 如果智能体之间完全是合作关系 , 个体的决策也要考虑其他智能体的决策情况吗?实际上 , “合作”意味着多个智能体要共同完成一个目标任务 , 即这个目标的达成与各个体行为组合得到的联合行为相关;如果个体“一意孤行” , 那么它很难配合其他队友来共同获得好的回报 。 所以 , 智能体的策略学习仍然需要考虑联合动作效应 , 要考虑其他具有决策能力的智能体的影响 。
怎样实现在智能体策略学习过程中考虑其他协作智能体的影响呢?这个问题我们可以分类讨论 , 分类的依据是具体问题对于智能体协作的条件要求 , 即智能体通过协作获得最优回报时 , 是否需要协调机制:
不需要协作机制
对于一个问题(或者是任务) , 当所有智能体的联合最优动作是唯一的时候 , 完成该任务是不需要协作机制的 。 这个很容易理解 , 假设对于环境中的所有智能体 存在不只一个最优联合动作 , 即有 和 , 那么 A 和 B 之间就需要协商机制 , 决定是同时取π , 还是同时取 h;因为如果其中一个取π、另一个取 h , 得到的联合动作就不一定是最优的了 。 Team Q-learning 是一种适用于不需要协作机制的问题的学习方法 , 它提出对于单个智能体 i , 可以通过下面这个式子来求出它的最优动作 hi:
Distributed Q-learning 也是一种适用于不需要协作机制的问题的学习方法 , 不同于 Team Q-learning 在选取个体最优动作的时候需要知道其他智能体的动作 , 在该方法中智能体维护的是只依据自身动作所对应的 Q 值 , 从而得到个体最优动作 。
隐式的协作机制
在智能体之间需要相互协商、从而达成最优的联合动作的问题中 , 个体之间的相互建模 , 能够为智能体的决策提供潜在的协调机制 。 在联合动作学习(joint action learner , JAL)[6]方法中 , 智能体 i 会基于观察到的其他智能体 j 的历史动作、对其他智能体 j 的策略进行建模 。 在频率最大 Q 值(frequency maximum Q-value, FMQ)[7]方法中 , 在个体 Q 值的定义中引入了个体动作所在的联合动作取得最优回报的频率 , 从而在学习过程中引导智能体选择能够取得最优回报的联合动作中的自身动作 , 那么所有智能体的最优动作组合被选择的概率也会更高 。
JAL 和 FMQ 方法的基本思路都是基于均衡求解法 , 但这类方法通常只能处理小规模(即智能体的数量较少)的多智能体问题:在现实问题中 , 会涉及到大量智能体之间的交互和相互影响 , 而一般的均衡求解法受限于计算效率和计算复杂度、很难处理复杂的情况 。 在大规模多智能体学习问题中 , 考虑群体联合动作的效应 , 包括当前智能体受到的影响以及在群体中发挥的作用 , 对于智能体的策略学习是有较大帮助的 。
文章插图
基于平均场理论的多智能体强化学习(Mean Field MARL, MFMARL)方法是 UCL 学者在 2018 年 ICML 会议上提出的一种针对大规模群体问题的方法 , 它将传统强化学习方法(Q-learning)和平均场理论(mean field theory)相结合 。 平均场理论适用于对复杂的大规模系统建模 , 它使用了一种简化的建模思想:对于其中的某个个体 , 所有其他个体产生的联合作用可以用一个 “平均量” 来定义和衡量 。 此时 , 对于其中一个个体来说 , 所有其他个体的影响相当于一个单体对于它的影响 , 这样的建模方式能够有效处理维度空间和计算量庞大的问题 。
MFMARL 方法基于平均场理论的建模思想 , 将所有智能体看作一个“平均场” , 个体与其他智能体之间的关系可以描述为个体和平均场之间的相互影响 , 从而简化了后续的分析过程 。
文章插图
图 5:基于平均场理论的多智能体建模方式 , 单个智能体只考虑与相邻的其他智能体(蓝色球体区域)的相互作用 。 图源:[8]
首先 , 为了处理集中式全局值函数的学习效果会受到智能体数量(联合动作的维度)的影响 , 对值函数进行分解 。 对于单个智能体 j , 它的值函数 Qj(s,a)包含了与所有 Nj 个相邻智能体 k 之间的相互作用:
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 行业|现在行业内客服托管费用是怎么算的
- 王兴称美团优选目前重点是建设核心能力;苏宁旗下云网万店融资60亿元;阿里小米拟增资居然之家|8点1氪 | 美团
- 手机基带|为了5G降低4G网速?中国移动回应来了:罪魁祸首不是运营商
- 技术|做“视频”绿厂是专业的,这项技术获人民日报评论点赞
- 互联网|苏宁跳出“零售商”重组互联网平台业务 融资60亿只是第一步
- 体验|闭上眼睛点外卖是什么感觉?时隔一年再次体验,进步令人欣慰
- 再次|华为Mate40Pro干瞪眼?P50再次曝光,这次是真香!
- 当初|这是我的第一部华为手机,当初花6799元买的,现在“一文不值”?
- 无国界|嘴上说着支持华为,却为苹果贡献了2000亿!还真是科技无国界啊?