【博弈论】博弈论速成指南:那些融入深度学习的经典想法和新思路


选自TowardsDataScience
作者:Jesus Rodriguez
机器之心编译
参与:魔王、杜伟
随着人工智能的发展 , 博弈论迎来了复兴 。 关于博弈论 , 数据科学家需要了解哪些经典思想和新思路呢?本文作者就这些问题一一展开了分析 。 通过此文 , 相信读者会对博弈论的概念和分类有更清晰的理解 。
【博弈论】博弈论速成指南:那些融入深度学习的经典想法和新思路
本文插图
博弈论是最让人着迷的数学领域之一 , 它影响了多个不同领域 , 如经济学、社会科学、生物学 , 显然还有计算机科学 。 博弈论的定义有很多 , 但我认为以下这个定义非常有帮助 , 尽管它过分简洁:
博弈论是具备激励机制的概率 。
游戏在人工智能发展过程中起到关键作用 。 对于初学者而言 , 游戏环境在强化学习或模仿学习等领域中逐渐成为流行的训练机制 。 理论上 , 任何多智能体 AI 系统都要经历玩家之间的游戏化交互 。 构建游戏原则的数学分支正是博弈论 。 在人工智能语境和深度学习系统语境下 , 要想使多智能体环境具备一些必备的重要能力 , 博弈论必不可少 。 在多智能体环境中 , 不同的 AI 程序需要交互或竞争才能达成目标 。
博弈论的历史与计算机科学史密不可分 。 目前博弈论领域中的许多研究可以追溯至阿兰·图灵、冯·诺伊曼这些计算机科学先驱的工作 。 因电影《美丽心灵》而闻名于世的纳什均衡(Nash equilibrium)是现代系统中很多 AI 交互的基础 。 但是 , 利用博弈论原则多次建模 AI 宇宙超出了纳什均衡的范畴 。 想理解如何利用博弈论构建 AI 系统 , 最好先理解我们在社会或经济互动中常遇到的博弈类型 。
我们每天参与数百种基于游戏动态(game dynamics)的交互 。 但是 , 游戏化环境的架构与此完全不同 , 其激励和参与者目的也不相同 。 如何将这些原则应用到 AI 智能体建模中呢?这个难题推动 AI 研究某些领域的发展 , 如多智能体强化学习 。
显然 , 游戏是博弈论最具可见性的实体 , 但它远远不是应用博弈论概念的唯一空间 。 也就是说 , 还有很多其他领域也受到博弈论和 AI 的共同影响 。 大多数需要多个「参与者」合作或竞争才能完成任务的场景都可以利用 AI 技术进行游戏化和改进 。 尽管之前的陈述是一种泛化 , 但我认为它传达出了一个信息:博弈论和 AI 是一种思考和建模软件系统的方式 , 而不只是一种技术 。
利用博弈论的 AI 场景应包含不止一个参与者 。 例如 , Salesforce Einstein 这类销售预测优化 AI 系统就不是应用博弈论原则的完美场景 。 但是 , 在多智能体环境中 , 博弈论又有明显不同 。
在 AI 系统中建构游戏动态需要两步:
【博弈论】博弈论速成指南:那些融入深度学习的经典想法和新思路
本文插图

  • 参与者设计:博弈论可用来优化参与者的决策 , 以获得最大效用;
  • 机制设计:逆博弈论(inverse game theory)主要为一组智能参与者设计游戏 。 拍卖就是机制设计的经典案例 。
那么 AI 时代的数据科学家又需要了解哪些博弈呢?这些博弈彼此之间是否存在着联系呢?本文作者、Invector Labs 首席科学家兼执行合伙人 Jesus Rodriguez 对此发表了自己的看法 。
【博弈论】博弈论速成指南:那些融入深度学习的经典想法和新思路
本文插图
本文作者 Jesus Rodriguez 。
数据科学家应该知道的 5 种博弈
假设我们正在构建一个需要多个智能体互相合作竞争才能完成特定目标的 AI 系统 , 即博弈论的经典场景 。 自 20 世纪 40 年代诞生以来 , 博弈论专注于建模最常见的交互模式 , 现在我们每天在多智能体 AI 系统中看到的就是它们 。 理解环境中不同类型的游戏动态是设计高效游戏化 AI 系统的关键元素 。 从较高层次来看 , 五元素标准有助于理解 AI 环境中的游戏动态 , 即对称 vs 非对称、完美信息 vs 非完美信息、合作 vs 非合作、同时 vs 序列和零和 vs 非零和 。 下面将一一展开介绍 。