指控|博弈论中的纳什均衡和夏普利值,从数学上做出理性而聪明的决策


指控|博弈论中的纳什均衡和夏普利值,从数学上做出理性而聪明的决策
文章图片
指控|博弈论中的纳什均衡和夏普利值,从数学上做出理性而聪明的决策
文章图片

博弈论是一项关于竞争者之间决策的数学研究 。 它最早由数学家约翰-冯-诺伊曼和经济学家奥斯卡-莫根斯坦在20世纪40年代提出 。 它之所以被称为博弈论 , 是因为该理论试图了解两个或多个玩家(参与者)在特定情况下的策略 。 在博弈论中 , 两个或更多参与者之间的互动通常以具有一套特定规则的游戏来定义 。 它涉及零和博弈 , 这意味着一个玩家赢得的收益对其他玩家来说是一种损失 。 心理学、进化生物学、战争、政治、经济学、商业、计算机科学中的许多现象都可以被建模为博弈 。 因此 , 博弈论具有广泛的应用 。 博弈论有4个主要要素 。

  • 玩家:战略决策者
  • 策略:适用于特定游戏的规则
  • 结果:做出决定后的结果
  • 均衡:在博弈中 , 双方玩家都做出了自己的策略而不能采取任何其他行动的点
博弈理论有两个主要类别 , 即合作和非合作
非合作性非合作性博弈是每个玩家之间的竞争性博弈 , 其中会有一些赢家和一些输家 。 非合作博弈理论中最有名的例子是 \"囚徒困境\" 。
有两个罪犯 , 即小明和小华被警察抓住 , 被关在两个不同的房间里被审问 , 因此他们不能互相交流 。 所有可能的结果是 。
  • 如果小明和小华互相指控 , 他们各自在监狱中服刑两年 。
  • 如果小明指控小华 , 并且小华认罪 , 那么小明将被释放 , 小华将服刑三年 。
  • 如果小华指控小明 , 并且小明认罪 , 那么小华将被释放 , 小明将服刑三年 。
  • 如果小明和小华都认罪 , 他们都将只服一年的徒刑 。
在囚徒困境中 , 小明和小华各自选择一种策略 , 即指控或坦白 , 总共有四种可能的情况 , 每一种情况都对应着一种结果 。 因此 , 我们可以说明每种策略组合的结果矩阵 。
这意味着小明和小华最好选择指控对方 。 因为指控对方比他们一起认罪能获得更大的“回报” , 所有完全理性的自利的囚犯都会选择指控对方 , 这意味着他们两人唯一可能的结果就是指控对方 。 这个推理是基于一个两难境地 。
  • 小华要么认罪 , 要么指控 。
  • 如果小华认罪 , 小明就应该指控 , 因为获得自由比服刑一年要好 。
  • 如果小华指控 , 小明也应该指控 , 因为服两年刑期比服三年刑期要好 。 所以无论如何 , 小明都应该指控 。 同理 , 小华也应该指控 。
因为无论对方的选择如何 , 指控的结果总是比坦白的结果好 , 因此它是一种优势策略 。 博弈中唯一的纳什均衡(Nash equilibrium)(一组策略 , 没有参与者可以通过改变策略来提高自己的收益)是相互指控 。 进退两难的是 , 虽然相互坦白比相互指责有更好的结果 , 但这并不是一个理性的结果 , 因为从自利的角度来看 , 选择坦白并不理性 。 这不是一个合作性的游戏 , 因为所有的参与者都能从背后捅刀子中获益 。 囚徒困境适用于许多现实世界的问题 。 当你与他人竞争时 , 最好选择对你最有利的行动 , 不管其他人决定怎么做 。
合作性在合作博弈理论中 , 每个玩家都同意为同一个目标而合作 。 由于他们是以合作的方式一起工作 , 所以很常见的是把这个团体称为联盟 。 合作博弈中的问题是一个玩家对联盟的贡献有多大 , 一个玩家从联盟中获得多少利益 。 简单地说 , 它试图确定什么是公平的 。 如果一个非合作博弈有纳什均衡 , 那么合作博弈就有夏普利值(Shapley value) , 它根据玩家对联盟的贡献值在玩家之间划分收益和成本 。 它通过满足以下公理而发挥作用:
边际贡献 。 每个参与者的贡献可以通过把他们从联盟中移除来确定 。 假设联盟的目标是生产尽可能多的饮料 。 当小明被剔除后 , 联盟生产的饮料比小明在的那一天少了100件 。 因此 , 小明的边际贡献是100 。
可互换的参与者具有同等价值 。 如果2个玩家为联盟提供了同样的东西 , 他们贡献量就应该相同 。 因此 , 他们应该得到同等的奖励 。 如果2个人在餐馆里点同样的菜品 , 他们的账单应该是一样的 。
一个虚拟玩家的价值为零 。 如果联盟中的一个玩家根本没有贡献 , 他们根本不应该得到奖励 。 如果你和你的朋友一起去餐厅 , 但没有点任何东西 , 那么你就不应该支付任何账单 , 也根本不应该享用美食 。