草莓味的棉花糖|陈根:当人工智能与猜拳狭路相逢,石头剪刀布还随机吗?

文/陈根
如果说 , 有一种决策的方法能跨越文化、种族和地域的限制 , 那么除了抽签这种纯靠运气的方式 , 恐怕只剩下猜拳了 。
猜拳被长久地使用在生活中不需要太多思考的决策里 , 一般认为 , 玩家获胜的概率应该是一样的 , 即恒定的30%左右 , 从长远来看 , 这使任意玩家同样有可能赢、平或输 。 这就是所谓的混合策略纳什均衡 , 在这种均衡中 , 每个参与者在每一轮中以相等的概率选择三个行动 。
草莓味的棉花糖|陈根:当人工智能与猜拳狭路相逢,石头剪刀布还随机吗?但事实可能并非如此 , 来自浙江大学的研究团队的研究发现 , 真正的玩家的策略看起来是随机的 , 但实际上是由可预测的模式组成的 , 狡猾的对手可以利用这些模式来获得重要的优势 。
具体来说 , 研究团队开发了一个基于基于n-阶马尔可夫链的人工智能模型——Multi-AI , 这意味着Multi-AI 拥有记忆性 , 能够向前追溯最多 n 个历史状态并加以利用 。 研究人员将单个模型结合起来 , 应对人类玩家的不同性格和策略 。
如果人类玩家连续胜利 , 就会促使 Multi-AI 转向选择其他人工智能模型的更优解 。 如果人类玩家连续失败 , 大概率会转换策略 , 或者打破之前的出拳规律 , 这时 Multi-AI 也可以随之调整 。
草莓味的棉花糖|陈根:当人工智能与猜拳狭路相逢,石头剪刀布还随机吗?这意味着一种不同的博弈策略 。 即Multi-AI 模型更强调针对不同玩家之间的个性差异、出拳策略 , 来及时的进行调控 , 选取当下最适宜的博弈策略 。
最终实验结果发现 , 在和52名人类玩家分别大战300回合之后 , 人工智能击败了95%的玩家 。 由于比赛规则是赢+2分 , 平+1分 , 输不得分 , 且参与者均知道获胜会获得金钱奖励 , 总分越高 , 赢的钱越多 , 因此玩家故意放水或者随便乱选的可能性极小 。
即便如此 , 人工智能仍然大胜人类 。 在最悬殊的一场较量中 , 人工智能获得了198次胜利 , 55次平手 , 仅输了47次 , 胜率超过人类对手4倍 。
【草莓味的棉花糖|陈根:当人工智能与猜拳狭路相逢,石头剪刀布还随机吗?】当然 , 这项关于猜拳的最新研究 , 成果不仅仅是一个很厉害的猜拳人工智能 , 还是一个很厉害的循环制衡模型分析师 , 这意味着人类的竞争行为确实有规律可循 , 而通过使用适当的简单模型就能利用这些规律 。 研究人员认为 , 该人工智能模型未来有望拓展到其他博弈场景 , 比如预测竞争对手的下一步举动 , 规划更有效的竞选策略 , 或者制定更有利的定价方案等等 。
草莓味的棉花糖|陈根:当人工智能与猜拳狭路相逢,石头剪刀布还随机吗?