deepmind|DeepMind打造AI游戏王!挑战各种最强棋牌AI,战斗力惊人( 二 )
在完全信息游戏中,AlphaZero比Player of Games更强大,但在不完全的信息游戏中,AlphaZero就没那么游刃有余了。
Player of Games有很强通用性,不过不是什么游戏都能玩。参与研究的DeepMind高级研究科学家马丁·施密德(Martin Schmid)说,AI系统需考虑每个玩家在游戏情境中的所有可能视角。
虽然在完全信息游戏中只有一个视角,但在不完全信息游戏中可能有许多这样的视角,比如在扑克游戏中,视角大约有2000个。
此外,与DeepMind继AlphaZero之后研发的更高阶MuZero算法不同,Player of Games也需要了解游戏规则,而MuZero无需被告知规则即可飞速掌握完全信息游戏的规则。
在其研究中,DeepMind评估了Player of Games使用谷歌TPUv4加速芯片组进行训练,在国际象棋、围棋、德州扑克和策略推理桌游《苏格兰场》(Scotland Yard)上的表现。
文章插图
苏格兰场的抽象图,Player of Games能够持续获胜
在围棋比赛中,AlphaZero和Player of Games进行了200场比赛,各执黑棋100次、白棋100次。在国际象棋比赛中,DeepMind让Player of Games和GnuGo、Pachi、Stockfish以及AlphaZero等顶级系统进行了对决。
文章插图
不同智能体的相对Elo表,每个智能体与其他智能体进行200场比赛
在国际象棋和围棋中,Player of Games被证明在部分配置中比Stockfish和Pachi更强,它在与最强的AlphaZero的比赛中赢得了0.5%的胜利。
尽管在与AlphaZero的比赛中惨败,但DeepMind相信Player of Games的表现已经达到了“人类顶级业余选手”的水平,甚至可能达到了专业水平。
文章插图
Player of Games在德州扑克比赛中与公开可用的Slumbot对战。该算法还与Joseph Antonius Maria Nijssen开发的PimBot进行了苏格兰场的比赛。
文章插图
不同智能体在德州扑克、苏格兰场游戏中的比赛结果
结果显示,Player of Games是一个更好的德州扑克和苏格兰场玩家。与Slumbot对战时,该算法平均每hand赢得700万个大盲注(mbb/hand),mbb/hand是每1000 hand赢得大盲注的平均数量。
同时在苏格兰场,DeepMind称,尽管PimBot有更多机会搜索获胜的招数,但Player of Games还是“显著”击败了它。
三、研究关键挑战:训练成本太高施密德相信Player of Games是向真正通用的游戏系统迈出的一大步。
实验的总体趋势是,随着计算资源增加,Player of Games算法以保证产生更好的最小化-最优策略的逼近,施密德预计这种方法在可预见的未来将扩大规模。
“人们会认为,受益于AlphaZero的应用程序可能也会受益于游戏玩家。”他谈道,“让这些算法更加通用是一项令人兴奋的研究。”
当然,倾向于大量计算的方法会让拥有较少资源的初创公司、学术机构等组织处于劣势。在语言领域尤其如此,像OpenAI的GPT-3这样的大型模型已取得领先性能,但其通常需要数百万美元的资源需求,这远超大多数研究小组的预算。
即便是在DeepMind这样财力雄厚的公司,成本有时也会超过人们所能接受的水平。
对于AlphaStar,公司的研究人员有意没有尝试多种构建关键组件的方法,因为高管们认为训练成本太高。根据DeepMind披露的业绩文件,它在去年才首次盈利,年收入达到8.26亿英镑(折合约69亿人民币),获得4380万英镑(折合约3.67亿人民币)的利润。从2016年~2019年,DeepMind共计亏损13.55亿英镑(折合约113亿人民币)。
文章插图
据估计,AlphaZero的训练成本高达数千万美元。DeepMind没有透露Player of Games的研究预算,但考虑到每个游戏的训练步骤从数十万到数百万不等,这个预算不太可能低。
结语:游戏AI正助力突破认知及推理挑战目前游戏AI还缺乏明显的商业应用,而DeepMind的一贯理念是借其去探索突破认知和推理能力所面临的独特挑战。近几十年来,游戏催生了自主学习的AI,这为计算机视觉、自动驾驶汽车和自然语言处理提供了动力。
随着研究从游戏转向其他更商业化的领域,如应用推荐、数据中心冷却优化、天气预报、材料建模、数学、医疗保健和原子能计算等等,游戏AI研究对搜索、学习和博弈推理的价值愈发凸显。
“一个有趣的问题是,这种水平的游戏是否可以用较少的计算资源实现。”这个在Player of Games论文最后中被提及的问题,还没有明确的答案。
- 全面屏|春季打造12代酷睿主机要注意,机电散你知道该怎么选择吗?
- 苹果|国产拼命冲刺高端,苹果却在打造低端,这世道变了?
- 机械键盘|这把全钢打造的“大菜刀”,坚固耐用手感却无比柔和
- 摩尔定律|如何打造指数型产品?
- 模型|下沉市场企业,单店发展到连锁的切入点:打造门店KOL
- 抖音|抖音号新手怎么才能快速打造出高权重
- 超级马里奥|别具创意玩趣!高玩打造3D全息版《超级玛丽》
- |普通人如何打造知识付费体系?这篇文章给你答案
- iqoo|开年重磅旗舰:iQOO 9 Pro优秀硬件打造全面体验
- 四川长虹|曾蝉联20年销冠,无奈沦落至“卖楼”自保,今悄悄打造2只独角兽