终极版AlphaGo,DeepMind新算法MuZero作者解读( 三 )
结语希望本文对MuZero的介绍对你有所启发!
如果想了解更多细节,可以阅读原文,还可以查看我在NeurIPS的poster以及在ICAPS上发表的关于MuZero的演讲。
最后,分享给你一些其他研究人员的文章,博客和GitHub项目:
<ahelp_12" name="help_12">
- A Simple Alpha(Go) Zero Tutorial
- MuZero General implementation
- How To Build Your Own MuZero AI Using Python
- 为简单起见,在MuZero中仅使用单个网络进行预测。
- 根据Rémi Coulom在2006年发表的Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search,MCTS为解决围棋问题提供可能。具体而言,MCTS中的“蒙特卡洛”指在围棋比赛中的随机模拟数,通过计算每次随机移动得获胜概率从而选择合适位置。
- MuZero中使用的比例因子为∑bn(s,b)√1+n(s,a)?(c1+log(∑bn(s,b)+c2+1c2)),其中n(s,a)表示从状态s到动作a的访问次数,常数c1和c2分别为1.25和19652,它们决定先验对于值估计得重要性。请注意,当c2远大于n时,c2的确切值不再重要,对数项此时为0。在这种情况下,公式简化为c1?∑bn(s,b)√1+n(s,a)c1。
- 就像AlphaGo之前的许多Go程序使用的随机卷展,随机评估函数有一定作用。但如果评估函数是确定性的(如标准神经网络),那么对同一节点多次评估没什么意义。
- 在棋盘游戏中,折扣因子γ为1,TD步数趋于无限,因此,这仅适用于对蒙特卡洛奖励(游戏获胜者)的预测。
- 在运行MuZero时,无需单独对行动者进行重分析:由于只有一组行动者,在每次行动之前决定是与环境交互生成新轨迹还是对存储轨迹进行重分析。
如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。
【终极版AlphaGo,DeepMind新算法MuZero作者解读】
文章插图
- playstation5|手慢就没有了!索尼PS5国行版将在双十二补货:库存一万台
- 英特尔|英特尔正在通过非K版本的Alder Lake改变现状
- 华为mate20pro|一台3年前256G版本的华为Mate20Pro放现在,相当于啥价位的手机?
- 原创|别花冤枉钱,我教你怎么样给电脑装系统,安装版与Ghost都不难!
- 米家|米家洗烘一体机尊享版10kg发布:首发2999元 一图看懂
- 联想|绷不住了!昔日虚空游戏本R9000P现货还便宜了,白色版降价更快
- nova9|5g版“华为nova9”发布,起步价格2999元,网友:价格太自信
- 车联网|加量不加价,荣耀60系列发布,俩版本差价1000元该选谁?
- 小米12|华为5G手机另类复活!Nova9新版发布:处理器和系统改头换面!
- 小米科技|小米12系列已知爆料汇总,新骁龙8+矩阵大底三摄,小屏版同时亮相