「博鳌亚洲论坛」研究团队还称有意出教材提升人类牌技,科技|微软麻将AI超越人类

人类以后想提升自己的麻将技能 , 可能要拜人工智能为师了 。
微软亚洲研究院研发的麻将AI系统Suphx在国际知名专业麻将平台“天凤”上荣升十段 , 且超越99.99%的人类后 , 研究团队在接受****采访时称 , 有日本出版社有意联系 , 准备把Suphx打的牌谱出一本书 , 如果对麻将感兴趣的 , 大家可以通过这本书来学怎么打麻将 。
4月9日 , 微软亚洲研究院Suphx研发团队通过线上直播 , 详细介绍了Suphx的技术细节 , 其论文近日在arXiv平台上发布 。 直播结束后 , 微软亚洲研究首席研究员秦涛、微软亚洲研究院高级研究工程师李俊杰在接受****采访时表示 , 团队目前正在和天凤平台协商 , 看是否考虑推出类似提升人类牌技的服务 。 例如 , 通过输入一个人当前的牌面 , Suphx会告诉这人该打哪张牌 , 以及它为什么打那张牌 。
有意思的是 , 据两位研究员透露 , 有日本出版社在联系 , 希望Suphx打的牌谱出一本书 。 “因为有麻将爱好者将Suphx称作麻将教科书、Suphx老师 , 如果对麻将感兴趣同学们 , 他们可以通过这个书来学怎么打牌 。 ”
「博鳌亚洲论坛」研究团队还称有意出教材提升人类牌技,科技|微软麻将AI超越人类
文章图片
图片来源:pixabay
Suphx如何提升牌技
去年8月 , 微软亚洲研究院在世界人工智能大会上正式宣布由其研发的麻将AI系统Suphx成为首个在国际知名专业麻将平台“天凤”上荣升十段的AI系统 。
在过去半年多的时间里 , 研究团队对Suphx又进行了调整 。 具体来说 , 一是把整个系统架构进行了重新的优化 , 使它更快、更好 。 另一个是 , 在算法上也做了改进 , 比如“先知教练” 。 从博弈论的角度来看 , 麻将是多人非完美信息博弈 。 麻将一共有136张牌 , 每一位玩家只能看到很少的牌 , 包括自己的13张手牌和所有人打出来的牌 , 更多的牌是看不到 , 包括另外三位玩家的手牌以及墙牌 。 面对如此多的隐藏未知信息 , 麻将玩家很难仅根据自己的手牌做出一个很好的决策 。
但通过先知教练 , Suphx可以可以看到所有的信息 , 包括(1)玩家自己的私有手牌 , (2)所有玩家的公开牌 , (3)其他公共信息 , (4)其他三个玩家的私有手牌 , (5)墙牌 。 只有(1)(2)和(3)是正常的玩家可以获得的 , 而(4)和(5)是只有“先知”才能获得的额外的"完美"信息 。
在Suphx中 , Suphx研发团队首先使用包括完美信息在内的所有特征来对“先知”进行强化学习训练 , 在这一步中控制“先知”的学习进度 , 不能让其过于强大 。 然后 , 通过对完美特征增加mask逐渐使“先知”最终过渡到正常AI 。 接着 , 继续训练正常AI并进行一定数量的迭代 , 采用衰减学习率和拒绝采样的技巧来调整训练过程 , 让AI的技术不断精进 。
正如AlphaGO一开始以人为师 , 升级后 , 开始自己“左右互博” , 不断提升 。 秦涛在采访中表示 , Suphx也尝试过完全不用人的数据做训练 , 直接用self-play , 是可以做好的 , 只不过是训练速度会慢一些 , 这也涉及到背后算法要做一些新的改动 , 让计算机学得更快 。
未来可用在股票操盘上
Suphx会打麻将只是第一步 。 两位研究员称 , 团队正在金融行业和物流行业做一些尝试 , 让Suphx技术落地实际应用场景 。
在金融领域里 , 如果我们能提前知道明天股票行情是 , 那么今天的投资肯定会做得很好 , 这在某种程度上就是完美信息 。 例如 , 今天A股已经闭盘了 , 那么我们就知道了今天所有的股票信息 , 当我们再回头看昨天 , 假设昨天做决策的时候就知道了今天股票的信息 , 那对股票操作来说就是完美信息 。 研究员认为 , 在这种情况下可以利用完美信息 , 帮助我们把模型训练得更好 。 实际应用的时候就像麻将里面一样 , 通过完美信息 , 我们可以得到一个非常强大的老师——Teachermodel , 这样学生模型studentmodel也会学的很好 。