中国科学院|AAAI 2022大奖出炉!中科院德州扑克程序AlphaHoldem获卓越论文奖( 二 )


中国科学院|AAAI 2022大奖出炉!中科院德州扑克程序AlphaHoldem获卓越论文奖
文章插图

2

AlphaHoldem是何方神圣?
这个问题也吸引了很多中国研究者,中科院自动化所的兴军亮教授团队便是其中之一。去年12月,他领导的博弈学习研究组针对德州扑克任务,提出了一种高水平、轻量化的两人无限注德州扑克AI程序——AlphaHoldem。
不同于已有的基于CFR算法的德州扑克AI,中科院博弈学习研究组所提出的架构是基于端到端的深度强化学习算法(如图4所示)。
中国科学院|AAAI 2022大奖出炉!中科院德州扑克程序AlphaHoldem获卓越论文奖
文章插图
图4:端到端学习德州扑克AI学习框架
根据团队介绍,AlphaHoldem采用Actor-Critic学习框架,其输入是卡牌和动作的编码,然后通过伪孪生网络(结构相同参数不共享)提取特征,并将一种改进的深度强化学习算法与一种新型的自博弈学习算法相结合,在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作进行决策。
他们还指出,AlphaHoldem的成功得益于其采用了一种高效的状态编码来完整地描述当前及历史状态信息、一种基于Trinal-Clip PPO损失的深度强化学习算法来大幅提高训练过程的稳定性和收敛速度、以及一种新型的Best-K自博弈方式来有效地缓解德扑博弈中存在的策略克制问题。
AlphaHoldem 使用了1台包含8块GPU卡的服务器,经过三天的自博弈学习后,战胜了Slumbot和DeepStack。每次决策时,AlphaHoldem都仅用了不到3毫秒,比DeepStack速度提升超过了1000倍。同时,AlphaHoldem与四位高水平德州扑克选手对抗1万局的结果表明其已经达到了人类专业玩家水平。
3

团队部分成员介绍
中国科学院|AAAI 2022大奖出炉!中科院德州扑克程序AlphaHoldem获卓越论文奖
文章插图

赵恩民,论文一作。中国科学院自动化研究所模式识别与智能系统专业博士四年级研究生,2018年于清华大学获得工学学士学位。研究方向为计算机扑克和深度强化学习。
中国科学院|AAAI 2022大奖出炉!中科院德州扑克程序AlphaHoldem获卓越论文奖
文章插图

兴军亮,中国科学院自动化研究所研究员、博士生导师、特聘青年骨干,中国科学院大学岗位教授,中国科学院人工智能创新研究院创新专家组专家。兴教授2012年毕业于清华大学计算机科学与技术系,获工学博士学位。
此外,他还是美国电器与电子工程学会(IEEE)高级会员、美国《科学》杂志中国官方公众号特邀评论员、中国计算机学会(CCF)高级会员、计算机视觉专委会委员。
他的主要研究领域为计算机视觉和计算机博弈。目前已在包括顶级国际期刊如TPAMI、IJCV、AI以及顶级国际会议上如ICCV、CVPR、AAAI、IJCAI上发表论文100多篇,谷歌学术引用超过10000次,出版计算机视觉译著2部,参与撰写深度学习领域著作1部、人工智能领域著作1部。
曾获清华大学计算机系“学术新秀”、“谷歌学者”、多次顶级国际和国内会议最佳论文奖等荣誉和奖励,以及十余次在人脸识别、车辆识别、视频识别等国际和国内挑战赛中获奖。
目前作为项目和课题负责人承担多项国家重点项目,研发的视觉感知相关技术在国家广电总局、华为、微软等得到了多次验证应用和落地推广,取得了良好的经济效益和社会价值。
近年来主要围绕深度强化学习相关的智能感知和决策问题,研发了多款针对不同游戏的博弈决策AI,其中研发的星际争霸AI曾获2017年IEEE CIG星际争霸AI第2名,研发的德州扑克AI程序AlphaHoldem胜率超过了目前公开的最好德州扑克AI程序DeepStack,速度提升超过1000倍。开放了学界首个大规模不完美信息博弈平台OpenHoldem。
4

AAAI 2022其他获奖工作
杰出论文奖:
  • 论文名称:Online Certification of Preference-Based Fairness for Personalized Recommender Systems
  • 作者团队:Virginie Do,Sam Corbett-Davies,Jamal Atif, Nicolas Usunier
杰出学生论文奖: