OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(13)
在这个过程中,算法在评测关卡上的平均episode reward作为最终的分数,而总分则是在所有评测关卡上的平均。对于每一个这样的关卡,任务是学习到一个从原始的游戏的RGB图像到游戏手柄的12个物理按键的映射,以尽可能短的时间,让智能体通关。对于这次比赛而言,任务是通过在训练关卡上的预训练,尽可能地让算法在由专业的游戏设计师重新设计的关于索尼克的全新关卡上,迅速(100万帧)学习到最优通关策略。
技术方案
根据OpenAI提供的技术报告,针对这个问题,他们内部进行算法调研的结果显示,取得性能最好的方案是joint PPO, 要远胜于DQN的综合改进大杂烩版本Rainbow。同时考虑到ppo对内存的要求要小很多(不像DQN类的算法动辄百万的replay buffer ),且其样本利用率要高很多,所以我们计划首先从joint PPO开始,在训练游戏上得到一个全局策略,然后以此作为初始化权重,在测试游戏上进行100万帧的学习和测试。
- 新技术带来新挑战 网络信息安全创新永远在路上
- 遂宁首届抖音挑战赛决赛现场,小伙的"特异功能"惊艳全
- 世界人工智能大赛·智能机器人创新挑战赛决出前三强
- 江津四面山生态五项国际挑战赛下月开赛 总奖金50万等你来拿
- 挑战贝克汉姆老婆的健身餐,澳洲妹子直接吃到崩溃了!
- 刘鹤十年前提出的“经济挑战”都出现了!
- 离石白马仙洞举办山地自行车挑战赛精彩现场(视频/图)
- 刘鹤十年前提出的“经济挑战”都出现了
- 哈弗H9、传祺GS8、比亚迪唐出战,挑战日系最强硬汉,战况惨烈!
- 美国海军正式重启第二舰队 叫嚣为应对中俄挑战