OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(13)



在这个过程中,算法在评测关卡上的平均episode reward作为最终的分数,而总分则是在所有评测关卡上的平均。对于每一个这样的关卡,任务是学习到一个从原始的游戏的RGB图像到游戏手柄的12个物理按键的映射,以尽可能短的时间,让智能体通关。对于这次比赛而言,任务是通过在训练关卡上的预训练,尽可能地让算法在由专业的游戏设计师重新设计的关于索尼克的全新关卡上,迅速(100万帧)学习到最优通关策略。



技术方案



根据OpenAI提供的技术报告,针对这个问题,他们内部进行算法调研的结果显示,取得性能最好的方案是joint PPO, 要远胜于DQN的综合改进大杂烩版本Rainbow。同时考虑到ppo对内存的要求要小很多(不像DQN类的算法动辄百万的replay buffer ),且其样本利用率要高很多,所以我们计划首先从joint PPO开始,在训练游戏上得到一个全局策略,然后以此作为初始化权重,在测试游戏上进行100万帧的学习和测试。