游戏葡萄|现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI

摘要:有了这样的AI之后 , 《逆水寒》1V1的代练就找不到了 。
整理/安德鲁

强化学习不需要你去写规则 。 很多场景 , 以前可能策划需要写三四周的AI , 交给强化学习 , 策划不用管这个事情 , 让这个机器跑着就好了 。

强化学习不需要你去写规则 。 很多场景 , 以前可能策划需要写三四周的AI , 交给强化学习 , 策划不用管这个事情 , 让这个机器跑着就好了 。
前几天的北京国际游戏创新大会(BIGC)上 , 网易伏羲实验室的吕唐杰分享了他们对于应用强化学习的研究、理解和应用 。
他重点讲述了强化学习的应用意义 , 以及怎样与以往游戏中传统AI开发方式结合 , 形成1+1大于2的效果 。 他也谈到了强化学习在游戏中的一些落地方式 。 比如《逆水寒》中 , 更多样化的AI应用 , 就让玩家的PVP内容有了极其丰富的层次——“有了这样的AI之后 , 《逆水寒》1V1的代练就找不到了 。 ”
以下是葡萄君整理的演讲内容 。
大家下午好 , 我叫吕唐杰 , 我今天的题目是《应用强化学习来开发游戏AI》 。 我们从2017年年底开始做强化学习 , 到现在做了快三年的时间 , 这方面积累了一些经验 , 今天给大家分享一下工作的一些成果 。
游戏葡萄|现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI
文章图片
今天整个分享内容分成四个部分:
第一部分简单介绍一下强化学习和游戏AI , 强化学习刚才有几位老总都讲过了 , 我就不太细讲技术细节了 。
第二部分介绍一下我们自研的一套强化学习框架 , RLEase 。
【游戏葡萄|现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI】第三部分是我们真正通过强化学习的落地效果 。
第四部分 , 强化学习多个场景下遇到了很多问题 , 我觉得还有很多需要解决的 。

第一部分 , 先介绍一下什么是强化学习以及游戏AI 。 强化学习跟深度学习、监督学习不太一样 , 强化学习更像是人类学习的过程 。 它的目标是最大化累计的reward , 我们感知到环境做一些行为 , 这个行为会让外部环境发生改变 , 外部环境对我们反馈 , 根据这个反馈我们学习这个行为到底好还是不好 , 这个目标是长期的目标 , 我可以承受一些短期的负惩罚 。
强化学习不是看短期目标 , 而是看非常长期的目标 , 只要奔着长期目标好的事情就会做 。 强化学习这几年有了巨大的发展 , 包括这一波人工智能的技术 , 我觉得其实也是由强化学习来推动这个潮流 。 最早从谷歌用AI来玩游戏 , 八十年代的游戏非常简单 。 相对于最有名的、做得最好的两个公司 , 一个是DeepMind , 一个是OpenAI 。 他们现在已经有新的OpenAI的应用 , 在《星际争霸2》游戏项目上做到了顶尖人类选手的水平 , 是以前我们做传统AI几乎无法想象的效果 。
强化学习这几年取得了非常大的进展 , 对于游戏开发者来说 , 强化学习到底怎么用?你肯定很懵 , 这个强化学习怎么用到我们实际游戏开发里面?
游戏葡萄|现在放那儿自己跑就行了,网易的黑科技:以前策划写三四周AI
文章图片
游戏开发者更熟悉的AI技术 , 一个是有限状态机 , 一个是行为树 。 这两种技术都认为是一种规则技术 , 说白了就是人去写规则 , 你想要它什么样的行为 , 你就写出什么样的规则出来 。
状态机也好 , 或者行为树也好 , 只是做了AI开发范示 , 怎么在游戏里面把规则写得清楚 , 不出现太大的问题——你要写一个非常复杂的AI , 或者水平非常高的AI 。 为什么会有这个问题?因为人自己也想不清楚到底该去怎么打 , 这个场景太复杂了 。 如果想要变得那么强的话 , 一个是树变得非常巨大 , 二是可能树之间的规则写着写着就搞不太清楚了 , 很难把握这个点 。