游戏葡萄|现在放那儿自己跑就行了，网易的黑科技：以前策划写三四周AI 摘要：有了这样的AI之后

摘要：有了这样的AI之后，《逆水寒》1V1的代练就找不到了。
整理/安德鲁
“
强化学习不需要你去写规则。很多场景，以前可能策划需要写三四周的AI ，交给强化学习，策划不用管这个事情，让这个机器跑着就好了。
”
强化学习不需要你去写规则。很多场景，以前可能策划需要写三四周的AI ，交给强化学习，策划不用管这个事情，让这个机器跑着就好了。
前几天的北京国际游戏创新大会（BIGC）上，网易伏羲实验室的吕唐杰分享了他们对于应用强化学习的研究、理解和应用。
他重点讲述了强化学习的应用意义，以及怎样与以往游戏中传统AI开发方式结合，形成1+1大于2的效果。他也谈到了强化学习在游戏中的一些落地方式。比如《逆水寒》中，更多样化的AI应用，就让玩家的PVP内容有了极其丰富的层次——“有了这样的AI之后，《逆水寒》1V1的代练就找不到了。 ”
以下是葡萄君整理的演讲内容。
大家下午好，我叫吕唐杰，我今天的题目是《应用强化学习来开发游戏AI》。我们从2017年年底开始做强化学习，到现在做了快三年的时间，这方面积累了一些经验，今天给大家分享一下工作的一些成果。

文章图片
今天整个分享内容分成四个部分：
第一部分简单介绍一下强化学习和游戏AI ，强化学习刚才有几位老总都讲过了，我就不太细讲技术细节了。
第二部分介绍一下我们自研的一套强化学习框架， RLEase 。
【游戏葡萄|现在放那儿自己跑就行了，网易的黑科技：以前策划写三四周AI】第三部分是我们真正通过强化学习的落地效果。
第四部分，强化学习多个场景下遇到了很多问题，我觉得还有很多需要解决的。
一
第一部分，先介绍一下什么是强化学习以及游戏AI 。强化学习跟深度学习、监督学习不太一样，强化学习更像是人类学习的过程。它的目标是最大化累计的reward ，我们感知到环境做一些行为，这个行为会让外部环境发生改变，外部环境对我们反馈，根据这个反馈我们学习这个行为到底好还是不好，这个目标是长期的目标，我可以承受一些短期的负惩罚。
强化学习不是看短期目标，而是看非常长期的目标，只要奔着长期目标好的事情就会做。强化学习这几年有了巨大的发展，包括这一波人工智能的技术，我觉得其实也是由强化学习来推动这个潮流。最早从谷歌用AI来玩游戏，八十年代的游戏非常简单。相对于最有名的、做得最好的两个公司，一个是DeepMind ，一个是OpenAI 。他们现在已经有新的OpenAI的应用，在《星际争霸2》游戏项目上做到了顶尖人类选手的水平，是以前我们做传统AI几乎无法想象的效果。
强化学习这几年取得了非常大的进展，对于游戏开发者来说，强化学习到底怎么用？你肯定很懵，这个强化学习怎么用到我们实际游戏开发里面？

文章图片
游戏开发者更熟悉的AI技术，一个是有限状态机，一个是行为树。这两种技术都认为是一种规则技术，说白了就是人去写规则，你想要它什么样的行为，你就写出什么样的规则出来。
状态机也好，或者行为树也好，只是做了AI开发范示，怎么在游戏里面把规则写得清楚，不出现太大的问题——你要写一个非常复杂的AI ，或者水平非常高的AI 。为什么会有这个问题？因为人自己也想不清楚到底该去怎么打，这个场景太复杂了。如果想要变得那么强的话，一个是树变得非常巨大，二是可能树之间的规则写着写着就搞不太清楚了，很难把握这个点。