网易|网易的黑科技：以前策划写三四周AI，现在放那儿自己跑就行了 AI人工智能|黑科技

摘要：有了这样的AI之后，《逆水寒》1V1的代练就找不到了。
整理/安德鲁
“
强化学习不需要你去写规则。很多场景，以前可能策划需要写三四周的AI，交给强化学习，策划不用管这个事情，让这个机器跑着就好了。
”
强化学习不需要你去写规则。很多场景，以前可能策划需要写三四周的AI，交给强化学习，策划不用管这个事情，让这个机器跑着就好了。
前几天的北京国际游戏创新大会（BIGC）上，网易伏羲实验室的吕唐杰分享了他们对于应用强化学习的研究、理解和应用。
他重点讲述了强化学习的应用意义，以及怎样与以往游戏中传统AI开发方式结合，形成1+1大于2的效果。他也谈到了强化学习在游戏中的一些落地方式。比如《逆水寒》中，更多样化的AI应用，就让玩家的PVP内容有了极其丰富的层次——“有了这样的AI之后，《逆水寒》1V1的代练就找不到了。”
以下是葡萄君整理的演讲内容。
大家下午好，我叫吕唐杰，我今天的题目是《应用强化学习来开发游戏AI》。我们从2017年年底开始做强化学习，到现在做了快三年的时间，这方面积累了一些经验，今天给大家分享一下工作的一些成果。

文章图片
今天整个分享内容分成四个部分：
第一部分简单介绍一下强化学习和游戏AI，强化学习刚才有几位老总都讲过了，我就不太细讲技术细节了。
第二部分介绍一下我们自研的一套强化学习框架，RLEase 。
第三部分是我们真正通过强化学习的落地效果。
第四部分，强化学习多个场景下遇到了很多问题，我觉得还有很多需要解决的。
一
第一部分，先介绍一下什么是强化学习以及游戏AI 。强化学习跟深度学习、监督学习不太一样，强化学习更像是人类学习的过程。它的目标是最大化累计的reward，我们感知到环境做一些行为，这个行为会让外部环境发生改变，外部环境对我们反馈，根据这个反馈我们学习这个行为到底好还是不好，这个目标是长期的目标，我可以承受一些短期的负惩罚。
强化学习不是看短期目标，而是看非常长期的目标，只要奔着长期目标好的事情就会做。强化学习这几年有了巨大的发展，包括这一波人工智能的技术，我觉得其实也是由强化学习来推动这个潮流。最早从谷歌用AI来玩游戏，八十年代的游戏非常简单。相对于最有名的、做得最好的两个公司，一个是DeepMind，一个是OpenAI 。他们现在已经有新的OpenAI的应用，在《星际争霸2》游戏项目上做到了顶尖人类选手的水平，是以前我们做传统AI几乎无法想象的效果。
强化学习这几年取得了非常大的进展，对于游戏开发者来说，强化学习到底怎么用？你肯定很懵，这个强化学习怎么用到我们实际游戏开发里面？

文章图片
游戏开发者更熟悉的AI技术，一个是有限状态机，一个是行为树。这两种技术都认为是一种规则技术，说白了就是人去写规则，你想要它什么样的行为，你就写出什么样的规则出来。
状态机也好，或者行为树也好，只是做了AI开发范示，怎么在游戏里面把规则写得清楚，不出现太大的问题——你要写一个非常复杂的AI，或者水平非常高的AI 。为什么会有这个问题？因为人自己也想不清楚到底该去怎么打，这个场景太复杂了。如果想要变得那么强的话，一个是树变得非常巨大，二是可能树之间的规则写着写着就搞不太清楚了，很难把握这个点。
强化学习可以解决这个问题。强化学习是一种自学习的技术，不需要你去写规则。包括我们现在落地下来一些感觉：很多场景，以前可能策划需要写两周，三四周的AI，强化学习交给它，策划不用管这个事情，让这个机器跑着就好了。强化学习有这个能力，但是它也会有很多的问题。

文章图片
强化学习技术门槛也有点高，我们想的是：
第一点，怎么降低强化学习的接入和使用的门槛，让更多的游戏开发者能使用上这个技术？
第二点，因为强化学习技术本身发展在日新月异，学术圈非常火爆，基本每年都会大量的文章出来，新技术、新发展。研究人员可能想在我们的游戏环境中，实验一下新想法、新算法，怎么能让AI研究人员更好地理解游戏的需求？因为游戏环境还是挺复杂的，需要很多的专业背景。
第三点，我们已经有很多的传统AI技术，怎么结合传统AI技术与强化学习，这个也是比较重要的问题。
第四点，我们在想这个问题，如何将强化学习这个东西应用到更广泛的游戏领域，提升玩家体验。
二
下一步就是介绍的我们这边做的RLEase框架，这个本质上是为了解决一些问题。我们网易有一套自己的工具，传统的开发AI的工具，我们这边叫流程图。其实就是我们写代码的时候会破坏一些示意图，我们有这样的工具来开发游戏AI，比如说用锁开门这样的AI 。