网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了

摘要:有了这样的AI之后,《逆水寒》1V1的代练就找不到了 。
整理/安德鲁

强化学习不需要你去写规则 。很多场景,以前可能策划需要写三四周的AI,交给强化学习,策划不用管这个事情,让这个机器跑着就好了 。

强化学习不需要你去写规则 。很多场景,以前可能策划需要写三四周的AI,交给强化学习,策划不用管这个事情,让这个机器跑着就好了 。
前几天的北京国际游戏创新大会 (BIGC)上,网易伏羲实验室的吕唐杰分享了他们对于应用强化学习的研究、理解和应用 。
他重点讲述了强化学习的应用意义,以及怎样与以往游戏中传统AI开发方式结合,形成1+1大于2的效果 。他也谈到了强化学习在游戏中的一些落地方式 。比如《逆水寒》中,更多样化的AI应用,就让玩家的PVP内容有了极其丰富的层次——“有了这样的AI之后,《逆水寒》1V1的代练就找不到了 。”
以下是葡萄君整理的演讲内容 。
大家下午好,我叫吕唐杰,我今天的题目是《应用强化学习来开发游戏AI》 。我们从2017年年底开始做强化学习,到现在做了快三年的时间,这方面积累了一些经验,今天给大家分享一下工作的一些成果 。
网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了
文章图片
今天整个分享内容分成四个部分:
第一部分简单介绍一下强化学习和游戏AI,强化学习刚才有几位老总都讲过了,我就不太细讲技术细节了 。
第二部分介绍一下我们自研的一套强化学习框架,RLEase 。
第三部分是我们真正通过强化学习的落地效果 。
第四部分,强化学习多个场景下遇到了很多问题,我觉得还有很多需要解决的 。

第一部分,先介绍一下什么是强化学习以及游戏AI 。强化学习跟深度学习、监督学习不太一样,强化学习更像是人类学习的过程 。它的目标是最大化累计的reward,我们感知到环境做一些行为,这个行为会让外部环境发生改变,外部环境对我们反馈,根据这个反馈我们学习这个行为到底好还是不好,这个目标是长期的目标,我可以承受一些短期的负惩罚 。
强化学习不是看短期目标,而是看非常长期的目标,只要奔着长期目标好的事情就会做 。强化学习这几年有了巨大的发展,包括这一波人工智能的技术,我觉得其实也是由强化学习来推动这个潮流 。最早从谷歌用AI来玩游戏,八十年代的游戏非常简单 。相对于最有名的、做得最好的两个公司,一个是DeepMind,一个是OpenAI 。他们现在已经有新的OpenAI的应用,在《星际争霸2》游戏项目上做到了顶尖人类选手的水平,是以前我们做传统AI几乎无法想象的效果 。
强化学习这几年取得了非常大的进展,对于游戏开发者来说,强化学习到底怎么用?你肯定很懵,这个强化学习怎么用到我们实际游戏开发里面?
网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了
文章图片
游戏开发者更熟悉的AI技术,一个是有限状态机,一个是行为树 。这两种技术都认为是一种规则技术,说白了就是人去写规则,你想要它什么样的行为,你就写出什么样的规则出来 。
状态机也好,或者行为树也好,只是做了AI开发范示,怎么在游戏里面把规则写得清楚,不出现太大的问题——你要写一个非常复杂的AI,或者水平非常高的AI 。为什么会有这个问题?因为人自己也想不清楚到底该去怎么打,这个场景太复杂了 。如果想要变得那么强的话,一个是树变得非常巨大,二是可能树之间的规则写着写着就搞不太清楚了,很难把握这个点 。
强化学习可以解决这个问题 。强化学习是一种自学习的技术,不需要你去写规则 。包括我们现在落地下来一些感觉:很多场景,以前可能策划需要写两周,三四周的AI,强化学习交给它,策划不用管这个事情,让这个机器跑着就好了 。强化学习有这个能力,但是它也会有很多的问题 。
网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了
文章图片
强化学习技术门槛也有点高,我们想的是:
第一点,怎么降低强化学习的接入和使用的门槛,让更多的游戏开发者能使用上这个技术?
第二点,因为强化学习技术本身发展在日新月异,学术圈非常火爆,基本每年都会大量的文章出来,新技术、新发展 。研究人员可能想在我们的游戏环境中,实验一下新想法、新算法,怎么能让AI研究人员更好地理解游戏的需求?因为游戏环境还是挺复杂的,需要很多的专业背景 。
第三点,我们已经有很多的传统AI技术,怎么结合传统AI技术与强化学习,这个也是比较重要的问题 。
第四点,我们在想这个问题,如何将强化学习这个东西应用到更广泛的游戏领域,提升玩家体验 。

下一步就是介绍的我们这边做的RLEase框架,这个本质上是为了解决一些问题 。我们网易有一套自己的工具,传统的开发AI的工具,我们这边叫流程图 。其实就是我们写代码的时候会破坏一些示意图,我们有这样的工具来开发游戏AI,比如说用锁开门这样的AI 。