网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了( 四 )


网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了
文章图片
最终我们上线之后调了难度,不会让玩家体验到这个AI 。我们调了之后在贴吧里关注了玩家的反馈,感觉整体上正面反馈远远大于负面反馈 。整个策划开发团队对这样的AI效果也是比较满意的 。
我们这个AI让玩家自己选择打,他挑战别人的时候也可以用AI,而且他也可以选择什么类型的AI 。有了这样的AI之后,《逆水寒》1V1的代练就找不到了 。
网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了
文章图片
这是更多游戏上落地的效果,我们在格斗、棋牌,卡牌和体育游戏都有相关积累 。这些AI已经上线部署了,现在就在用 。右下角是正在测试的一款游戏,年底也是要上线的,这是其中的卡牌玩法 。
游戏方比较重视这个玩法,原来不太好做,因为卡牌很多,也不太好测卡组的平衡性 。后来AI测试的时候,基本上达到了玩家体验的时候的感觉 。因为我们有酒馆,这个场景下,AI的使用率达到70%,30%是玩家之间打 。具体来讲,第一是打我们的AI受挫感比较低,第二没有人知道他打AI输了 。他在酒馆设计自己的套路和想法是非常适合的 。
网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了
文章图片
还有一些附加的效果,强化学习还能做一些什么事情?比如说刚刚讲的平衡性测试,我们在《逆水寒》里面做过,龙吟这个职业上线前做过一些平衡性测试,去看一下它跟其他职业整体对战的效果 。
第一版给我们测之前,训完AI效果大概就是——这个职业碾压所有其他职业,而且碾压度非常高,是完虐型的打法 。然后我们给开发组提供数据,给他们截了一些视频,他们看过之后做了一些数值、技能迭代 。迭代完以后再测,测完后再给新版本 。龙吟上线之后经历过三次版本,可以看到上线的效果,做种版本没有起初的那种碾压效果 。

强化学习也有很多问题,比如拟人化的游戏AI 。怎么解决这个问题,一种比较简单的想法:用专家数据进行模仿学习 。这里有个很大的问题是需要数据,如果是“像人”的话,接受学习肯定需要大量的玩家数据 。这里存在一个悖论,游戏对于AI最大的需求是游戏上线之后一开始那段时间,玩家不多的时候让AI活跃游戏 。当然,像《王者荣耀》那样热门的游戏,可能AI的需求度没那么高,因为玩家之间所有的难度匹配都能满足需求 。
而如果游戏还没上线,游戏刚开始的时候需要AI,我们数据从哪儿来?没有那么多的玩家,这是一个比较大的问题 。
网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了
文章图片
另外,采集数据的时候是需要预处理的,预处理工作量比较大 。还有一个困难,“像人”是主观的,实际上我们发现它非常主观,每个人都有自己的想法,关于像人到底是什么也是非常大的问题,怎么样评价像人这样一个指标?我们能想到的一点,是让玩家测试,直接让玩家做一些黑箱测试,让他判断对面是人还是AI 。但这个成本比较高,因为要请一些玩家测试 。怎么样通过数据评价?这是比较难的问题 。
网易|网易的黑科技:以前策划写三四周AI,现在放那儿自己跑就行了
文章图片
还有一个问题在模型上线之前 。模型是个神经网络,很多时候动作会输出一些不合人类逻辑、常识的行为出来 。所以策划跟QA一般给会很多意见,AI上线之后,持续迭代的过程中也会给很多意见 。怎么样把这些意见跟模型结合起来?这也是比较大的问题,也有点难 。
比较简单的,可能我在流程图里面插一些规则,在某些策划的强制建议里面走强制建议就行了 。但这个时候也会出现意想不到的情况,比如说模型的输出跟策划的输入是矛盾的 。因为可能没法控制模型它到底是什么行为,它有自己的想法,还有可能是对的,只是不符合我们的认知而已,有可能会出这样的一些死循环 。
还有另一个比较大的需求——就是不仅需要拟人化的高水平AI,还希望AI的打法多一些,提升玩家乐趣 。我们做过尝试,在《逆水寒》中做了多样化的AI 。比如说右边这三个神像,有三种完全不同的打法 。平衡型的可能符合正常人的思路,还有激进型的、保守型的 。我们这边的一些经验,是可以结合进化算法来做的,进化算法跟强化学习产生多种高水平的AI 。进化算法比强化学习还高,这两种结合的要求会更高,成本可能会超出我们目前能够承受的门槛 。
另外,其实进化算法也需要设定一些目标 。我们可能一开始是激进也好,保守也好,都是对这个游戏有一定的理解的,知道某个游戏有什么样的风格才行 。如果是完全不同的游戏,就需要专家给出解答 。因为策划的表述,并不是直接转化成我们理解的、直接用在算法里的东西 。
这是我今天所有的内容了 。总的来说,我感觉强化学习技术还是挺棒的,能做很多事情 。但是也有很多新的问题,我们也在持续的探索过程中 。