网易|网易的黑科技：以前策划写三四周AI，现在放那儿自己跑就行了( 四 ) AI人工智能|黑科技

文章图片
最终我们上线之后调了难度，不会让玩家体验到这个AI 。我们调了之后在贴吧里关注了玩家的反馈，感觉整体上正面反馈远远大于负面反馈。整个策划开发团队对这样的AI效果也是比较满意的。
我们这个AI让玩家自己选择打，他挑战别人的时候也可以用AI，而且他也可以选择什么类型的AI 。有了这样的AI之后，《逆水寒》1V1的代练就找不到了。

文章图片
这是更多游戏上落地的效果，我们在格斗、棋牌，卡牌和体育游戏都有相关积累。这些AI已经上线部署了，现在就在用。右下角是正在测试的一款游戏，年底也是要上线的，这是其中的卡牌玩法。
游戏方比较重视这个玩法，原来不太好做，因为卡牌很多，也不太好测卡组的平衡性。后来AI测试的时候，基本上达到了玩家体验的时候的感觉。因为我们有酒馆，这个场景下，AI的使用率达到70%，30%是玩家之间打。具体来讲，第一是打我们的AI受挫感比较低，第二没有人知道他打AI输了。他在酒馆设计自己的套路和想法是非常适合的。

文章图片
还有一些附加的效果，强化学习还能做一些什么事情？比如说刚刚讲的平衡性测试，我们在《逆水寒》里面做过，龙吟这个职业上线前做过一些平衡性测试，去看一下它跟其他职业整体对战的效果。
第一版给我们测之前，训完AI效果大概就是——这个职业碾压所有其他职业，而且碾压度非常高，是完虐型的打法。然后我们给开发组提供数据，给他们截了一些视频，他们看过之后做了一些数值、技能迭代。迭代完以后再测，测完后再给新版本。龙吟上线之后经历过三次版本，可以看到上线的效果，做种版本没有起初的那种碾压效果。
四
强化学习也有很多问题，比如拟人化的游戏AI 。怎么解决这个问题，一种比较简单的想法：用专家数据进行模仿学习。这里有个很大的问题是需要数据，如果是“像人”的话，接受学习肯定需要大量的玩家数据。这里存在一个悖论，游戏对于AI最大的需求是游戏上线之后一开始那段时间，玩家不多的时候让AI活跃游戏。当然，像《王者荣耀》那样热门的游戏，可能AI的需求度没那么高，因为玩家之间所有的难度匹配都能满足需求。
而如果游戏还没上线，游戏刚开始的时候需要AI，我们数据从哪儿来？没有那么多的玩家，这是一个比较大的问题。

文章图片
另外，采集数据的时候是需要预处理的，预处理工作量比较大。还有一个困难，“像人”是主观的，实际上我们发现它非常主观，每个人都有自己的想法，关于像人到底是什么也是非常大的问题，怎么样评价像人这样一个指标？我们能想到的一点，是让玩家测试，直接让玩家做一些黑箱测试，让他判断对面是人还是AI 。但这个成本比较高，因为要请一些玩家测试。怎么样通过数据评价？这是比较难的问题。

文章图片
还有一个问题在模型上线之前。模型是个神经网络，很多时候动作会输出一些不合人类逻辑、常识的行为出来。所以策划跟QA一般给会很多意见，AI上线之后，持续迭代的过程中也会给很多意见。怎么样把这些意见跟模型结合起来？这也是比较大的问题，也有点难。
比较简单的，可能我在流程图里面插一些规则，在某些策划的强制建议里面走强制建议就行了。但这个时候也会出现意想不到的情况，比如说模型的输出跟策划的输入是矛盾的。因为可能没法控制模型它到底是什么行为，它有自己的想法，还有可能是对的，只是不符合我们的认知而已，有可能会出这样的一些死循环。
还有另一个比较大的需求——就是不仅需要拟人化的高水平AI，还希望AI的打法多一些，提升玩家乐趣。我们做过尝试，在《逆水寒》中做了多样化的AI 。比如说右边这三个神像，有三种完全不同的打法。平衡型的可能符合正常人的思路，还有激进型的、保守型的。我们这边的一些经验，是可以结合进化算法来做的，进化算法跟强化学习产生多种高水平的AI 。进化算法比强化学习还高，这两种结合的要求会更高，成本可能会超出我们目前能够承受的门槛。
另外，其实进化算法也需要设定一些目标。我们可能一开始是激进也好，保守也好，都是对这个游戏有一定的理解的，知道某个游戏有什么样的风格才行。如果是完全不同的游戏，就需要专家给出解答。因为策划的表述，并不是直接转化成我们理解的、直接用在算法里的东西。
这是我今天所有的内容了。总的来说，我感觉强化学习技术还是挺棒的，能做很多事情。但是也有很多新的问题，我们也在持续的探索过程中。