【人工智能】当AI开始“踢脏球”，你还敢信任强化学习吗？( 二 ) |机器人|捍卫我的中国赛主场|无人驾驶|

显然，第二组机器人的努力并不是为了成为更好的球员，而是通过发现对手策略来制敌并赢得胜利。在足球比赛和跑步比赛中，对手有时甚至都站不起来。这会使受害者坍塌成一堆扭曲的东西，或者在周围扭动，那场面，真是猛男都不忍看……
我估计吧，叛逆的智能体同学可能是这么想的：
听说打赢有奖，但我啥都不会，先溜达溜达，随便打打看吧；
哎，这个人怎么这么厉害呢，让我好好瞅瞅；
前辈策略也学习的差不多了，这样下去我俩岂不是难分伯仲？
哎呀嘿，发现了对手漏洞，将干掉对手纳入策略选项；
是继续PK让自己变得更强？还是直接干掉对手？哪个得到奖励最简单划算！
显然是选项二啊，揍它！
不要觉得我是在瞎说啊，在学术界这样的奇闻轶事可是数不胜数。
比如训练机器人室内导航，因为智能体一旦走出“房间” ，系统就会判定机器人“自杀” ，不会对它进行负面奖励（扣分），所以最后机器人几乎每次都选择“老子不活了” ，因为它觉得完成任务太难了， 0分反而是一个最佳结果。
还有的研究者试图让机器人用锤子钉钉子，只要将钉子推入洞孔就有奖励。然后机器人就完全遗忘了锤子，不停地用四肢敲打钉子，试图将它弄进去。
虽然强化学习这一bug为我们贡献了无数段子，但这绝不是研究人员所期待的。
尽管人类玩家会“踢脏球” ，但AI想要在游戏中搞肮脏手段那是万万不能的。
不过好消息是，这种情况相对容易受到控制。当研究者格里夫对受害者智能体进行微调，让它思考对手的怪异行为后，对手就被迫变回熟悉的技巧，比如扳倒对手。
好吧，虽然手段仍旧不怎么光明磊落，但至少没有继续利用强化学习系统的漏洞了。
奖励黑客：强化学习的甜蜜负担由此，我们也可以来重新审视一下强化学习在今天，想要真正成为“AI之光” ，必须跨越的技术门槛了。
关于强化学习被广为诟病的训练成本高、采样效率低、训练结果不稳定等问题，背后最直接的归因，其实是 “奖励黑客”（reward hacking），就是智能体为了获得更多的奖励，而采取一些研究者预期之外，甚至是有害的行为。
其中既有奖励设置不当的原因，比如许多复杂任务的奖励信号，要比电子游戏难设置的多。
就拿研究人员最喜欢让智能体挑战的雅达利游戏来说，其中大量游戏的目标都被设计成最大限度地提高得分。而智能体经过训练，比如在DeepMind的一篇论文中，其设计的RainbowDQN就在57场雅达利游戏中，以40场超越人类玩家的绝对胜利成为王者。

本文插图
但如果任务不是简单的得分，而是需要先让智能体理解人类的意图，再通过学习去完成任务呢？
OpenAI曾经设计了一个赛艇游戏，任务原本的目标是完成比赛。研究者设置了两种奖励，一是完成比赛，二是收集环境中的得分。结果就是智能体找到了一片区域，在那里不停地转圈“刷分” ，最后自然没能完成比赛，但它的得分反而更高。

本文插图
显然，一旦奖励函数无法被精准直接地设置，困难就来了。因为智能体可无法跟研究者“心有灵犀” ，一开始就清楚地知道人类想要什么。它是通过试错，不断尝试不同的策略来学习的。这也就意味着，它很大概率会在训练过程中“钻空子” ，发掘出不正确但是有用的策略。
这也直接导致了两个结果：
一是尽管理论上，只要为强化学习系统设计的足够优秀，在现实环境中实现就不成问题，但实际上许多任务的奖励是很难设计的，研究者往往不得不采用约束型策略优化（CPO）来防止系统过拟合，提高其安全性，以防止预期外的结果。