显然 , 第二组机器人的努力并不是为了成为更好的球员 , 而是通过发现对手策略来制敌并赢得胜利 。 在足球比赛和跑步比赛中 , 对手有时甚至都站不起来 。 这会使受害者坍塌成一堆扭曲的东西 , 或者在周围扭动 , 那场面 , 真是猛男都不忍看……
我估计吧 , 叛逆的智能体同学可能是这么想的:
听说打赢有奖 , 但我啥都不会 , 先溜达溜达 , 随便打打看吧;
哎 , 这个人怎么这么厉害呢 , 让我好好瞅瞅;
前辈策略也学习的差不多了 , 这样下去我俩岂不是难分伯仲?
哎呀嘿 , 发现了对手漏洞 , 将干掉对手纳入策略选项;
是继续PK让自己变得更强?还是直接干掉对手?哪个得到奖励最简单划算!
显然是选项二啊 , 揍它!
不要觉得我是在瞎说啊 , 在学术界这样的奇闻轶事可是数不胜数 。
比如训练机器人室内导航 , 因为智能体一旦走出“房间” , 系统就会判定机器人“自杀” , 不会对它进行负面奖励(扣分) , 所以最后机器人几乎每次都选择“老子不活了” , 因为它觉得完成任务太难了 , 0分反而是一个最佳结果 。
还有的研究者试图让机器人用锤子钉钉子 , 只要将钉子推入洞孔就有奖励 。 然后机器人就完全遗忘了锤子 , 不停地用四肢敲打钉子 , 试图将它弄进去 。
虽然强化学习这一bug为我们贡献了无数段子 , 但这绝不是研究人员所期待的 。
尽管人类玩家会“踢脏球” , 但AI想要在游戏中搞肮脏手段那是万万不能的 。
不过好消息是 , 这种情况相对容易受到控制 。 当研究者格里夫对受害者智能体进行微调 , 让它思考对手的怪异行为后 , 对手就被迫变回熟悉的技巧 , 比如扳倒对手 。
好吧 , 虽然手段仍旧不怎么光明磊落 , 但至少没有继续利用强化学习系统的漏洞了 。
奖励黑客:强化学习的甜蜜负担由此 , 我们也可以来重新审视一下强化学习在今天 , 想要真正成为“AI之光” , 必须跨越的技术门槛了 。
关于强化学习被广为诟病的训练成本高、采样效率低、训练结果不稳定等问题 , 背后最直接的归因 , 其实是 “奖励黑客”(reward hacking) , 就是智能体为了获得更多的奖励 , 而采取一些研究者预期之外 , 甚至是有害的行为 。
其中既有奖励设置不当的原因 , 比如许多复杂任务的奖励信号 , 要比电子游戏难设置的多 。
就拿研究人员最喜欢让智能体挑战的雅达利游戏来说 , 其中大量游戏的目标都被设计成最大限度地提高得分 。 而智能体经过训练 , 比如在DeepMind的一篇论文中 , 其设计的RainbowDQN就在57场雅达利游戏中 , 以40场超越人类玩家的绝对胜利成为王者 。
本文插图
但如果任务不是简单的得分 , 而是需要先让智能体理解人类的意图 , 再通过学习去完成任务呢?
OpenAI曾经设计了一个赛艇游戏 , 任务原本的目标是完成比赛 。 研究者设置了两种奖励 , 一是完成比赛 , 二是收集环境中的得分 。 结果就是智能体找到了一片区域 , 在那里不停地转圈“刷分” , 最后自然没能完成比赛 , 但它的得分反而更高 。
本文插图
显然 , 一旦奖励函数无法被精准直接地设置 , 困难就来了 。 因为智能体可无法跟研究者“心有灵犀” , 一开始就清楚地知道人类想要什么 。 它是通过试错 , 不断尝试不同的策略来学习的 。 这也就意味着 , 它很大概率会在训练过程中“钻空子” , 发掘出不正确但是有用的策略 。
这也直接导致了两个结果:
一是尽管理论上 , 只要为强化学习系统设计的足够优秀 , 在现实环境中实现就不成问题 , 但实际上许多任务的奖励是很难设计的 , 研究者往往不得不采用约束型策略优化(CPO)来防止系统过拟合 , 提高其安全性 , 以防止预期外的结果 。
- 台海网■苏起入列,国民党改革委员会开始运作
- 「泱泱世界里」粮食概念股走一波,要开始屯粮了吗?
- 「电子电路DIY之家」电子电路知识从零开始:电阻
- 2020改变就在眼前,量化派助力多行业人工智能化
- [油菜花]疫情挡不住春耕忙 海淀百亩油菜花田开始播种
- 「浙江人」浙江人注意!你们爱吃的这种海鲜,开始禁捕!
- 极客@从极客走向消费者 Linux手机PinePhone“社区版”开始接受预订
- 『接风娱乐』人机对战协作新时期已经来临,提高智能化与人工智能技术趋于结合
- 游戏谈▲人工智能上线助力疫情!5天时间如何如何完成?
- [友财网]是崩盘开始还是步入鱼尾行情?,黑色系领跌