「脑极体」你还敢信任强化学习吗?,当AI开始“踢脏球”( 三 )
一是尽管理论上 , 只要为强化学习系统设计的足够优秀 , 在现实环境中实现就不成问题 , 但实际上许多任务的奖励是很难设计的 , 研究者往往不得不采用约束型策略优化(CPO)来防止系统过拟合 , 提高其安全性 , 以防止预期外的结果 。
可是这样一来 , 又限制了强化学习能力的泛化 , 导致那些在实验室中表现很好的强化学习系统 , 只在特定任务中起作用 , 像是一些游戏、比赛中 。 可一旦让它应对日常应用 , 比如无人机控制(UAVControl)和家用机器人等 , 就不灵了 。
二是增大了随机性 。
前面提到 , 强化学习的探索方式就是“试错” 。 所以 , 它会试图从一大堆数据中找到最佳策略 。 但往往 , 它会在一大堆无用的数据中进行一些无意义的尝试 。 这些失败的案例 , 又为智能体增加了新的维度 , 让它不得不投入更多的实验和计算 , 以减少那些无用数据带来的影响 。
本来强化学习的采样效率就不高 , 再加上随机性的干扰 , 得到最终成果的难度 , 自然指数性增加了 。 这也进一步让强化学习变得“纸上谈兵” , 走进现实应用难上加难 。
等待援军:改变或许在围墙外
显然 , 强化学习存在的很多问题 , 是其技术根源本身就与生俱来的 。
这也是有许多专业人士并不赞同将强化学习过度神化的原因 。 比如软件工程师AlexIrpan就曾在Facebook发文 , 声称:每当有人问我强化学习能否解决他们的问题时 , 我会说“不能” 。 而且我发现这个回答起码在70%的场合下是正确的 。
文章图片
改变的力量从哪里来?显然深度学习本身已经很难提供变革的养分 。 目前的研究方向主要有三个:
一是增加智能体的先验经验 。
人知道不能“踢脏球” , 是因为我们已经拥有了大量的先验知识 , 默认了一些规则 。 但强化学习机器智能通过状态向量、动作向量、奖励这些参数 , 来尝试着建构局部最优解 。
能不能让机器也拥有先验经验呢?目前就有研究开始尝试 , 用迁移学习帮助强化学习来提高效率 , 将以前积累的任务知识直接迁移到新任务上 , 通过“经验共享”来让智能体解决所有问题 。
二是为奖励机制建模 。
既然认为地设置奖励难以满足任务要求 , 那么让系统自己学习设置奖励 , 是不是能行得通呢?
DeepMind研究人员就鼓励智能体通过两个系统生成的假设行为来探索一系列状态 , 用交互式学习来最大化其奖励 。 只有智能体成功学会了预测奖励和不安全状态后 , 它们才会被部署执行任务 。
与无模型的强化学习算法相比 , 使用动力学模型来预测动作的后果 , 从实验看来能够有效帮助智能体避免那些可能有害的行为 。
三是寻求脑神经科学的突破 。
深度神经网络、增强学习等机器算法的出现 , 本质上都是模拟人脑处理信息的方式 。 尽管增强学习被看做是最接近AGI(通用人工智能)的技术之一 , 但必须承认 , 其距离人类智能还有非常极其十分遥远的距离 。
文章图片
以当下人类对大脑的了解 , 在认知过程、解决问题的过程以及思考的能力等机制还都不清楚 。 所以想要模拟人类的思考能力 , 强化学习乃至整个机器学习的升级 , 恐怕还依托于脑神经科学的发展 。
过去的数年间 , 强化学习几乎是以一己之力撑起了人工智能浪潮的繁荣景象 。 谷歌正在将其打包成服务推广到千家万户 , 中国的科技巨头们已经纷纷将其应用在搜索、营销、推荐算法等各种应用中 , 自动驾驶的前景更是与强化学习绑定在一起 。
可以说 , 数亿人已经借由互联网产品 , 开始触摸强化学习 。
【「脑极体」你还敢信任强化学习吗?,当AI开始“踢脏球”】毫无疑问 , 它将继续为人类世界发光发热 , 带着缺陷造就智能社会的辉煌 。 究竟如何才能用好这柄利刃 , 既是胆魄 , 亦需智慧 。
- 「脑极体」究竟在造什么车?,闭门造车的苹果
- 『三言财经』罗永浩谈超三成消费者直播购物遇到问题:不能因粉丝信任就胡来
- 「AI科技评论aitechtalk」直播丨华为诺亚方舟ICLR满分论文:基于强化学习的因果发现
- ITBear科技:Mark的评分值得信任吗?,手机相机中的风云榜,DXO