DeepMind最新论文:强化学习“足以”达到通用人工智能( 六 )
相比于只有精心构建的奖励才有可能诱发一般的智力 , 研究人员认为人工智能代理智力的出现可能对奖励信号的性质相当稳健 。 此外 , 他们建议强化学习问题也可以转化为一个概率框架 , 接近于奖励最大化的目标 。
本文插图
数据科学家 Herbert Roitblat 对该论文的立场提出了挑战 , 即简单的学习机制和试错经验足以培养与智能相关的能力 。 Roitblat 认为 , 论文中提出的理论在现实生活中实施时面临着一些挑战 。
Roitblat 说 “如果没有时间限制 , 那么试错学习可能就足够了 , 否则我们就会遇到无限数量的猴子在无限长的时间内打字的问题 。 ” 无限猴子定理指出 , 一只猴子在无限长的时间内敲打打字机上的随机键 , 最终可能会打出任何给定的文本 。
Roitblat 在《Algorithms are Not Enough》一书中解释了为什么所有当前包括强化学习在内的人工智能算法 , 都需要仔细制定人类创建的问题和表示 。 他表示 , 一旦建立了模型及其内在表示 , 优化或强化就可以指导其进化 , 但这并不意味着强化就足够了 。 同样 , Roitblat 补充说 , 该论文没有就如何定义强化学习的奖励、动作和其他元素提出任何建议 。
Roitblat 说:“强化学习假设智能体具有一组有限的潜在动作 。 已经指定了奖励信号和价值函数 。 换句话说 , 通用智能的问题恰恰是提供强化学习作为先决条件的那些东西 。 因此 , 如果机器学习都可以简化为某种形式的优化 , 以最大化某些评估措施 , 那么强化学习肯定是相关的 , 但它的解释性并不强 。 ”
参考资料:
本文转载自其他网站 , 不代表健康界观点和立场 。 如有内容和图片的著作权异议 , 请及时联系我们(邮箱:guikequan@hmkx.cn)
- EULAR重磅更新:GRAPPA发布PsA治疗最新建议!IL-17抑制剂获一线推荐!
- 人气补血补气最新最简单健康食材选择
- 2021年ASCO摘要乳腺癌合集5(中文翻译版)大放送-最权威的传递最新肿瘤治疗进展的宝典
- 最新研究显示,肺蛋白水平升高可能成为慢阻肺的早期预测指标!
- 中科院团队最新发现:人脐带间充质干细胞治疗艾滋病安全且耐受性良好
- 沈阳疾控最新通报及重要提醒
- Nature 最新研究:硬核预防HIV,艾滋病还会是“不治之症”吗?
- 这种罕见的遗传病,最新指南来了! | 广济一周
- 完了,胖子真的不能喝酒了,最新研究发现,胖子喝酒更伤肝
- 客观反应率超97%! 信达/驯鹿BCMA CAR-T细胞疗法最新数据即将亮相EHA