DeepMind最新论文：强化学习“足以”达到通用人工智能( 六 )

相比于只有精心构建的奖励才有可能诱发一般的智力，研究人员认为人工智能代理智力的出现可能对奖励信号的性质相当稳健。此外，他们建议强化学习问题也可以转化为一个概率框架，接近于奖励最大化的目标。

本文插图

数据科学家 Herbert Roitblat 对该论文的立场提出了挑战，即简单的学习机制和试错经验足以培养与智能相关的能力。 Roitblat 认为，论文中提出的理论在现实生活中实施时面临着一些挑战。

Roitblat 说 “如果没有时间限制，那么试错学习可能就足够了，否则我们就会遇到无限数量的猴子在无限长的时间内打字的问题。 ” 无限猴子定理指出，一只猴子在无限长的时间内敲打打字机上的随机键，最终可能会打出任何给定的文本。

Roitblat 在《Algorithms are Not Enough》一书中解释了为什么所有当前包括强化学习在内的人工智能算法，都需要仔细制定人类创建的问题和表示。他表示，一旦建立了模型及其内在表示，优化或强化就可以指导其进化，但这并不意味着强化就足够了。同样， Roitblat 补充说，该论文没有就如何定义强化学习的奖励、动作和其他元素提出任何建议。

Roitblat 说：“强化学习假设智能体具有一组有限的潜在动作。已经指定了奖励信号和价值函数。换句话说，通用智能的问题恰恰是提供强化学习作为先决条件的那些东西。因此，如果机器学习都可以简化为某种形式的优化，以最大化某些评估措施，那么强化学习肯定是相关的，但它的解释性并不强。 ”
参考资料：
本文转载自其他网站，不代表健康界观点和立场。如有内容和图片的著作权异议，请及时联系我们（邮箱：guikequan@hmkx.cn）