脑极体总共分几步?,注意力机制想要觉醒AI( 二 )


既然“操纵”意识这么带感 , 学者们又是如何为之努力的?过去数年间 , 注意力机制已经发生了不小的发展和进步 。
从时间上看 , 注意力机制的能力开始为AI所用 , 要追溯到2014年谷歌团队在一个RNN卷积神经网络模型上用它来进行图像分类 。 但真正爆发 , 主要还是由于其在NLP机器翻译任务中证明了自己 。
2017年 , 谷歌机器翻译团队发表的《Attentionisallyouneed》中 , 提出了一种新颖的基于注意力的机器翻译架构 , 大量使用自注意力(self-attention)机制来学习文本表征 , 成为当年最具影响力的论文之一 。
随后 , 它开始被广泛应用在基于RNN/CNN等神经网络模型的NLP任务中 , 也延伸出了不少变式 , 比如基于输入项的柔性注意力(Item-wiseSoftAttention)、基于输入项的硬性注意力(Item-wiseHardAttention)、基于位置的柔性注意力(Location-wiseSoftAttention)等等 , 核心指导思想都差不多 , 就是在神经网络的隐藏层 , 增加注意力机制的加权 。
但需要注意的是 , 注意力机制依然存在不少问题:
比如 , 注意力机制与其说是一种技术 , 不如说是一种指导思想 。 通过模拟人类阅读、听说中的注意力行为 , 来为不同输入数据分配不同的权重 。 想要去的比较理想的效果 , 依然需要大量的数据投入训练 。
可以说 , 注意力机制在神经机器翻译(NMT)任务上的优秀表现 , 依然建立在有大量高质量语料的前提下 。 一旦面对比较极端的情况 , 比如某些语言几乎没有任何双语语料 , 那再强的注意力机制也得抓瞎 。
脑极体总共分几步?,注意力机制想要觉醒AI
文章图片
再比如 , 注意力机制达到“有意识”推理的前提 , 是具备理解隐性知识的能力 , 也就是那些难以用语言、文字、图表进行表述说明 , 不经过逻辑推理、而是借由感官、直觉、领悟获得的能力 。
这对人类来说是“小菜一碟” , 但想要将其嵌入到深度学习算法里面 , 却并不是一件简单的事 。 DeepMind就曾开发出一个交互式网络 , 试图教会智能体像婴儿一样迅速了解到某些对象的属性和关系 。 交互式网络的预测结果要比一般神经网络精确得多 , 但距离模拟人类直觉迅速反馈 , 还为时尚早 。 而且 , 机器必须犯上成千上万次的错误 , 才能做出和人类一样的正确操作 。
换句话说 , Bengio眼中的“注意力机制” , 其实是升级版的“注意力3.0” , 距离“机器觉醒”还早着呢 。
机器觉醒 , 光靠Attention单打独斗还不行
上述问题不仅阻拦了注意力机制的“封神之路” , 也是阻挡人工智能发挥更高价值的障碍 。
接下来向何处去 , 或许正如注意力机制被引入RNN一样 , 继续主动引入其他领域的算法和模型 , 会带来不可知的神奇效果 。
而从ICLR2020的技术趋势来看 , 也有不少算法开始被用来 , 与注意力机制一起解决诸如直觉、泛化等机器能力的重要问题 。
比如元学习 。 在今年的入选论文中 , 谷歌有5篇是专门研究元学习 。
简单来说 , 元学习就是要让智能体利用以往的知识经验“学会如何学习”(Learningtolearn) , 然后更高效地完成新任务 。
具备这种能力 , 自然也就能够解决训练数据不足、系统通用性低等问题 , 帮助AI不断丰富和修正自身的知识网络 。 具备了这一能力 , 获得了人类常识的AI才有希望到达“有意识”的推理 。
脑极体总共分几步?,注意力机制想要觉醒AI
文章图片
最后 , 也有必要大开脑洞 , 试想一下如果“有意识”的推理实现 , AI真的觉醒了 , 又会为人类带来什么呢?
猜想一 , AI的服务能力会显而易见的提升 , 在实践中不断学习处理复杂的工作将不再是难事 , 想象中的智能家政机器人、智能女友/男友 , 都不再是问题 。