Hinton|深度学习之父 Geoffrey Hinton：深度学习将无所不能中薪|高薪|神经网络|向量|辛顿

本文约2500字，建议阅读8分钟
三十年前，辛顿对神经网络的观点与众不同，他说现在大家都接受了这些观点。

文章插图
人工智能领域的缺口：“必须有更多的概念上的突破，在规模上，还需要加大。"
神经网络的弱点：“神经网络在处理多参数少量数据时，表现不错，但是这方面，人类似乎做得更好。"
人脑如何工作：“大脑内部是参与神经活动的大向量。"
现代人工智能革命始于一场默默无闻的研究竞赛：2012 年，即第三届图像网络竞赛（ImageNetcompetition），挑战团队需要建立一个能识别 1000 个物体的计算机视觉系统，这 1000 个物体中包括动物、景观和人类。
在前两年，即便是最好的参赛团队，准确率都不超过 75%。但是到了第三年，三位研究人员（一位教授和他的两个学生）突然打破了这个天花板，他们惊人地超出了 10.8 个百分点，赢得了比赛。那个教授便是杰弗里·辛顿，他们使用的技术叫做深度学习。
【 Hinton|深度学习之父 Geoffrey Hinton：深度学习将无所不能】自 20 世纪 80 年代以来，辛顿一直致力于深度学习的研究工作，由于缺乏数据和计算能力，其有效性受到了限制，一直到 2012 年才取得成果。辛顿对这项技术的坚定信念最终带来了巨大的回报：在第四年的图像网比赛（ImageNet competition）中，几乎所有参赛队都在使用深度学习，并获得了神奇的准确性。很快，深度学习便被应用于图像识别之外的任务。
去年，由于他在这一领域的特殊贡献，辛顿与人工智能的先驱们 YannLeCun 和Yoshua Bengio 一起被授予图灵奖。10 月 20 日，我在麻省理工学院技术评论的年会“Em Tech MIT会议”上与他谈到了这个领域的现状，以及下一步的方向。
为了表达清楚，对以下内容进行了编辑和浓缩。
你认为深度学习足以复制人类所有的智力，为什么这么确定？
我深信深度学习将无所不能，同时，我认为必须有相当多的概念上的突破。例如，2017 年 AshishVaswani 等人，引入“transformer”“transformers”这个概念，它利用向量来表示词义，这是一个概念性的突破，目前几乎用于所有的自然语言处理模型。我们需要更多类似的突破。
如果有了这些突破，是否能够通过深度学习来模拟所有人类智力？
的确如此，特别是如何获得神经活动的大向量来实现“推理”这样的突破。但同时我们需要大幅度增加规模。人脑大约有 100 万亿个参数，即突触，是真正的巨大模型，像 GPT-3（https://www.technologyreview.com/2020/07/20/1005454/openai-machine-learning-language-generator-gpt-3-nlp/），有 1750 亿个参数，但它比大脑小一千倍。GPT-3 现在可以生成看似合理的文本，但与大脑相比，它依然太小。
提到规模时，是指更大的神经网络，更多的数据，还是两者兼而有之？
两者兼而有之，计算机科学中发生的事情和人们实际发生的事情之间存在某种差异。与获得的数据量相比，人们拥有更多的参数。神经网络擅长处理有大量参数的少量数据，但人类在这方面却做得更好。
很多业内人士认为，下一个大的挑战是常识，你同意吗？
我同意，这是一件非常重要的事情，我认为运动控制也非常重要，而深层神经网络现在正变得越来越擅长这一点。特别是，谷歌最近的一些工作表明，可以完成精细的运动控制并与语言相结合，比如：打开一个抽屉，取出一个小木块，系统便可以用自然语言告诉你它在做什么。
像 GPT-3 这样的模型，它可以生成精彩的文本，很明显，它必须深入理解才能生成该文本，虽然我们对于它理解的程度还不太清楚。但是，如果有什么东西打开抽屉，拿出一个小木块并说：“我刚刚打开一个抽屉，拿出小木块一个”，也可以说它明白自己在做什么。
人工智能领域一直把人脑作为其最大的灵感来源，不同的人工智能方法源于认知科学中的不同理论。你是否相信大脑实际上建立起了外部世界的表征之后，再来理解它，或者这只是一种有用的思考方式？
很久以前，在认知科学中，两个学派之间存在着一场争论：其中一个是由斯蒂芬·科斯林(Stephen Kosslyn)领导的，他认为，当大脑处理视觉图像时，你拥有的是一组正在移动的像素；另一学派则更符合传统的人工智能，“不，不，这是胡说八道，它是分层、结构性的描述。脑内处理的是一个符号结构。”
我认为他们都犯了同样的错误。科斯林认为我们处理的是像素，因为外部图像是由像素组成的，这是能为我们理解的一种表示；有人认为大脑处理的是符号，是因为我们也在用符号表示事物，这也是我们能理解的一种表示。我认为二者都不对，实际上大脑内部是多个神经活动的大向量。