龙之队|我们用婴儿拍的视频训练了个自监督模型，学到了高级视觉表征机器之心报道编辑：张倩「人工智能的下

机器之心报道
编辑：张倩
「人工智能的下一个重大突破可能依赖于我们对于自己大脑的探索」——Josh Tenenbaum
最近几年，深度学习在诸多领域得到了广泛应用，但很多成绩的取得依赖于海量的数据和巨大的模型，对算力的需求也是永无止境。相比之下，人类婴儿不需要标注数据就能很快学到简单的知识。这种差别不禁让众多研究者反思，机器能否像人类一样高效学习？
因此，很多计算机科学家开始探索人类幼儿的学习方式，希望能从中得到启发，创造出更加「智能」的人工智能系统。
「想象一下，我们可以制造出一台像婴儿一样学习的机器。如果我们能做到这一点，那么这将成为人工智能的基础。」MIT 计算认知科学实验室负责人 Josh Tenenbaum 曾这样描述他们的愿景。
当然，这个愿景距离我们还有些遥远，但最近，已经有人从另一个类似的方向开始了探索。他们研究的主题是：机器可以从婴幼儿的视觉世界中学到什么？
这项研究的新颖之处在于，他们用了一个非常特殊的数据集：SAYCam 。这个数据集里的图像是 3 个婴儿「亲自」拍的。
数据采集者将摄像头戴在这些婴儿的头上，让他们记录下自己视野范围内观察到的事物。这种采集活动每周 2 个小时，整个采集过程大约持续了 2 年半（最早从 6 个月大的时候开始拍）。也就是说，该数据集完整地记录了 3 个婴儿 2 年半的成长经历。这种纵深程度对于研究心理学、语言学、计算机科学的研究者来说都是一笔宝贵的财富。
来自纽约大学心理学系和数据科学中心的研究者发现了这个数据集，并结合当前比较热门的自监督学习算法训练了一个大型模型。实验结果表明，模型利用通用的自监督学习目标从该数据集中学到了强大的高级别视觉表征。该研究首次表明了利用 SOTA 自监督学习方法从儿童成长视频中学习有用高级别视觉表征的可能性。
该研究对 SAYCam 数据集的创新性应用得到了一些研究者的肯定和赞赏。
甚至已经有人开始和作者讨论下一步的研究方向。
接下来，我们来看这项研究的具体细节。
研究概述
论文链接：
github 链接：
婴幼儿对于周围的世界有着广泛、复杂的知识，但这些早期知识从何而来我们还不清楚。
他们在学习说话之前就能区分很多常见的类别，三四个月的时候可以分辨简单的形状和动物种类…… 这些早期知识有多少是通过相对通用的学习架构借助儿童眼睛接收感官数据来学到的？又有多少是需要更实质性的归纳偏置才能获得的？
当然，这只是对于心理学「先天 vs 后天」传统争论的一种现代阐释。回答这个问题既需要对人类成长过程中所接收的感官数据进行精确描述，还需要确定哪些通用模型可以从这些数据中学习，且无需假定强大的先验。