知否▲还能观察四维时空,人工智能不只能看平面世界( 二 )


布朗斯坦和他的合作者们知道 , 要超越欧几里得平面 , 首先需要他们对让神经网络在二维图像识别中如此有效的基本计算过程之一进行重新构想 。 这个过程称为“卷积” , 它让神经网络的一层对小块的输入数据进行数学运算 , 然后将结果传递到神经网络的下一层 。
“粗略地说 , 你可以把卷积看作滑动窗口 。 ”布朗斯坦解释道 。 卷积神经网络像过滤器一样在数据上滑动许多这样的“窗口” , 每个窗口都被设计用来发现数据中的某种模式 。 对于猫的照片 , 受过训练的卷积神经网络会使用过滤器来发现原始输入像素中的低级特征 , 比如边缘 。 这些特征信息被传递到网络中的其他层 , 然后这些层执行额外的卷积并提取更高层次的特征 , 如眼睛、尾巴或三角形耳朵 。 接受过识别猫训练的卷积神经网络最终将使用这些分层卷积的结果来为整个图像分配标签 , 比如“猫”或“不是猫” 。
但这种方法只适用于平面 。 “当你想要分析的表面变得弯曲时 , 你基本上就有麻烦了 。 ”韦林说 。
在曲面(几何中称为流形)上进行卷积运算的难度 , 无异于拿着一小块半透明的图表纸 , 放在地球仪上 , 试图精确地描绘出格陵兰岛的海岸线 。 把图表纸压在格陵兰岛上面时 , 它肯定会起皱 , 这意味着当你再次把它放平时 , 你的绘画就会变形 。 但是 , 让图表纸与地球的一点相切 , 一边盯着纸看 , 一边追踪格陵兰岛的边缘(一种被称为墨卡托投影的技术) , 也会产生变形 。 如果流形不是一个像地球仪一样整齐的球体 , 而是一个更复杂或不规则的东西 , 比如一个瓶子的三维形状 , 或者一个褶曲的蛋白质 , 在上面进行卷积就更加困难了 。
2015年 , 布罗斯特和他的同事找到了一个在非欧几里得平面上卷积的解决办法:将“滑动窗口”重新构想成某种形状更像圆形蜘蛛网而非图表纸的东西 , 这样你将其压在地球仪(或者任何其它的曲面)上时就不会产生皱褶、拉伸或撕裂 。
以这种方式改变滑动过滤器的属性 , 使得卷积神经网络更善于“理解”某些几何关系 。 例如 , 该网络可以自动识别出一个弯曲成两个不同姿势的3D图形——比如一个站着的人和一个抬起一条腿的人——是同一物体的实例 , 而不是两个完全不同的物体 。 这一变化也使得这种神经网络在学习上大大提高了效率 。 标准的卷积神经网络“使用了数以百万计的形状样本 , 而且需要数周的训练 。 ”布朗斯坦说 , “我们使用了大约100个不同的姿势 , 训练了大概半个小时 。 ”
与此同时 , 塔科·科恩和他在阿姆斯特丹的同事们开始从相反的方向来解决同样的问题 。 2015年 , 当时还是研究生的科恩并没有在研究如何将深度学习跳脱出平面世界 。 相反 , 他感兴趣的是他认为是一个实际的工程问题:数据效率 , 或者说如何使用更少的样本训练神经网络 , 而不是像通常需要的那样使用数千甚至数百万的样本 。 科恩说 , “比如说 , 深度学习方法是非常缓慢的学习者 。 ”如果你在训练卷积神经网络识别猫 , 这就没有什么问题了(鉴于互联网上有无数的猫的图片) 。 但是 , 如果你想让这个网络发现更重要的东西 , 比如肺组织图像中的癌性结节 , 那么找到足够的训练数据就不是那么容易了——这些数据需要准确而且恰当的医学标记 , 并且不存在隐私问题 。 训练网络所需的样本越少越好 。
科恩知道 , 提高神经网络数据效率的一种方法是 , 预先对数据进行一定的假设——比如 , 肺肿瘤仍然是肺肿瘤 , 不管它在图像中处于旋转状态 , 还是被反射出来 。 通常来说 , 卷积网络必须使用许多相同模式的不同定向的示例进行训练 , 从头开始学习这些信息 。 2016年 , 科恩和韦林合著了一篇论文 , 定义如何将其中的一些假设作为几何对称编码到神经网络当中 。 这种方法非常有效 , 2018年科恩和玛丽西娅·温克尔斯(MarysiaWinkels)进一步推广了这种方法 , 证明了其在CT扫描图中识别肺癌方面有着喜人的效果:他们的神经网络仅使用用于训练其他网络的十分之一的数据 , 就能识别出这种疾病的视觉证据 。