#走近前沿科学TB#量子纠缠:从量子物质态到深度学习( 五 )


除了帮助分析神经网络的表达能力 , 量子纠缠也可以作为深度学习应用的“先验知识”:它定量地描述数据集的复杂度 , 并相应地指导设计人工神经网络的结构 。 作为一个例子 , 让我们考虑机器学习里的一个典型数据集:MNIST 。 如图3 所示 , MNIST中包含六万张形态各异的手写数字图片 。 每一张都是28 × 28 的黑白图像 , 其像素灰度取值0~255。 所有可能图像的数目是一个天文数字: 25628×28。 然而 , 可以想象 , 真正有意义的手写数字图片只占据着这个巨大无比的“像素空间”中的一个小角落 。 联想到前文所述 , 大多数物理上有兴趣的量子态同样仅仅占据希尔伯特空间的一个小角落 。 我们可以将MNIST中的图片看作是对于某一量子波函数测量所得的构型快照 。 类比于对量子体系的分析 , 我们可以将每张图片切成两半 , 然后研究两部分之间的量子纠缠 。 注意 , 如此定义的纠缠熵是对于整个数据集的分布而言的 , 并非对于单张图片 。 数据集的纠缠特征指导我们在学习的过程中合理地分配资源 。 比如 , 注意到MNIST 数据集中每一张图片的边缘都是黑色的 。 这意味着图片边缘像素的取值不依赖于任何其他像素 , 从而不与它们形成纠缠 。 假如使用玻尔兹曼机来学习这样的概率分布 , 就完全不需要使用隐变量来传导它们之间的关联 。 而另一方面 , 遮住MNIST图片的一半 , 还能够猜测出另一半大致的模样 。 这就意味着图片的这两部分之间存在纠缠 。 纠缠熵的具体数值定量地告诉我们至少需要多少隐层神经元 , 以及怎样的连接结构才能描述好这样的数据集 。
#走近前沿科学TB#量子纠缠:从量子物质态到深度学习
本文插图
图3
图3 MNIST数据集中的一些样本
曾获得英特尔国际科学与工程大奖的少年Henry W. Lin 和MIT 的宇宙学家Max Tegmark 等合作指出 , 深度学习成功的关键不仅仅依赖于数学 , 更依赖于物理学规律 。 任何我们关心的实际数据集——无论是自然图像还是语音信号——都是现实世界的反映 。 这也意味着它们通常表现出局域关联、存在对称性、呈现层级结构等特征 。 在本文作者看来 , 量子纠缠正可以定量化地挖掘和利用这些来自于物理定律的先验知识 。 虽然 , 自然数据集的纠缠熵未必遵循面积定律 , 但它们离最大纠缠的饱和值还应该差得远 。 这启发我们借用处理量子多体问题的思路 , 针对数据集的特点相应地设计合适的函数近似手段 。 读者也许会感到奇怪 , 绝大多数现实应用中遇到的数据不都是经典的吗?为什么非要引入量子纠缠的概念呢?经典信息论难道不够用吗?这里我们援引美国计算机科学家和量子信息学家Scott Aaronson 的观点:将量子力学看作是经典概率论的数学推广 , 而量子纠缠就是一个描述多参数函数性质的实用数学工具 。 文献就是采用类似的研究思路使用量子纠缠来分析刻画现实世界中的复杂网络的 。
以上的讨论都是针对生成型学习而言的 , 那么 , 量子纠缠对于理解判别型的学习是否也有类似的帮助呢?考虑到深层的前馈神经网络在现实世界中的广泛应用 , 这是目前深度学习研究的一个热点问题 。 这方面一个很有启发的工作来自计算物理学家Stoudenmire和生物物理学家Schwab , 他们成功训练了一个矩阵乘积态来识别MNIST 数据集中的数字 。 他们的成功说明 , 从MNIST的像素到数字标记的函数映射的纠缠熵看起来并不大 , 完全可以被矩阵乘积态有效描述 。 无独有偶 , 耶路撒冷希伯来大学的计算机科学家Amnon Shashua 所领导的团队一直致力于使用张量分析的手段研究人工神经网络 。 经过一系列前期工作的铺垫 , 他们的注意力最近也被吸引到量子纠缠这个概念上 。 2017 年4 月初 , Shashua 等人在arXiv 上贴出一篇题为“Deep Learning and Quantum Entanglement: Fundamental Connections with Implications to Network Design”的长文 。 这篇论文的第一作者Yoav Levine 硕士期间在以色列的魏茨曼科学院(Weizmann Institute of Science)学习理论凝聚态物理 , 现在则是Shashua的博士生 。 在这篇文章中 , Levine 等人采用与文献类似的策略 , 将一类特殊的卷积神经网络转化为张量网络态 。 这样就可以通过对于张量网络的最小切割(Min-Cut)分析来确定原来的人工神经网络的纠缠表达能力了 。 作为一个具体的例子 , 他们考虑了“上宽下窄”和“上窄下宽”两种结构的卷积神经网络 , 并从理论上证明其性能的优劣取决于目标数据集的纠缠特性 。 他们在MNIST数据集上设计数值实验 , 也的确验证了这些理论预言 。