#走近前沿科学TB#量子纠缠：从量子物质态到深度学习( 二 )

2. 深度学习和量子多体物理中的函数近似
深度学习究竟在做什么?用最简短的话概括，就是函数近似(Function Approximation) 。函数近似的目的是用高效经济的方式尽可能精确地描述复杂的函数映射。实际问题中的目标函数可能是图像识别应用中从微观像素到图片类别的映射，可能是AlphaGo 中围棋的局面到最终胜率的估计，也可能是Atari 视频游戏中的画面到最优控制策略的映射等等。读者也许已经看出来了，以上这几个函数恐怕都很难用一个简洁的方式表达。即使考虑一个极端简化的情形：怎样描述有N 个二进制自变量的多元函数?原则上，我们当然可以存储一个2N 行的表格来精确表达这样一个函数。这个表格的每一行对应了一种可能的输入和输出，函数的计算也就等价于查表。可是只要N ? 70，即使用上全世界所有的存储介质，我们也没有能力存下这张表格，更不要说对它进行高效的查找了。
机器学习中的连接主义学派(Connectionism)提倡使用人工神经网络(Artifical Neural Network)来解决这类函数近似问题。连接主义强调复杂的现象(比如智能)不来自于相对简单的组成单元，而来自于这些单元之间的连接。图1(a) ， (b)展示了两种常见的人工神经网络结构。图1(a)是前馈神经网络(Feedforward Neural Network) 。图中的每一个蓝色圆圈代表一个人工神经元，它接受上一层结果作为输入，加权求和之后通过一个非线性的激活函数传递给下一层。可见，前馈神经网络是通过多层非线性函数的嵌套来表达复杂的多元函数的。而图1(b)显示了另外一种函数参数化方式：限制玻尔兹曼机(Restricted Boltzmann Machine) 。从名字就可以看出，玻尔兹曼机和统计物理有着十分密切的关联。我们可以将它理解成一个统计力学系统，其中包含了两组相互作用的随机变量：显变量(红色)和隐变量(蓝色) 。 “玻尔兹曼机”的名字来源于这些随机变量的联合概率分布遵循统计物理中的玻尔兹曼分布。而“限制”这个词来源于图1(b)中所示的特殊网络结构：所有连接都仅在显层和隐层之间。和全连接的玻尔兹曼机相比，这样的结构可以极大地提高计算效率。而对于一个只关心显变量的观察者来说，即便显层内部没有直接的相互作用，隐层神经元所诱导的有效相互作用还是可以将它们关联起来。

本文插图
图1
图1 几种参数化多元函数的方式(a)前馈神经网络;(b)限制玻尔兹曼机;(c)矩阵乘积态
与使用一个2N 行的表格相比，图1(a) ， (b)中所示的两类网络结构都可以用少得多的参数近似表达复杂的多元函数。在实际应用中，我们可以通过调节前馈神经网络中的权重参数，使得它学会从图片像素信息中分辨其中物体的种类。或者，我们也可以调节限制玻尔兹曼机中随机变量之间的相互作用强度，使得显变量的概率分布尽可能重现目标数据集的分布。训练好的玻尔兹曼机可以生成更多遵循目标概率分布的新样本。以上两类任务分别对应了判别型学习(Discriminative Learning) 和生成型学习(Generative Learning) 。打个比方，判别型学习相当于学会认字，而生成型学习的目标是学会写字。正如费曼在他的黑板上留下的那句名言“What I can not create,I do not understand” ，学会写可比学会读困难得多，也要求更深层次的理解。判别型学习支撑着大量当下成功的商业应用，而探索生成型学习的模型和算法则代表了深度学习研究的前沿和未来。
在实际应用中，人们希望使用通用的人工神经网络结构表达尽可能复杂多变的函数形式。这自然引出一个问题：图1(a) ， (b)所示的网络都能够表达什么样的函数形式?为此，人们证明了所谓的“普适表示定理”：随着网络中隐层神经元个数的增加，图1(a)中所示的前馈神经网络结构(即使只有单个隐层)可以任意逼近任何的连续函数。类似地，通过增加图1(b)中限制玻尔兹曼机的隐层神经元数目，它也可以表达关于显变量任意复杂的概率分布函数。然而遗憾的是，针对一个具体的函数近似问题，以上这些普适表示定理没办法告诉我们至少需要多少隐层神经元，也没办法告诉我们究竟如何确定这些神经元之间的连接权重。而现实中我们关心的首要问题就是：给定有限的计算时间和存储资源，应该如何最优地分配它们呢?