机器学习数学知识结构图( 二 )


文章图片
向量与矩阵是线性代数中的基本计算对象 , 这门课基本上围绕着它们而展开 。 特征值与特征向量是机器学习中使用频率仅次于向量和矩阵的知识点 , 它连接其了众多的知识点 , 决定了矩阵的若干重要性质 。
概率论
概率论对于机器学习来说也是至关重要的 , 它是一种重要的工具 。 如果将机器学习算法的输入、输出看作随机变量/向量 , 则可以用概率论的观点对问题进行建模 。 使用概率论的一个好处是可以对不确定性进行建模 , 这对于某些问题是非常有必要的 。 另外 , 它还可以挖掘变量之间的概率依赖关系 , 实现因果推理 。 概率论为某些随机算法-如蒙特卡洛算法、遗传算法 , 以及随机数生成算法-包括基本随机数生成、以及采样算法提供了理论依据和指导 。 最后 , 概率论也是信息论 , 随机过程的先导课程 。 下面这张图清晰地列出了概率论的核心知识:

机器学习数学知识结构图
文章图片
下面这张图是对机器学习中概率模型的总结:

机器学习数学知识结构图
文章图片
从这张图可以清晰的看出频繁使用的概率论知识点 , 最重要的莫过于条件概率 , 贝叶斯公式 , 正态分布 , 最大似然估计 。
最优化方法
最优化方法在机器学习中处于中心地位 。 几乎所有机器学习算法最后都归结于求解最优化问题 , 从而确定模型参数 , 或直接获得预测结果 。 前者的典型代表是有监督学习 , 通过最小化损失函数或优化其他类型的目标函数确定模型的参数;后者的典型代表是数据降维算法 , 通过优化某种目标函数确定降维后的结果 , 如主成分分析 。 下面这张图列出了最优化方法的核心知识:

机器学习数学知识结构图
文章图片
信息论
信息论是概率论的延伸 , 在机器学习与深度学习中通常用于构造目标函数 , 以及对算法进行理论分析与证明 。 在机器学习尤其是深度学习中 , 信息论的知识随处可见 , 比如:
1.决策树的训练过程中需要使用熵作为指标
2.在深度学习中经常会使用交叉熵、KL散度、JS散度、互信息等概念
3.变分推断的推导需要以KL散度为基础
4.距离度量学习、流形降维等算法也需要信息论的知识
总体来说 , 在机器学习中用得最多的是熵 , 交叉熵 , KL散度 , JS散度 , 互信息 , 条件熵等 。 下面这张图列出了信息论的核心知识:

机器学习数学知识结构图
文章图片
熵是最基本的概念 , 推广到多个概率分布 , 可以得到交叉熵 , KL散度 , 以及JS散度 。 推广到多个随机变量 , 可以得到互信息 , 条件熵 。
随机过程
随机过程同样是概率论的延伸 。 在机器学习中 , 随机过程被用于概率图模型、强化学习、以及贝叶斯优化等方法 。 不理解马尔可夫过程 , 你将对MCMC采样算法一筹莫展 。 下面这张图列出了机器学习中随机过程的核心知识:

机器学习数学知识结构图
文章图片
在机器学习中所用的主要是马尔可夫过程和高斯过程 。 隐马尔可夫过程 , 马尔可夫决策过程都是它的延伸 。 平稳分布、细致平衡条件也是理解MCMC采样的核心基础 。
图论
在机器学习中 , 概率图模型是典型的图结构 。 流形降维算法与谱聚类算法均使用了谱图理论 。 计算图是图的典型代表 , 图神经网络作为一种新的深度学习模型 , 与图论也有密切的关系 。 下面这张图列出了图论的整体知识结构:

机器学习数学知识结构图
文章图片
这里相等难以理解的是谱图理论 。 谱图理论的核心是拉普拉斯矩阵 , 归一化拉普拉斯矩阵 , 理解它们需要扎实的线性代数基础 。