傻大方


首页 > 潮·科技 > >

协方差矩阵|五步掌握主成分分析法:数据少少,信息多多!( 二 )



按关键词阅读: 协方差矩阵 变量 数据集 协方差 PCA


协方差矩阵|五步掌握主成分分析法:数据少少,信息多多!文章插图
要认识到一件重要的事情是 , 既然新变量被构造为初始变量的线性组合 , 它们将更加难以解释 , 并且对我们没有任何实际意义 。
从几何学上讲 , 主成分代表了解释最大方差量的数据方向 , 也就是说 , 它们是捕获数据中大部分信息的线 。 在这里 , 方差和信息间的关系是 , 线所承载的方差越大 , 数据点沿着它的分散也越大 , 沿着线的散点越多 , 它所携带的信息也越多 。 简单地说 , 只要把主成分看作是提供最佳角度来观察和评估数据的新轴 , 这样观测结果之间的差异就会更明显 。
PCA如何构建主成分?
由于主成分的数量 , 如同数据中存在的变量一样多 , 因此主成分根据第一主成分占数据集中最大可能方差的方式进行构造 。 例如 , 假设我们的数据集的散点图如下所示 , 可以猜出第一个主成分吗?是的 , 就是大致与紫色标记匹配的线 。 因为它穿过原点 , 并且它是点(红点)的投影最分散的线 。 或者从数学上来讲 , 它是方差最大化的线(从投影点(红点)到原点的平方距离的平均值) 。
协方差矩阵|五步掌握主成分分析法:数据少少,信息多多!文章插图
第二主成分以相同的方式计算 , 条件是它与第一主成分并不相关(即垂直) , 并且它占第二高方差 。
直到计算出p个主成分数量 , 等于原始变量数 。
现在我们理解了主成分的含义 , 让我们回到特征向量和特征值 。 首先 , 你需要知道的是它们总是成对出现 , 因此每个特征向量都有一个特征值 , 它们的数量等于数据的维数 。 例如 , 对于三维数据集 , 存在3个变量 , 因此存在3个具有对应特征值的特征向量 。
不用多说 , 上面解释的所有“魔法”都是特征向量和特征值 , 因为协方差矩阵的特征向量实际上是方差最多的轴的方向(或最多的信息) , 我们称之为主成分 。 并且 , 特征值只是附加到特征向量上的系数 , 它们给出了每个主成分中携带的方差量 。
通过特征值的顺序对特征向量进行排序 , 从最高到最低 , 你就得到了按重要性排序的主成分 。
举例:
假设我们的数据集是2维的 , 有2个变量x , y , 并且协方差矩阵的特征向量和特征值如下:
协方差矩阵|五步掌握主成分分析法:数据少少,信息多多!文章插图
如果我们按降序对特征值进行排序 , 则得到λ1>λ2 , 这意味着与第一主成分(PC1)对应的特征向量是v1 , 而与第二成分(PC2)对应的特征向量是v2 。
在有了主成分之后 , 为了计算每个成分所占的方差(信息)百分比 , 我们将每个成分的特征值除以特征值的总和 。 如果我们把这个计算法应用到上面的例子中 , 我们会发现 , PC1和PC2分别携带了96%和4%的数据方差 。
第4步:特征向量
【协方差矩阵|五步掌握主成分分析法:数据少少,信息多多!】正如我们在上一步中所看到的 , 计算特征向量并按其特征值依降序排列 , 使我们能够按重要性顺序找到主成分 。 在这个步骤中我们要做的 , 是选择保留所有成分还是丢弃那些重要性较低的成分(低特征值) , 并与其他成分形成一个向量矩阵 , 我们称之为特征向量 。
因此 , 特征向量只是一个矩阵 , 其中包含我们决定保留的成分的特征向量作为列 。 这是降维的第一步 , 因为如果我们选择只保留n个特征向量(分量)中的p个 , 则最终数据集将只有p维 。
举例:
接着上一步的例子 , 我们可以用v1或v2向量来形成一个特征向量 。
协方差矩阵|五步掌握主成分分析法:数据少少,信息多多!文章插图
或者丢弃重要性较小的向量v2,仅用v1形成一个特征向量 。
协方差矩阵|五步掌握主成分分析法:数据少少,信息多多!文章插图
丢弃特征向量v2将使维数减少1 , 并且将导致最终数据集中的信息丢失 。但鉴于v2仅携带4%的信息 , 因此损失并不重要 , 我们仍将拥有v1所携带的96%的信息 。
因此 , 正如我们在例子中看到的那样 , 你可以选择是保留所有成分还是丢弃不重要的成分 , 具体取决于你要查找的内容 。 如果你不追求降维 , 只是想利用不相关的新变量(主成分)描述你的数据 , 则不需要保留重要性较次的成分 。
最后一步:沿主成分轴重新绘制数据
在前面的步骤中 , 除了标准化之外 , 你不需要更改任何数据 , 只需选择主成分 , 形成特征向量 , 但输入数据集时要始终与原始轴统一(即初始变量) 。


稿源:(未知)

【傻大方】网址:http://www.shadafang.com/c/111J310J2020.html

标题:协方差矩阵|五步掌握主成分分析法:数据少少,信息多多!( 二 )


上一篇:浅谈mmap介绍

下一篇:新MacBook运行iOS应用到底怎么样?体验结果来了