数据科学中的6个基本算法解析数据算法有哪些( 二 ) _生活百科

矩阵是由数字、符号或表达式组成的矩形阵列，按行和列排列。例如：

文章插图

它被称为3×3矩阵，因为它有三行三列。
神经网络，每个特征都表示为输入神经元。每个特征的数值乘以神经元的权重向量获得输出。在数学上，该过程是这样的：

文章插图

其中X是一个m×n矩阵，m是神经元输入的数量，n神经元输出的数量。a是权重向量，aT是a的转置，b是偏置。
偏置（bias）通过向左或向右移动S形函数来影响神经网络输出，以便对某些数据集进行更好的预测。转置（Transpose）是一个线性代数术语，它的意思是把矩阵的行变成列、列变成行。
在所有特征列和权重相乘之后，调用激活函数来确定神经元是否被激活。激活函数有三种主要类型：RELU函数，sigmoid函数和双曲正切函数。
sigmoid函数我们已经知道了。RELU函数是一个简洁的函数，当输入x大于0的时候输出x，当输入x小于0的时候输出0 。双曲正切函数与sigmoid函数类似，只是它用来约束-1和1之间的数值。
需要的数学知识：

离散数学和线性代数课程是必须的。为了深入理解，还需要学习图论、矩阵论、多元微积分和实分析课程。

K-平均聚类
K-平均聚类（K-Means Clustering）算法是一种无监督机器学习，用于对未标记数据进行分类。该算法通过在数据中查找组来工作，其中组由变量k表示。它根据提供的特征将每个数据点分配给k组中的一个。
K-平均聚类依赖于整个算法中的距离概念，将数据点“分配”到聚类。在数学中，描述集合中任意两个元素之间距离的指标有两种：欧几里德距离和出租车距离（又叫曼哈顿距离）。

文章插图

其中，(x1, y1)、(x2, y2 )是笛卡尔平面上的坐标点。
虽然欧几里得距离标准已经足够，但在某些情况下它不起作用。假设在城市街道上乘坐出租车，那么你是没法走斜线的，只能走横平竖直的街道，这时候我们可以使用出租车距离：

文章插图

需要的数学知识：

这部分牵涉到的知识比较少。实际上你只需要知道加法和减法和代数的基础知识，就可以掌握距离公式。但是为了深入理解每种距离的基本几何形状，建议学习欧氏几何和非欧几何。为了深入理解指标和度量空间的含义，我会阅读数学分析并参加实分析课程。

决策树
决策树是一种类似流程图的树结构，它使用分支方法来说明决策的每个可能结果。树中的每个节点代表对特定变量的测试，每个分支都是该测试的结果。
决策树依赖于信息论（information theory）。在信息论中，人们对某个主题了解越多，可以知道的新信息就越少。信息论的关键之一是熵（entropy）。熵是变量不确定性的一种度量，具体形式为：

文章插图

在上面的公式中，P(x)是数据集中特征出现的概率。b是对数函数的底，它常见的值有2、e和10 。前面的Σ符号表示求和，它的上下方分别写着求和的上限和下限。
在计算熵之后，我们可以通过信息增益（information gain）构造决策树，它告诉哪种拆分方式会最大程度地减少熵。信息增益的公式如下：

文章插图

信息增益用于衡量可以获得多少“信息” 。在决策树中，我们可以计算数据集中每一列的信息增益，找到哪一列能为我们提供最大的信息增益，然后在该列上进行拆分。
赞 (0) 打赏

文章插图

上一页
1
2
3
下一页

数据对比用什么图表看这份图表选择指南就够了

iPhone备份的4种方法苹果手机怎么备份所有数据

15省份人口数据出炉：河南44年来出生人口首次跌破80万

ps里怎么选中选区快捷键 ps选中的快捷键

有免费恢复sd卡数据的软件吗? SD卡数据恢复软件有哪些

excel的数据透视表怎么弄百分比 Excel的数据透视表怎么弄

宋朝岳飞军中的八大锤都有谁啊

三国演义电视剧中的历史错误三国演义的错误有哪些

送爱人手表是什么意思

红楼梦中的贾府是怎么走向衰败的红楼梦薛府它是如何败落的

数据科学中的6个基本算法解析 数据算法有哪些( 二 )

数据科学中的6个基本算法解析数据算法有哪些( 二 )