数据科学中的6个基本算法解析 数据算法有哪些( 二 )


矩阵是由数字、符号或表达式组成的矩形阵列,按行和列排列 。例如:

数据科学中的6个基本算法解析 数据算法有哪些

文章插图

它被称为3×3矩阵,因为它有三行三列 。
神经网络,每个特征都表示为输入神经元 。每个特征的数值乘以神经元的权重向量获得输出 。在数学上,该过程是这样的:
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

其中X是一个m×n矩阵,m是神经元输入的数量,n神经元输出的数量 。a是权重向量,aT是a的转置,b是偏置 。
偏置(bias)通过向左或向右移动S形函数来影响神经网络输出,以便对某些数据集进行更好的预测 。转置(Transpose)是一个线性代数术语,它的意思是把矩阵的行变成列、列变成行 。
在所有特征列和权重相乘之后,调用激活函数来确定神经元是否被激活 。激活函数有三种主要类型:RELU函数,sigmoid函数和双曲正切函数 。
sigmoid函数我们已经知道了 。RELU函数是一个简洁的函数,当输入x大于0的时候输出x,当输入x小于0的时候输出0 。双曲正切函数与sigmoid函数类似,只是它用来约束-1和1之间的数值 。
需要的数学知识:
离散数学和线性代数课程是必须的 。为了深入理解,还需要学习图论、矩阵论、多元微积分和实分析课程 。
K-平均聚类
K-平均聚类(K-Means Clustering)算法是一种无监督机器学习,用于对未标记数据进行分类 。该算法通过在数据中查找组来工作,其中组由变量k表示 。它根据提供的特征将每个数据点分配给k组中的一个 。
K-平均聚类依赖于整个算法中的距离概念,将数据点“分配”到聚类 。在数学中,描述集合中任意两个元素之间距离的指标有两种:欧几里德距离和出租车距离(又叫曼哈顿距离) 。
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

其中,(x1, y1)、(x2, y2 )是笛卡尔平面上的坐标点 。
虽然欧几里得距离标准已经足够,但在某些情况下它不起作用 。假设在城市街道上乘坐出租车,那么你是没法走斜线的,只能走横平竖直的街道,这时候我们可以使用出租车距离:
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

需要的数学知识:
这部分牵涉到的知识比较少 。实际上你只需要知道加法和减法和代数的基础知识,就可以掌握距离公式 。但是为了深入理解每种距离的基本几何形状,建议学习欧氏几何和非欧几何 。为了深入理解指标和度量空间的含义,我会阅读数学分析并参加实分析课程 。
决策树
决策树是一种类似流程图的树结构,它使用分支方法来说明决策的每个可能结果 。树中的每个节点代表对特定变量的测试,每个分支都是该测试的结果 。
决策树依赖于信息论(information theory) 。在信息论中,人们对某个主题了解越多,可以知道的新信息就越少 。信息论的关键之一是熵(entropy) 。熵是变量不确定性的一种度量,具体形式为:
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

在上面的公式中,P(x)是数据集中特征出现的概率 。b是对数函数的底,它常见的值有2、e和10 。前面的Σ符号表示求和,它的上下方分别写着求和的上限和下限 。
在计算熵之后,我们可以通过信息增益(information gain)构造决策树,它告诉哪种拆分方式会最大程度地减少熵 。信息增益的公式如下:
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

信息增益用于衡量可以获得多少“信息” 。在决策树中,我们可以计算数据集中每一列的信息增益,找到哪一列能为我们提供最大的信息增益,然后在该列上进行拆分 。
赞 (0) 打赏
数据科学中的6个基本算法解析 数据算法有哪些

文章插图