监督学习最常见的五种算法解析 监督学习算法有哪些( 二 )


C4.5选择增益率为分裂属性(连续属性要用增益率离散化) 。C4.5算法有如下优点:产生的分类规则易于理解,准确率较高 。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效 。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行 。
如果所有属性都作为分裂属性用光了,但有的子集还不是纯净集,即集合内的元素不属于同一类别 。在这种情况下,由于没有更多信息可以使用了,一般对这些子集进行“多数表决”,即使用此子集中出现次数最多的类别作为此节点类别,然后将此节点作为叶子节点 。
在实际构造决策树时,通常要进行剪枝,这时为了处理由于数据中的噪声和离群点导致的过分拟合问题 。剪枝有两种:先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支的构造;后剪枝——先构造完成完整的决策树,再通过某些条件遍历树进行剪枝 。悲观错误剪枝PEP算法是一种常见的事后剪枝策略 。
三. 朴素贝叶斯(Naive Bayesian)贝叶斯分类是一系列分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类 。朴素贝叶斯算法(Naive Bayesian) 是其中应用最为广泛的分类算法之一 。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立 。朴素贝叶斯的基本思想是对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别 。
首先给出条件概率的定义,P(A∥B)表示事件A在B发生下的条件概率,其公式为:
贝叶斯定理用来描述两个条件概率之间的关系,贝叶斯定理公式为:

监督学习最常见的五种算法解析 监督学习算法有哪些

文章插图
朴素贝叶斯分类算法的具体步骤如下:
(1)设x={a1,a2,…,am}为一个待分类项,a1,a2,…,am为x的m个特征属性;
(2)设有类别集合C={y1,y2,…,yn},即共有n个类别;
(3)依次计算x属于各项分类的条件概率,即计算P(y1∥x),P(y2∥x),… ,P(yn∥x):
注意,算法的下一步骤是对比这些结果的大小,由于各项分母都是P(x),所以分母不用计算 。分子部分中P(yn)和P(ai∥yn)都是通过样本集统计而得,其中P(yn)的值为样本集中属于yn类的数量与样本总数量之比,P(ai∥yn)的值为yn类中满足属性ai的数量与yn类下样本总数量之比 。
这样的计算方式符合特征属性是离散值的情况,如果特征属性是连续值时,通常假定其值服从高斯分布(也称正态分布),即:
监督学习最常见的五种算法解析 监督学习算法有哪些

文章插图
那么P(ai∥yn)的值为:
监督学习最常见的五种算法解析 监督学习算法有哪些

文章插图
其中,ηyn和σyn分别为训练样本yn类别中ai特征项划分的均值和标准差 。
对于P(a∥y)=0的情况,当某个类别下某个特征项划分没有出现时,就是产生这种现象,这会令分类器质量大大降低 。因此引入Laplace校准,对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,也避免了乘积为0的情况 。
(4)比较(3)中所有条件概率的大小,最大的即为预测分类结果,即:
这里有一个朴素贝叶斯分类实例:检测SNS社区中不真实账号 。
四. 逻辑回归(Logistic Regression)我们知道,线性回归就是根据已知数据集求一线性函数,使其尽可能拟合数据,让损失函数最小,常用的线性回归最优法有最小二乘法和梯度下降法 。而逻辑回归是一种非线性回归模型,相比于线性回归,它多了一个sigmoid函数(或称为Logistic函数) 。逻辑回归是一种分类算法,主要用于二分类问题 。逻辑回归的具体步骤如下:
(1)定义假设函数h(即hypothesis)
Sigmoid函数的图像是一个S型,预测函数就是将sigmoid函数g(x)里的自变量x替换成了边界函数θ(x),如下:
监督学习最常见的五种算法解析 监督学习算法有哪些

文章插图
这里hθ(x)表示结果取1的概率,因此对于输入x分类结果为类别1和类别0的概率分别为:
(2)定义边界函数θ(x)
对于二维数据,如果是预设线性线性边界,那么边界函数为:
如果是预设非线性线性边界,那么边界函数为的形式就多了,例如:
假设我们现在要解决的是识别图片中的0或1(样本库只有0和1的图片),图片大小是20*20,那么这个时候有400个特征向量,那么边界函数为: