科技看点|你了解机器学习知识体系吗( 二 )


K邻近算法背后的原理是找到距离新点最近的预定义数量的训练样本 , 并从中预测标签 。 样本数可以是用户定义的常数(k近邻学习) , 也可以基于点的局部密度而变化(基于半径的邻居学习) 。 距离通常可以是任何度量标准:标准欧几里德距离是最常见的选择 。
4.2线性回归–Linearregression
线性回归是利用数理统计中回归分析 , 来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法 , 运用十分广泛 。 线性回归是一种非常简单的回归分析方法 , 一般都是通过测试数据集确定变量之间的函数关系 , 通过这个函数关系预测结果集 。
4.3多项式回归-Polynomialregression
多项式回归是对线性回归的扩展 , 分析的变量一般在两个或两个以上 。 同线性回归一样 , 只是变量之间的关系变得更加复杂 , 多项式的最高次幂也不再局限 , 一般都大于等于二次幂 。
4.4逻辑回归–Logisticregression
逻辑回归虽被称为回归 , 但其主要解决二分类问题 , 用来表示某件事情发生的可能性 。 常常被用来利用已知的自变量来预测一个离散型因变量的值 。
4.5朴素贝叶斯–NaiveBayesclassifier|NBC
朴素贝叶斯算法是一种分类算法 。 它不是单一算法 , 而是一系列算法 , 它们都有一个共同的原则 , 即被分类的每个特征都与任何其他特征的值无关 。 朴素贝叶斯分类器认为这些“特征”中的每一个都独立地贡献概率 , 而不管特征之间的任何相关性 。 然而 , 特征并不总是独立的 , 这通常被视为朴素贝叶斯算法的缺点 。 简而言之 , 朴素贝叶斯算法允许我们使用概率给出一组特征来预测一个类 。 与其他常见的分类方法相比 , 朴素贝叶斯算法需要的训练很少 。 在进行预测之前必须完成的唯一工作是找到特征的个体概率分布的参数 , 这通常可以快速且确定地完成 。 这意味着即使对于高维数据点或大量数据点 , 朴素贝叶斯分类器也可以表现良好 。
4.6支持向量机–SupportVectorMachine|SVM
基本思想可概括如下:首先 , 要利用一种变换将空间高维化 , 当然这种变换是非线性的 , 然后 , 在新的复杂空间取最优线性分类表面 。 由此种方式获得的分类函数在形式上类似于神经网络算法 。 支持向量机是统计学习领域中一个代表性算法 , 但它与传统方式的思维方法很不同 , 输入空间、提高维度从而将问题简短化 , 使问题归结为线性可分的经典解问题 。 支持向量机应用于垃圾邮件识别 , 人脸识别等多种分类问题 。
4.7决策树–Decisiontree
决策树及其变种是一类将输入空间分成不同的区域 , 每个区域有独立参数的算法 。 决策树算法充分利用了树形模型 , 根节点到一个叶子节点是一条分类的路径规则 , 每个叶子节点象征一个判断类别 。 先将样本分成不同的子集 , 再进行分割递推 , 直至每个子集得到同类型的样本 , 从根节点开始测试 , 到子树再到叶子节点 , 即可得出预测类别 。 此方法的特点是结构简单、处理数据效率较高 。
4.8随机森林–Randomforest
控制数据树生成的方式有多种 , 根据前人的经验 , 大多数时候更倾向选择分裂属性和剪枝 , 但这并不能解决所有问题 , 偶尔会遇到噪声或分裂属性过多的问题 。 基于这种情况 , 总结每次的结果可以得到袋外数据的估计误差 , 将它和测试样本的估计误差相结合可以评估组合树学习器的拟合及预测精度 。 此方法的优点有很多 , 可以产生高精度的分类器 , 并能够处理大量的变数 , 也可以平衡分类资料集之间的误差 。
4.9Boosting与Bagging算法
Boosting是种通用的增强基础算法性能的回归分析算法 。 不需构造一个高精度的回归分析 , 只需一个粗糙的基础算法即可 , 再反复调整基础算法就可以得到较好的组合回归模型 。 它可以将弱学习算法提高为强学习算法 , 可以应用到其它基础回归算法 , 如线性回归、神经网络等 , 来提高精度 。 Bagging和前一种算法大体相似但又略有差别 , 主要想法是给出已知的弱学习算法和训练集 , 它需要经过多轮的计算 , 才可以得到预测函数列 , 最后采用投票方式对示例进行判别 。