数据科学面试中应了解的十种机器学习概念( 二 )


· F1分数:衡量测试准确性的指标 , 它是准确性和召回率的谐和平均值 。它的最高分数为1(完美的准确性和查全率) , 最低分数为0 。 总体而言 , 它是模型准确性和健壮性的度量 。
· AUC-ROC曲线是对分类问题的一种性能度量 , 它告诉我们模型能够区分多个类别 。较高的AUC表示模型更准确 。
6.降维降维是减少数据集中要素数量的过程 。这一点很重要 , 主要是在您要减少模型中的方差(过度拟合)的情况下 。
最流行的降维技术之一是主成分分析或PCA 。从最简单的意义上讲 , PCA涉及将较高维度的数据(例如3个维度)投影到较小的空间(例如2个维度) 。这样会导致数据维度较低(2维而不是3维) , 同时将所有原始变量保留在模型中 。
PCA通常用于压缩目的 , 以减少所需的内存并加快算法的速度 , 还用于可视化目的 , 从而使汇总数据更加容易 。
7.数据准备数据准备是清除原始数据并将其转换为更可用状态的过程 。在采访中 , 可能会要求您列出整理数据集时要采取的一些步骤 。
数据准备中一些最常见的步骤包括:
· 检查异常值并可能将其删除
· 估算缺失数据
· 编码分类数据
· 标准化或标准化您的数据
· 特征工程
· 通过对数据进行欠采样或过采样来处理数据不平衡
8.自举采样Bootstrap采样方法是一个非常简单的概念 , 并且是一些更高级的机器学习算法(例如AdaBoost和XGBoost)的构建块 。
从技术上讲 , 自举采样方法是一种重采样方法 , 它使用随机采样进行替换 。
别担心这听起来令人困惑 , 让我用一个图表来解释一下:
数据科学面试中应了解的十种机器学习概念文章插图
假设您有一个包含3个观测值的初始样本 。使用自举抽样方法 , 您还将创建一个包含3个观测值的新样本 。每个观察都有被选择的平等机会(1/3) 。在这种情况下 , 第二个观察值是随机选择的 , 它将是我们新样本中的第一个观察值 。
数据科学面试中应了解的十种机器学习概念文章插图
随机选择另一个观察值后 , 您选择了绿色观察值 。
数据科学面试中应了解的十种机器学习概念文章插图
最后 , 再次随机选择黄色观察值 。请记住 , 引导抽样是使用随机抽样和替换抽样 。这意味着很有可能再次选择已经选择的观测值 。
这就是自举采样的精髓!
9.神经网络尽管并不是每个数据科学工作都需要深度学习 , 但无疑需求在不断增长 。因此 , 对神经网络是什么以及它们如何工作有一个基本的了解可能是一个好主意 。
从根本上说 , 神经网络本质上是数学方程式的网络 。它采用一个或多个输入变量 , 并通过方程式网络得出一个或多个输出变量 。
数据科学面试中应了解的十种机器学习概念文章插图
在神经网络中 , 有一个输入层 , 一个或多个隐藏层和一个输出层 。输入层由一个或多个表示为x1 , x2 , … , xn的特征变量(或输入变量或自变量)组成 。隐藏层由一个或多个隐藏节点或隐藏单元组成 。节点只是上图中的圆圈之一 。同样 , 输出变量由一个或多个输出单元组成 。
数据科学面试中应了解的十种机器学习概念文章插图
就像我在开始时说的那样 , 神经网络不过是方程网络 。神经网络中的每个节点都由两个函数组成 , 一个线性函数和一个激活函数 。在这里 , 事情可能会有些混乱 , 但是现在 , 将线性函数视为最合适的直线 。另外 , 将激活功能想像成一个电灯开关 , 它会导致数字介于1或0之间 。
10.集成学习 , Bagging , Boosting某些最佳的机器学习算法结合了这些术语 , 因此 , 您必须了解什么是集成学习 , 装袋和增强 。
集成学习是一种结合使用多种学习算法的方法 。这样做的目的是 , 与单独使用单个算法相比 , 它可以实现更高的预测性能 。
套袋 , 也称为引导程序聚合 , 是一个过程 , 其中使用原始数据集的自举样本来训练同一学习算法的多个模型 。然后 , 就像上面的随机森林示例一样 , 对所有模型的输出进行表决 。
数据科学面试中应了解的十种机器学习概念文章插图
> Bagging Process (created by author)
Boosting是套袋的一种变体 , 其中每个单独的模型都按顺序构建 , 并在前一个模型上进行迭代 。具体而言 , 在以下模型中强调由先前模型错误分类的任何数据点 。这样做是为了提高模型的整体准确性 。这是一个使过程更有意义的图: