数据分析|如何用线性回归模型做数据分析?

编辑导语:在日常工作中,很多时候都会用到数据分析的方法,线性回归模型看起来非常简单,但实际上它的十分重要;本文作者分享了关于如何用线性回归模型做数据分析的方法,我们一起来学习一下。
数据分析|如何用线性回归模型做数据分析?
文章插图
一、什么是线性回归线性回归是利用线性的方法,模拟因变量与一个或多个自变量之间的关系;对于模型而言,自变量是输入值,因变量是模型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景。
线性回归应用于数据分析的场景主要有两种:

  • 驱动力分析:某个因变量指标受多个因素所影响,分析不同因素对因变量驱动力的强弱(驱动力指相关性,不是因果性);
  • 预测:自变量与因变量呈线性关系的预测;
模型数学形式:????=????0+????1????1+????2????2+?+????????????????
例如要衡量不同的用户特征对满意分数的影响程度,转换成线性模型的结果可能就是:分数=-2.1+0.56*年龄。
线性回归模型分为一元线性回归与多元线性回归:区别在于自变量的个数。
数据分析|如何用线性回归模型做数据分析?
文章插图
二、线性系数的计算:最小二乘法我们知道了模型的公式,那么模型的系数是如何得来呢?我们用最小二乘法来确定模型的系数——最小二乘法,它通过最小化误差的平方和寻找数据的最佳函数匹配,利用最小二乘法可以求得一条直线,并且使得拟合数据与实际数据之间误差的平方和为最小。
将上述模型公式简化成一个四个点的线性回归模型来具体看:分数=-2.1+0.56*年龄
数据分析|如何用线性回归模型做数据分析?
文章插图
最小二乘法选取能使模型 误差平方和= ????1????+ ????2????+ ????3????+ ????4????最小化的直线,生成直线后即可得出模型自变量的系数和截距。
三、决定系数R方(R-squared)与调整R方R方(适用一元线性回归)。
R方也叫决定系数,它的主要作用是衡量数据中的因变量有多准确可以被某一模型所计算解释。
公式:
离差平方和:代表因变量的波动,即因变量实际值与其平均值之间的差值平方和。
误差平方和:代表因变量实际值与模型拟合值之间的误差大小。
故R方可以解释因变量波动中,被模型拟合的百分比,即R方可以衡量模型拟合数据的好坏程度;R方的取值范围
使用不同模型拟合自变量与因变量之间关系的R方举例:
R方=1 模型完美的拟合数据(100%)
数据分析|如何用线性回归模型做数据分析?
文章插图
R方=0.91 模型在一定程度较好的拟合数据(91%)
R方
数据分析|如何用线性回归模型做数据分析?
文章插图
调整R方(适用多元线性回归):
一般的R方会存在一些问题,即把任意新的自变量加入到线性模型中,都可能会提升R方的值,模型会因加入无价值的变量导致R方提升,对最终结果产生误导。
故在建立多元线性回归模型时,我们把R方稍稍做一些调整,引进数据量、自变量个数这两个条件,辅助调整R方的取值,我们把它叫调整R方;调整R方值会因为自变量个数的增加而降低(惩罚),会因为新自变量带来的有价值信息而增加(奖励);可以帮助我们筛选出更多有价值的新自变量。
  • n:数据量大小(行数)->数据量越大,新自变量加入所影响越小;
  • p:自变量个数->自变量个数增加,调整R方变小,对这个量进行惩罚;
一句话,调整R方不会因为模型新增无价值变量而提升,而R方会因为模型新增无价值变量而提升!通过观测调整R方可以在后续建模中去重多重共线性的干扰,帮助我们选择最优自变量组合。
R方/调整R方值区间经验判断:
  • <0.3->非常弱的模型拟合
  • 0.3-0.5->弱的模型拟合
  • 0.5-0.7->适度的模型拟合
  • >0.7->较好的模型拟合
四、线性回归在数据分析中的实战流程我们以共享单车服务满意分数据为案例进行模型实战,想要去分析不同的特征对满意分的影响程度,模型过程如下:
数据分析|如何用线性回归模型做数据分析?
文章插图
1. 读取数据
数据分析|如何用线性回归模型做数据分析?
文章插图
2. 切分因变量和自变量、分类变量转换哑变量3. 使用VIF去除多重共线性多重共线性:就是在线性回归模型中,存在一对以上强相关变量,多重共线性的存在,会误导强相关变量的系数值。
强相关变量:如果两个变量互为强相关变量,当一个变量变化时,与之相应的另一个变量增大/减少的可能性非常大。