[]学会这个最基础的统计学知识,数据分析专业度提升一大截


做数据分析统计学知识是必不可少的 , 统计学是数据分析的基石 。 统计学是一种利用数学理论来进行数据分析的技术 , 通过统计学我们可以用更富有信息驱动力和针对性的方式去对数据进行操作 , 从而使得我们的分析结果更加专业 。 今天我就来说说数据分析中最基础的统计学知识:描述统计
什么是描述性统计?
我们在做了相关的数据统计之后 , 将会收集到一系列复杂的数据信息 , 在这种情况下 , 仅仅单靠“看”数据 , 会让人一脸茫然 。 这时候就需要用描述性统计分析来了解数据的大致情况 。
描述性统计要就是对调查总体所有变量的有关数据做统计性描述 , 主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形 。

[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图
常用的指标有均值、中位数、众数、方差、标准差等等 。 数据的集中趋势一般采用平均值、中位数表示 。 数据的离散程度一般采用方差、标准差表示 。 数据的分布情况一般采用直方图表示 。
几个重要指标
1、众数
一组数据中出现最多的变量即为众数 。
比如一组数据:西瓜、西瓜、南瓜、西瓜、冬瓜、苹果、苹果 , 其众数自然就是西瓜 , 在数据量比较大时可以借助统计软件进行计算 , excel中函数为mode , python中暂时没有实现众数的函数 , 但可以曲线救国 。
2、均值
平均值这个大家都知道就是计算一组数据的平均值 , 了解这组数据的平均水平 。 在使用均值分析的过程中要注意 , 平均值非常容易受极值的影响 , 当数据集中出现极值时 , 呈现的平均水平结果就可能会出现不客观的现象 。 比如拿你的收入和马化腾、马云的收入放在一起算平均值 , 得出来的结果肯定不能代表你们三个平均收入水平 。
3、中位数
将一组数据按照从小到大的顺序排列时 , 最中间的数据就是中位数 。 当数据个数为奇数时 , 中位数即最中间的数 , 当数据个数为偶数时 , 中位数为中间两个数的平均值 。 中位数不受极值影响 , 因此对极值缺乏敏感性 。
4、分位数
中位数从中间点将全部数据等分为两部分 。 与中位数类似的还有四分位数、十分位数和百分位数等 。 它们分别是用3个点、9个点和99个点将数据4等分、10等分和100等分后各分位点上的值 。 这里简单介绍一下比较常见的四分位数的使用方法:
四分位数是指在把所有数值由小到大排列并分成四等份 , 处于三个分割点位置的数值 , 分割后我们会通过5个数值来描述数据的整体分布情况 。

  • 下界:最小值 , 即第0%位置的数值;
  • 下四分位数:Q1 , 即第25%位置的数值;
  • 中位数:Q2 , 即第50%位置的数值;
  • 上四分位数:Q3 , 即第75%位置的数值;
  • 上界:最大值 , 即第100%位置的数值 。
优点是可以用来对比不同类别数据的整体情况 , 还可以识别出可能的异常值 。 缺点是无法反映数据的波动大小
计算方式:
①先求出中位数Q2:
首先我们要将所有数值以从小到大 , 从左到右的顺序进行排序 , 假设有n个数如果n是奇数 , 中位数就是位于中间位置的数值 。 如果n是偶数 , 中位数则是中间两个数的平均值 。

[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图
②求出下四分位数和上四分位数:

[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图
下四分位数Q1的位置=(n+1)x0.25;上四分位数Q1的位置=(n+1)x0.75
举个例子:
我们根据下面的数据 , 分析一下就餐人员距离的问题 。分页标题

[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图
以上图标已经将数据进行排列 , 总共有18个数据 , 接下来我们套用公式计算分别计算出下四分位数Q1、中位数Q2、上四分位数Q3的位置和数值:
中位数Q2:Q2位置=(18+1)x0.5=9.5 , 即中位数为第9和第10项的均值 , Q2=(4+6)/2=5
下四分位数Q1:Q1位置=(18+1)x0.25=4.75 , 即下四分位数为第4和第5项的均值 , Q1=(2+2)/2=2
上四分位数Q3:Q3位置=(18+1)x0.75=14.25 , 即上四分位数为第14和第15项的均值 , Q3=(11+14)/2=12.5
(3)箱型图
在算出四分位数之后 , 可能有一些理科思维不太顺畅的人会看懵了 , 会疑问到这是表示什么呀?这时 , 就需要用到数据可视化了 , 用更加直观的形式去展示和分析数据的情况 。 箱型图就是四分位数的专用可视化图形工具 , 它能显示出一组数据的最大值(上界)、最小值(下界)、中位数、及上下四分位数 。 用Excel就能直接做出箱型图

[]学会这个最基础的统计学知识,数据分析专业度提升一大截
本文插图
根据就餐人员距离的数据计算得出四分位数后 , 以箱线图呈现 , 我们发现中位数离下四分位数较近 , 这代表大部分数值集中在箱线图下端 , 集中在下四分位数和中位数之间 。 箱线图的作用主要有两个:1比较不同数据集、2识别异常值 。
5、标准差
在统计学中 , 我们会用“离散程度”(即是变异性、波动大小)来衡量数据的稳定性 。 而“标准差”就是统计学当中用来在海量杂乱无章的数据中衡量数据相对于平均值的大小 。
优势:衡量波动大小缺点:如果两个数据差别比较大 , 那么就无法比较 。
计算公式:
假设有一个数据集X1、X2、X3
平均值=μ
方差=((X1-μ)2+(X2-μ)2+(X3-μ)2)/n
标准差σ=√ ̄方差
标准差小就证明数据整体波动水平越小 。 在实际生活中经常会用来计算球员的发挥稳定性 。
标准差虽然能表示数据整体的波动 , 但是它有个缺点:如果两个数据差别比较大的情况下那么就无法进行比较 。
6、离散系数
离散系数又称变异系数 ,它是一组数据的标准差与其相应的平均数之比 。
变异系数=标准差σ/平均值μ
离散系数主要用于比较不同样本数据的离散程度 。 离散系数大 , 说明数据的离散程度越大 , 平均指标(一般指平均数)的代表性越差 , 离散系数小 , 说明数据的离散程度也小 。 平均指标(一般指平均数)的代表性越好 。
7、标准分:对数据进行归一化处理
标准分主要是用来计算出某个数值在数据中的相对位置的 , 标准分又叫Z分数或是标准化值 。 标准分布又称正态分布
计算公式:
假设有一个数据集X1、X2、X3
平均值=μ
标准差=σ
X2的标准分Z2=(X2-μ)/σ
标准分=某个数值距离平均值多少个标准差 , 通过标准分我们就可以知道这个数值与平均值的相对接近程度 。 标准分=0 , 数值=平均值;标准分>0 , 数值>平均值;标准分<0 , 数值<平均值
【[]学会这个最基础的统计学知识,数据分析专业度提升一大截】笔者从业数据分析多年 , 整理了10G的数据分析学习资料包 , 需要的朋友转发收藏本文 , 后台私信我“资料包”即可获得!