希捷|一次性总结:64个数据分析常用术语

text":"


源/凹凸数据
本篇文章 , 我们来讲讲数据分析常用语
1、绝对数和相对数
绝对数:是反应客观现象总体在一定时间、一定地点下的总规模、总水平的综合性指标 , 也是数据分析中常用的指标 。 比如年GDP , 总人口等等 。
相对数:是指两个有联系的指标计算而得出的数值 , 它是反应客观现象之间的数量联系紧密程度的综合指标 。 相对数一般以倍数、百分数等表示 。 相对数的计算公式:
相对数=比较值(比数)/基础值(基数)
2、百分比和百分点
百分比:是相对数中的一种 , 它表示一个数是另一个数的百分之几 , 也称为百分率或百分数 。 百分比的分母是100 , 也就是用1%作为度量单位 , 因此便于比较 。
百分点:是指不同时期以百分数的形式表示的相对指标的变动幅度 , 1%等于1个百分点 。
3、频数和频率
频数:一个数据在整体中出现的次数 。
频率:某一事件发生的次数与总的事件数之比 。 频率通常用比例或百分数表示 。
4、比例与比率
比例:是指在总体中各数据占总体的比重 , 通常反映总体的构成和比例 , 即部分与整体之间的关系 。
比率:是样本(或总体)中各不同类别数据之间的比值 , 由于比率不是部分与整体之间的对比关系 , 因而比值可能大于1 。
5、倍数和番数
倍数:用一个数据除以另一个数据获得 , 倍数一般用来表示上升、增长幅度 , 一般不表示减少幅度 。
番数:指原来数量的2的n次方 。
6、同比和环比
同比:指的是与历史同时期的数据相比较而获得的比值 , 反应事物发展的相对性 。
环比:指与上一个统计时期的值进行对比获得的值 , 主要反映事物的逐期发展的情况 。
7、变量
变量来源于数学 , 是计算机语言中能储存计算结果或能表示值抽象概念 。 变量可以通过变量名访问 。
8、连续变量
在统计学中 , 变量按变量值是否连续可分为连续变量与离散变量两种 。 在一定区间内可以任意取值的变量叫连续变量 , 其数值是连续不断的 , 相邻两个数值可作无限分割 , 即可取无限个数值 。 如:年龄、体重等变量 。
9、离散变量
离散变量的各变量值之间都是以整数断开的 , 如人数、工厂数、机器台数等 , 都只能按整数计算 。 离散变量的数值只能用计数的方法取得 。
10、定性变量
又名分类变量:观测的个体只能归属于几种互不相容类别中的一种时 , 一般是用非数字来表达其类别 , 这样的观测数据称为定性变量 。 可以理解成可以分类别的变量 , 如学历、性别、婚否等 。
11、均值
即平均值 , 平均数是表示一组数据集中趋势的量数 , 是指在一组数据中所有数据之和再除以这组数据的个数 。
12、中位数
对于有限的数集 , 可以通过把所有观察值高低排序后找出正中间的一个作为中位数 。 如果观察值有偶数个 , 通常取最中间的两个数值的平均数作为中位数 。
13、缺失值
它指的是现有数据集中某个或某些属性的值是不完全的 。
14、异常值
指一组测定值中与平均值的偏差超过两倍标准差的测定值 , 与平均值的偏差超过三倍标准差的测定值 , 称为高度异常的异常值 。
15、方差
是衡量随机变量或一组数据时离散程度的度量 。 概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度 。 统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数 。 在许多实际问题中 , 研究方差即偏离程度有着重要意义 。 方差是衡量源数据和期望值相差的度量值 。
16、标准差
又常称均方差 , 是离均差平方的算术平均数的平方根 , 用σ表示 。 标准差是方差的算术平方根 。 标准差能反映一个数据集的离散程度 。 平均数相同的两组数据 , 标准差未必相同 。
17、皮尔森相关系数
皮尔森相关系数是用来反映两个变量线性相关程度的统计量 。 相关系数用r表示 , 其中n为样本量 , 分别为两个变量的观测值和均值 。 r描述的是两个变量间线性相关强弱的程度 。 r的绝对值越大表明相关性越强 。
18、PV(Page View)页面浏览量
指某段时间内访问网站或某一页面的用户的总数量 , 通常用来衡量一篇文章或一次活动带来的流量效果 , 也是评价网站日常流量数据的重要指标 。 PV可重复累计 , 以用户访问网站作为统计依据 , 用户每刷新一次即重新计算一次 。