CDA LEVEL 1 考试,知识点汇总《数据分析概述》( 二 )


模型发布(Deployment) 模型完成后,由模型使用者(客户)根据当时背景和目标完成情况,决定如何在现场使用模型 。比如,在网页的实时个 人化中或营销数据的重复评分中 。
2.SEMMA 方法论
SAS公司的数据挖掘项目实施方法论,对CRISP-DM方法中的数据准备和建模环节进行了拓展,被称为SEMMA方法,如下图所示 。

CDA LEVEL 1 考试,知识点汇总《数据分析概述》

文章插图
3.5个步骤中的主要任务,如下图所示 。
CDA LEVEL 1 考试,知识点汇总《数据分析概述》

文章插图
数据整理
涉及数据采集、数据合并与抽样的操作,目的是为了构造分析用到的数据 。分析人员根据维度分析获得的结果作为整理 数据的依据,将散落在公司内部与外部的数据进行整合 。
样本探索
这个步骤的主要任务是对数据质量的探索 。变量质量方面涉及错误值(如:年龄=-30)、恰当性(客户的某些业务指标 为缺失值,实际上是没有这个业务,值应该为“0”)、缺失值(没有客户的收入信息)、一致性(收入单位为人民币,而支出单位为美元)、平稳性(某些数据的均值变化过于剧烈)、重复值(相同的交易被记录两次)和及时性(银行客 户的财务数据更新的滞后时长)等方面 。这部分的探索主要解决变量是错误时是否可以修改、是否可以使用的问题 。
变量修改
根据变量探索的结论,需要对数据质量问题和变量分布情况分别作变量修改 。数据质量问题的修改涉及改正错误编码、 缺失值填补、单位统一等操作 。变量分布情况的修改涉及函数转换和标准化方法,具体的修改方法需要与后续的统计建 模方法相结合 。
建模 根据分析的目的选取合适的模型,这部分内容在“数据分析方法分类介绍”已经作了详细的阐述,这里不再赘述 。
模型检验 这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估 。比如,对有监督学习会使用ROC曲线和提升度 等技术指标评估模型的预测能力 。
数据分析中不同人员的角色与职责
业务问题是需求,最终需要转换成统计或数据挖掘等问题,用数据分析的思路来解决,因此数据分析师在业务与数据间 起到协调作用,是业务问题能否成功转换成统计问题的关键 。通常来说,业务问题需要一个或多个字段来表达,这些字 段以什么形式出现(如测量级别),因为字段的形式会决定选择的方法,而每种方法又用于解决特定的需求,此外由于 模型对业务人员或企业高管来说可能过于专业,因此需要将模型输出通俗的表达出来 。所以协调者、数据分析师、报告 人的角色,决定了数据分析师是一名(精通数理和软件的)综合型人才 。
三、例题精讲
1.公司营销部门每月例会报告的经营指标汇总,属于下列哪一类数据分析?
A. 客户行为的数据挖掘报告
B. 描述性数据分析报告
C. 产品和行为倾向报告
D. 以上都不对
答案:B 解析:按照惯例经营指标汇总,通常是报告业绩指标的数量、金额、百分比或排名等信息,这类 分析多数归属于描述性数据分析,而且是单变量分析的内容 。AC项涉及行为特点和商品特征的关 系,属于多变量分析的内容 。
2.以下哪些内容包含在数据分析层次级别中?
A. 即席查询
B. 多维分析(又称为钻取或者OLAP)
C. 统计分析与警报
D. 与业务人员协商知识点
答案:ABC解析:考察数据分析的八个层次,需要在理解的基础上加以记忆 。
3.统计模型主要用于解决哪几类问题?
A. 预测分类问题
B. OLAP分析问题
C. 相关分析
D. 市场细分问题
答案:ACD 解析:A项、C项和D项是统计模型的典型问题,但OLAP分析问题并不是统计模型 。
4.下列关于数据挖掘流程表达正确的一项是:
A. 方法论CRISP-DM与SEMMA是业内公认的权威流程,严格按照步骤做数据分析总不会出错的
B. CRISP-DM(译为“跨行业”数据挖掘)在任何数据分析行业中均适用
C. SEMMA方法论是对CRISP-DM方法中的数据准备和建模环节进行了拓展
D. 由于数据比较整洁,所以可以不需要再做数据预处理,直接从建模开始
答案:C 解析:AB两项都犯同一类错误,就是过于迷信方法论的权威性,D项中数据分析的一般性 描述是很重要的预分析过程,不仅如此,模型对于数据的要求也很高,样本探索、变量整理等预处理工作都不可省去 。