CDA LEVEL 1 考试,知识点汇总《数据分析概述》

一、基本概念
1.数据分析和数据挖掘的概念
数据分析(Data Analysis) 是以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需求为最终目标,包含业务理解、数据采集、 数据清洗、数据探索、数据可视化、数据建模、模型结果可视化、分析结果的业务应用等步骤在内的一整套分析流程 。
数据挖掘(Data Mining) : 是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发 现模式的计算过程 。
2.数据分析的八个层次
数据分析的目的:发现有价值的信息、提出结论、为业务发展提供辅助决策 。它描述了 ”过去发生了什么“、”现在 正在发生什么“ 和 “未来可能发生什么” 。根据分析层次的级别不同,分为常规报表、即席查询、多维分析(又称钻 取或OLAP)、警报、统计分析、预报(或者时间序列预测)、预测型建模(Predictive Model)和优化 。

CDA LEVEL 1 考试,知识点汇总《数据分析概述》

文章插图
3.大数据对传统小数据的拓展及其区别与联系
数据上:小数据重抽样,大数据重全体 。由于传统小数据分析的本质是基于样本推断总体,因此在分析过程中十分 注重抽样的科学性 。只有抽样是科学的,其推断结果才具有科学意义 。而大数据虽然不一定是总体,但由于在建模 方法上已经更偏向于机器学习,因此抽样已经不是必要的手段和方法论了 。
【CDA LEVEL 1 考试,知识点汇总《数据分析概述》】方法上:小数据重实证,大数据重优化 。传统的小数据在方法上更重视实证研究,强调在相关理论的前提下建立假设,收集数据,建立模型并验证假设 。而大数据往往更重视方法论中的自我迭代和自我优化过程,可能运算的第一 个结果与标准答案相差甚远,但是可以通过与正确答案的不断校准(往往建立损失函数),使得模型的精度不断提高 。
目标上:小数据重解释,大数据重预测 。小数据的分析往往注重归因分析,探索变量之间的内部影响机理,例如究竟什么样的生活习惯会提高癌症的发病率 。但是大数据往往关心的是对于未知对象的预测,例如判别某个人是否患有癌症,或者患有癌症的概率是多少 。
4.数据分析目标的意义、过程及其本质
可以认为数据分析涉及到公司运营的方方面面,这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、 产品结构优化与新产品开发、财务成本优化、市场结构的分析和客户关系的管理 。其中,关于客户与市场的数据分析是 “重头戏” 。下面以客户全生命周期管理为例介绍数据分析运用场景和挖掘主题,如下图所示 。
CDA LEVEL 1 考试,知识点汇总《数据分析概述》

文章插图
二、数据挖掘 方法论
1.CRISP-DM 方法论
CRISP-DM方法论将数据挖掘项目生命周期分为6个阶段,它们分别是业务理解、数据理解、数据准备、建模、模型评 估和模型发布,如下图所示 。
下图呈现了通用数据挖掘方法论(CRISP-DM)流程的6个阶段 。下面简短地介绍了每个阶段的要点 。
CDA LEVEL 1 考试,知识点汇总《数据分析概述》

文章插图
业务理解(Business Understanding) 该初始阶段集中在从商业角度理解项目的目标和要求,通过理论分析转化为数据挖掘可操作的问题,制定实现目标的初 步计划 。
数据理解(Data Understanding) 数据理解阶段开始于原始数据的收集,然后是熟悉数据、标明数据质量问题、探索对数据的初步理解、发觉有趣的子集 以形成对探索关系的假设 。
数据准备(Data Preparation) 数据准备阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动 。数据准备任务可能被实施多次,而且没 有任何规定的顺序 。这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,需要对数据进行转换和 清洗 。
建模(Modeling) 在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准,以达到最优值 。通常对同一个数据挖掘问题 类型,会有多种建模技术 。一些技术对数据格式有特殊的要求,因此,常常需要返回到数据准备阶段 。
模型评估(Evaluation) 在模型最后发布前,根据商业目标评估模型和检查建立模型的各个步骤 。此阶段关键目的是,判断是否存在一些重要的 商业问题仍未得到充分考虑 。