漫画:数据仓库、数据中台、数据湖,终于搞懂了( 二 )


■ 数据是以业务语言表示的 , 业务人员可直接使用:不同于数据仓库时代数据都是以表和字段等技术语言来表示 , 数据中台的数据要支撑管理模型 , 对外以业务语言来表示 , 能够为业务人员直接使用 。
■ 数据与业务松耦合 , 当数据发生变化时 , 不会对业务分析造成困扰 , 同样当业务需求发生变化时 , 也不会直接影响到数据中台的数据组织方式 。
注意:在数据中台阶段 , 因习惯性 , 数据仓库的名称仍然被沿用 , 此处数据仓库指的是数据中台内存储数据的数据库及数据(包括关系型数据库或分布式数据) 。
3、数据湖
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
数据湖的概念最初是由大数据厂商提出的 , 是一种数据存储的理念 。
特点如下:
■ 数据是以原始格式存储 , 不同于数据中台的结构化存储方式 , 数据湖以自然格式存储数据 。
■ 数据不需要提前进行定义 , 在准备使用数据时 , 再定义即可 , 提高了最高的灵活性与可扩展性 。
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
目前Hadoop是最常用的部署数据湖的技术 , 所以很多人会误解觉得数据湖就是Hadoop集群 , 其实数据湖是一个概念 , Hadoop是实现这个概念的技术 。 同样很多厂商跟风宣称支持数据湖 , 其实只是支持Hadoop而已 。
数据湖是一个新的概念 , 也是一个非常好的理念 , 但是从一个理念变成一个可以落地的系统时 , 就面临着许多问题:
■ 数据的存储成本:数据湖把所有数据都存储下来 , 需要一个前提 , 就是存储成本很低 , 在当今数据爆炸的时代 , 把所有原始数据 , 不区分价值大小 , 都存储下来 , 这在经济上能否被企业接受 , 存在疑问 。
■ 数据的安全:数据湖中存储着所有的明细数据、日志数据 , 这些数据的安全怎么保证?怎样划分权限?特别是以非结构化形式存储 , 权限如何划定?比如一个视频 , 员工A只能看第一分钟的左半屏的视频 , 员工B只能看第五分钟的上半屏的视频 , 当前权限无法支撑 。
■ 数据治理、数据质量问题:数据使用时再对数据进行定义 , 谁来定义?数据谁来治理 , 谁来进行数据质量保证?数据发生错误怎样开速定位?
4、对比与区别
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
三种概念的直接对比与建议:
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
比如企业A有两个客户:“明星公司”、“天天公司” , 2019年“明星公司”收购“天天公司” , 变成一家公司 , 新公司名称仍为“群星公司” , 现在A企业要对所有客户进行收入分析与客户ABC分析 。 原始数据如下:
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
1)如果用数据仓库方式实现 , 设计如下:
参照表:(数据处理过程表 , 不面向最终使用者)
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
在数据抽取时 , 会对数据进行标准化处理 , 结果如下:
① 如果是在2019年前进行的数据仓库建设 , 事实表如下:
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
2018年的数据作为“历史数据” , 不会被后来发生的事情影响 , 那么当进行客户增长性分析、客户利润分析及ABC分析时 , 会得到错误的结果 。
② 如果是在2019年后进行的数据仓库建设 , 事实表如下:
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
作为历史的“天天公司”在业务人员面前“消失” , 但是当进行地区分析时 , 又会得到错误的结果 。
2)如果用数据中台方式实现 , 设计如下:
参照表(对业务人员开放):
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图