漫画:数据仓库、数据中台、数据湖,终于搞懂了


漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
1、数据仓库
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
数据仓库由数据仓库之父比尔·恩门于1990年提出 , 英文名称为Data Warehouse , 可简写为DW或DWH 。
数据仓库 , 是为企业所有级别的决策制定过程 , 提供所有类型数据支持的战略集合 。 它是单个数据存储 , 出于分析性报告和决策支持目的而创建 , 为需要业务智能的企业 , 提供指导业务流程改进、监视时间、成本、质量以及控制 。
主要特点如下:
■ 面向主题 , 指数据仓库内的信息是按主题进行组织的 , 而不是像业务系统那样按照功能组织 。
■ 集成 , 指数据仓库中的信息不是从各个业务系统中简单抽取出来的 , 而是经过一系列加工、整理和汇总的过程 , 因此数据仓库中的信息是关于整个企业的一致的全局信息 。
■ 数据是基于历史的 , 指数据仓库内的信息并不只是反映企业当前的状态 , 而是记录了从过去某一时点到当前各个阶段的信息 。 通过这些信息 , 可以对企业的发展历程和未来趋势做出定量分析和预测 。
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图

  • MOLAP , 数据以多维方式存储以减少存储空间并提高查询效率 , 代表厂商为微软;
    • ROLAP , 数据以关系数据库方式存储 , 代表厂商为SAP BO 。

    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    ■ 数据实时性问题:由于数据仓库是基于历史数据的 , 无法满足现代企业管理需求 , 原来数据仓库基于历史数据设计主要是为了提高查询效率 , 但是现代的硬件技术与分布式计算早已提供了更好的解决方法 。
    ■ 数据共享问题:数据仓库以主题方式组织数据 , 比如财务数据、销售数据、采购数据 , 就使得在解决数据孤岛的问题上又形成了一棵棵“数据烟囱” , 各部门在使用数据时 , 仍然会面临数据不一致问题 , 且数据仓库与业务之间高度耦合 , 也使得数据仓库维护工作量很大 , 修改起来工作量巨大 , 难以跟上管理变革 。
    ■ 数据分析对业务的支撑不足:由于数据分析是基于历史数据的分析 , 而业务是实时的 , 所以两者之间存在一定的时间差 , 导致数据分析只能起到对业务的“支撑”作用 , 而无法起到对业务的“驱动”作用 。
    2、数据中台
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    漫画:数据仓库、数据中台、数据湖,终于搞懂了文章插图
    数据中台主要特点如下:
    ■ 数据是“打平”的 , 而非主题式 , 以利于企业从全局角度对数据进行分析 。
    ■ 数据是实时的 , 实时不是简单指数据只有最新数据 , 而是不仅仅有历史数据 , 也有当前实时数据 , 当数据发生变化时 , 如果对历史数据产生影响 , 历史数据的影响也要能实时反应出来 。
    ■ 数据是可平滑扩充的 , 利用分布式存储与分布式计算技术 , 当数据量扩大或者分析业务扩充时 , 能够在不影响已有数据的情况下 , 快速平滑扩充 。
    ■ 数据的变化与使用是可追溯的 , 支持血缘追溯功能 , 当数据发生错误时 , 可快速定位错误的来源 , 并且对数据的影响范围与用户清晰 , 化被动为主动 。