终于有人把数据中台讲明白了

导读:要建设数据中台 , 我们首先需要明确什么是数据中台 , 以及数据中台能为企业带来什么价值 。
作者:陈新宇 罗家鹰 江威 邓通 等
来源:华章科技
终于有人把数据中台讲明白了文章插图
01 数据中台定义数据中台是一种将企业沉睡的数据变成数据资产 , 持续使用数据、产生智能、为业务服务 , 从而实现数据价值变现的系统和机制 。 通过数据中台提供的方法和运行机制 , 形成汇聚整合、提纯加工、建模处理、算法学习 , 并以共享服务的方式将数据提供给业务使用 , 从而与业务联动 。
再者 , 结合业务中台的数据生产能力 , 最终构建数据生产—消费—再生的闭环 。 为了更好地理解数据中台 , 我们将其与数据仓库、数据湖、BI、大数据等相关概念进行对比 。
1. 与数据仓库的对比
【终于有人把数据中台讲明白了】数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合 , 用于支持管理决策 。 因此 , 其重点在于数据的集合 。 数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量 , 组成数据模型 , 为决策分析提供通用的数据分析能力 。
数据中台与数据仓库相比 , 至少有四大优势 。
第一 , 数据中台强调数据业务化 , 让数据用起来 , 满足企业数据分析和应用的需求 。
第二 , 数据中台梳理的流程比数据仓库建设更加复杂和全面 。 数据中台增加了以企业的全局视角来梳理数据域的环节 , 这是数据中台建设中很重要的一环 。 数据域的梳理正好体现了中台化的能力 。
举个例子 , 新零售场景下 , 企业的交易场景有很多 , 包括自建商城渠道、第三方电商渠道、外卖订单渠道、线下门店渠道等 。 建设数据中台时就需要规划出一个交易域 , 此交易域要抽象出各种渠道的业务流程 , 并能覆盖线上、线下运营部门在运营时需要考核的维度与度量 。
因此数据中台建设过程要更多从企业全局出发 , 从人、货、场多维度打通数据 , 真正做到无论消费者从哪个渠道进来 , 都能洞察其与本企业的接触轨迹 。
而数据仓库的建设则相对单一 , 专注于维度模型如何设计 , 如何拆解指标和维度 , 却很少关注基于人、货、场这些主体进行实体拉通 , 然后做出全局的画像数据供前端业务调用 。
第三 , 数据中台建设的范畴远远大于数据仓库的建设 , 除了完成数据仓库的建模 , 还需要制定完善的数据治理方案 , 甚至在建设的过程中需要成立专门的数据治理委员会来促成复杂的数据治理工作 。
最重要的一点是 , 在数据中台的规划阶段就需要去主动迎合业务 , 需要全面梳理哪些业务场景需要利用数据的赋能才能形成业务闭环 , 因此 , 在建设数据中台的同时就必须着眼于业务场景的赋能 。
第四 , 对于企业来讲 , 建设数据中台并不只是搭建一个能力平台 。 正如我们在《中台战略》一书中提到的 , 建设中台需要中台文化及相匹配的中台组织 。
因此 , 从宏观上来讲 , 数据中台承担着企业重新搭建数据组织的职能 , 倒逼企业为了运营好数据中台而建设一套能与之匹配的数据中台组织 。 数据仓库则纯粹注重于系统解决方案 , 并不涉及组织形态 。
因此 , 简单来说 , 数据仓库重在建数据 , 而数据中台则将建、治、管、服放到同样的高度 , 数据仓库只是数据中台的一个子集 。
那我们为什么会从数据仓库发展到数据中台呢?因为传统的数据仓库已不能完全满足企业数据分析的需求 。 企业已从原来的统计分析转变为预测分析并提供标签、推荐等算法 , 从被动分析转变为主动分析 , 从非实时分析转变为实时分析 , 并且从结构化数据转变为结构化、半结构化和非结构化的多元化数据 。
终于有人把数据中台讲明白了文章插图
2. 与数据湖的对比
与数据中台相关的概念还有数据湖(Data Lake) 。 数据湖是一种数据存储理念 , 作为一个集中的存储库 , 它可以以自然格式存储任意规模的数据 , 包括来自关系数据库行和列的结构化数据 , XML、JSON、日志等半结构化数据 , 电子邮件、文档等非结构化数据 , 以及图像、音视频等的二进制数据 , 从而实现数据的集中式管理 。
目前Hadoop是最常见的实现数据湖概念的技术 。 比如HBase可让数据湖保存海量数据 , Spark可以使得数据湖批量分析数据 , 而Flink等可让数据湖实时接入和处理IoT数据等 。