像梦一样奔驰|读《数据中台-让数据用起来》笔记整理( 三 )


所以我们先看下整个数据中台架构里面大模块分法上的一些思路 。
数据汇聚和数据开发
这个分开为两个大模块是合理的 , 即数据汇聚仅仅只复制数据集成的事情 , 比如我们常说的数据采集 , ETL方面的事情 。 而数据开发即是数据采集过来后还需要对数据进行加工处理 , 比如形成宽表或汇总表 , 基于数据分析算法进行数据汇聚计算形成新的数据结果等 。
数据资产管理和数据体系
首先我们可以看到数据资产管理即我们常说的数据全生命周期管理 , 类似我们原来谈MDM主数据管理经常谈到的元数据管理 , 数据标准 , 数据质量管理 , 数据安全 , 数据创建变更全生命周期流程管理等都在该模块能够看到 。
对于数据体系是否理解为不同的数据应用域 , 书里面提到的数据体系包括了贴源数据 , 统一数仓 , 标签数据和应用数据 。 可以看到数据本身分层 , 数据也可以分数据域 。
从全生命周期如何看数据?
如果从数据全生命周期来看 , 实际上我们可以看到可以分为数据的入库过程 , 数据的存储和模型构建 , 数据的对外能力提供过程 。 对于数据的入库包括了数据汇聚 , 数据开发;对于数据的存储包括了数据模型和数据体系 , 对于数据对外能力提供包括了数据服务层构建 。
而实际的数据全生命周期管理刚好应该是贯通前面几个阶段的一个完整管理和管控流程 。
上面这个图可以看做是书籍里面的一个配图 , 给出了数据中台的整体结构 , 在上面一篇文章里面我也谈到了整个数据中台包括了数据汇聚 , 数据研发 , 数据指标体系 , 数据资产管理和数据服务体系几大块的内容 。
在谈之前还是重新回顾下数据中台的定义 , 即:
数据中台是将数据转变为资产并服务于业务的机制 。 稍微再扩展下这句话就是实现跨越数据的汇聚和融合 , 并对数据进行加工处理形成有价值的数据资产 , 再将数据资产以服务化的方式开放出去满足业务需求 。
在简单点来看 , 从整个数据的生命周期 , 数据中台包括三个方面的内容 。
数据入库的过程(数据的采集 , 数据的汇聚)数据的存储和加工过程(数据的存储 , 加工和开发 , 数据模型 , 算法 , 过程调度)数据的开放过程(构建完整的数据资产和指标体系 , 并形成数据服务对外开放)以上就是一个完整的数据中台内容 。
数据中台底层技术架构
先在网上摘录了一段比较Hadoop2.0和1.0的主要区别和改进点如下:
Hadoop2.0和1.0最大的区别点就在于增加了YARN集群资源管理系统这一层 , YARN是一个资源管理系统 , 负责集群资源管理和调度 , MapReduce则是运行在YARN上的离线处理框架 。 改进点主要还是对1.0架构中类似NameNode , JobTracker的单节点扩展能力进行提升 。
1、针对Hadoop1.0单NameNode制约HDFS的扩展性问题 , 提出HDFSFederation , 它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展 , 同时彻底解决了NameNode单点故障问题;
2、针对Hadoop1.0中的MapReduce在扩展性和多框架支持等方面的不足 , 它将JobTracker中的资源管理和作业控制分开 , 分别由ResourceManager(负责所有应用程序的资源分配)和ApplicationMaster(负责管理一个应用程序)实现 , 即引入了资源管理框架Yarn 。
3、Yarn作为Hadoop2.0中的资源管理系统 , 它是一个通用的资源管理模块 , 可为各类应用程序进行资源管理和调度 , 不仅限于MapReduce一种框架 , 也可以为其他框架使用 , 如Tez、Spark、Storm等 。