按关键词阅读: apple anna 周攀 短缺 延迟 fina 交付 covid-19 芯片 台积电 微控制器
编辑导语:作为数据中台能力的根基,对数据资产的管理则必然提至中台建设日程当中。那么,数据资产管理过程中可能会出现什么问题?数据资产健康管理又可以从哪些方面入手呢?本篇文章里,作者就数据资产管理、数据资产健康度评价方面的问题做了总结,一起来看一下。
文章插图
数据资产是数据中台能力的根基,数据资产的健康度直接关系到中台建设的成败。那么在数据中台建设过程中究竟该如何评价数据资产建设及管理的情况呢?
一、数据资产管理过程常见问题规范不统一,不同业务部门、不同开发人员发现习惯及意识不同,缺少统一的资产建设规范管控时,会带来命名不规范、建模不标准等问题。
数据复用低,元数据信息缺失、数据权限申请及审批流程断层、缺少高效易用的数据地图检索工具等会带来数仓人员开发了很多模型,但是业务并不知晓,重复造轮子。
考核难量化,对于数仓开发人员的绩效该如何量化评估呢?开发的模型数量?Bug数?还是数据质量问题的次数?
上传不下达,管理层及数据管理者希望不断降低数据的存储及计算成本,但由于成本核算粒度粗,无法将成本追溯到个人开发者。对于一线开发同学来说,短期内只要能最快完成业务需求即可,不会过多关注成本问题。对于低效高耗任务、冷数据缺乏主动治理意识。
二、数据资产健康度评价维度
文章插图
1. 规范性库名、表名、指标及字段名是否符合约定的规范,例如:数仓分层、业务线、数据域、业务过程的组合,形成可以通过名称识别出数据的基本内容,而不是随心所欲的中英文混合、缩写,只有熟悉的人才可以知道表是干什么用的。
资产建设过程中,可以将集团或者数据部门的规范抽象、集成到ETL过程,在系统层面做拦截,事前监测不规范的数据开发过程。可以参考阿里的dataphin。
2. 丰富性元数据覆盖度,包括资产技术元数据、业务元数据等信息,元数据越完善,才能为使用者提供更准确的决策依据,减少沟通成本,提升数据复用度。
例如,表的责任人、业务描述信息、主题、层级、标签丰富度,字段说明及加工逻辑使用文档。技术元数据主要以数据开发人员使用为主,例如存储大小、小文件数量、使用热度(近X天使用人次)。
除系统可以自动获取的外,其他相关元数据需要数据开发人员进行常态化的维护和更新。
3. 完善度数仓模型对业务的支撑和覆盖情况,完善度越高的数仓体系,业务获取和使用数据的成本就越低。即当业务需要数据时,已经相应的模型在哪里等着使用了,而不是再去对接业务沟通需求,排期开发。
例如当管理者问数仓负责人,你们天天搞数仓建设,现在到底建设到什么程度了呢?有了完善度评价标准,可以量化数仓建设成熟度。一般来说,典型的数仓体系架构如下:
文章插图
通过数据血缘及查询日志,可以对数据加工任务以及Adhoc查询进行统计分析。
例如,在数据查询中,直接查询ODS的任务占比,占比越高说明有大量任务基于原始数据加工,中间模型DWD、DWT、DWA复用性很差。在技术上,直接查询底层表,查询扫描的数据量会越大,查询时间会越长,查询的资源消耗也越大,使用数据的人满意度会低。可以跨层引用率来衡量支持完善度。
DWD层:看 ODS层有多少表被DWT/DWA/APP 层引用,占所有活跃的ODS 层表比例。
DWT/DWA/APP层完善度:主要看汇总数据能直接满足多少查询需求,也就是用汇总层数据的查询比例,如果汇总数据无法满足需求,使用数据的人就必须使用明细数据,甚至是原始数据。
汇总数据查询比例:DWT/DWA/APP层的查询占所有查询的比例。
跨层引用率越低越好,在数据中台模型设计规范中,一般不允许出现跨层引用,例如ODS层数据只能被 DWD引用。
4. 复用度【 ods|数据中台:怎样评价数据资产的健康度?】复用度顾名思义,资产建设完成后,被不同业务或用户复用的情况,复用才会减少重复开。
可以用引用系数作为数据中台资产复用度评价指标。引用系数越高,说明复用性越好。
引用系数:数据表被读取,产出下游模型的平均数量。例如一张DWD 层表被8张 DWS层表引用,这个表的引用系数就是8,把拥有下游的DWD 层表(有下游表的)引用系数取平均值,则为DWD 层的平均引用系数。
稿源:(人人都是产品经理)
【傻大方】网址:http://www.shadafang.com/c/11029415642021.html
标题:ods|数据中台:怎样评价数据资产的健康度?