按关键词阅读: apple anna 周攀 短缺 延迟 fina 交付 covid-19 芯片 台积电 微控制器
5. 数据质量数据质量问题产生的原因包括开发质量问题、集群稳定性、以及业务变更等多种问题,对于难以掌控的外部因素,只能是早发现早修复,数据资产的评价维度主要是监控体系的覆盖度、监控报警的处理率以及平均处理时长。
6. 成本优化维度数据成本的管控需要建立自上而下的成本分摊与评价体系,才能自下而上形成主动治理、优化的意识。例如考核每个数据开发人员待治理的任务数量以及治理成效。
在成本优化中,最常关注的包括:资产存储、计算耗时/资源情况折算成成本。产生的小文件合并问题、冷热数据分级及归档、HDFS路径治理等。
7. 数据安全随着数据安全法以及个人信息保护法相继生效,手机号、身份证等绝密信息进入集群后是严禁明文传输的。数据开发在数据工作是否做到了对所有敏感信息的加密脱敏处理,也是资产健康度的评价维度之一。
三、资产健康分的计算逻辑及应用健康分价值:从数仓总体到组织部门以及一线的数据开发者,形成统一的量化标准,客观评价资产建设工作。对于最最细粒度度的单个模型,可以直观展示模型健康度,责任到人,形成自上而下的考核以及自下而上的管理、治理动作。
健康分的计算逻辑:根据企业自身关注的重点,多方讨论确认评价指标以及权重系数。从单个表的健康分,汇总到个人数据开发者,以及数据团队的健康分。评价指标可以从前面章节中的七大维度进行筛选,主要可以包括:
- 建设规范度:不符合建表或命名规范;
- 信息丰富度:元数据是否缺失,字段描述100%覆盖,主题、标签是否缺失等;
- 完善度:跨层引用比例;
- 复用度:模型引用系数;
- 数据质量:监控覆盖度、平均异常次数(延迟、数据错误)、平均处理时长;
- 成本优化:存储成本、计算成本、近X天使用情况、小文件数量;
- 数据安全:是否存在敏感字段未脱敏。
工作台产品设计中的核心原则:客观评估现状,给出原因及可执行的动作,量化治理效果。即:每天上班打开工作台,知道自己数仓工作目前的定位及问题,如何去优化改善,做了一系列的动作后,效果如何了。
文章插图
五、小结利用资产健康分,量化资产建设及管理效果,可以做到自上而下的上传下达管理,也可以为一线数据工作者提供追踪、可执行的行动指南,相比较过去以统计为主的资产“大盘”,资产健康分可以更精细化地指导数据资产管理及治理工作。
#专栏作家#数据干饭人,微信号公众号:数据干饭人,人人都是产品经理专栏作家。专注数据中台产品领域,覆盖开发套件,数据资产与数据治理,BI与数据可视化,精准营销平台等数据产品。擅长大数据解决方案规划与产品方案设计。
本文原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议
稿源:(人人都是产品经理)
【傻大方】网址:http://www.shadafang.com/c/11029415642021.html
标题:ods|数据中台:怎样评价数据资产的健康度?( 二 )