全链路数据治理在网易严选的实践
【全链路数据治理在网易严选的实践】数据治理(Data Governance)的边界非常的宽泛 , 通常会把数据的定义、存储方式、使用规范、数据安全策略、数据质量等等都包括在其中 。 治理是一个很官僚化的术语 , 流程、评审、审计、规范这些令人昏昏欲睡的东西 , 构成了数据治理的常规手段和工具 。 因此 , 数据技术团队往往对“数据治理”有些抗拒 , 而数据治理团队往往觉得工作低效不好玩 , 吃力不讨好 。 因此 , 对于数据治理团队而言 , 我们除了要治理数据体系 , 提升其运转效率;还要把工作变得高效而精彩 。
为什么要做数据治理?随着业务的快速发展 , 数据开发任务也会井喷式的增长 , 再加上大数据的服务链路是非常复杂多变的 , 涉及到收集、存储、访问、计算、数据加工、数据挖掘、对外服务等等场景 。 随着数据规模、数据结构、使用场景随时的变化 , 特别在互联网公司 , 开发效率优先的工作模式下 , 数据体系的快速腐化是不可避免的 。 数据体系的快速腐化最终又会影响开发效率 , 甚至影响整个公司的决策效率 。
文章插图
图一 网易严选数据技术体系 1.0
图一是网易严选数据技术体系 , 我们可以看到 , 数据从业务系统(业务日志 / 数据库)产生 , 经过数据的同步和集成 , 再经过数据开发的加工和整理 , 最后再被数据产品 / 算法 /BI 等服务和应用使用 , 整个链路非常长并且会依赖许多消息服务 / 计算 / 存储 / 任务调度 / 资源调度等服务和组件 。
所以在网易严选 , 我们任务数据治理是贯穿整个数据生命周期的 , 而数据在整个生命周期所依赖的数据服务也是在数据治理的范畴之内 , 数据治理的目的是为了保障数据稳定高质地进行生产 , 并推进整体的资源优化 , 主要包括两个部分:
- 数据的治理和数据任务的治理 。
- 数据服务的治理 。 我们治理的对象不仅仅是数据本身 , 也包括数据生产和使用全链路的服务和组件 。
严选数据团队对数据治理这个议题进行过认真的探讨 , 我们认为数据治理是一种管理手段 , 而管理的重要目的是提升效率 。
- 严选数据治理的第一个核心目标是提效 , 提升数据体系整体服务效率 。
- 数据治理的第二个核心目标是可靠 。 提供可量化的能力指标对外提供数据支持 。
- Q1: 我们数据治理的边界在哪?
- Q2: 我们需要投入多少人力到数据治理中 , 是否需要组建团队持续的进行治理?
- Q3: 最酷--tt-darkmode-color: #A92E2E;">关注我并转发此篇文章 , 私信我“领取资料” , 即可免费获得InfoQ价值4999元迷你书 , 点击文末「了解更多」 , 即可移步InfoQ官网 , 获取最新资讯~
- 智能手机市场|华为再拿第一!27%的份额领跑全行业,苹果8%排在第四名!
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 同比|亚马逊公布“剁手节”创纪录战绩:第三方卖家全球销售额超48亿美元 同比大增60%
- 产业|前瞻生鲜电商产业全球周报第67期:发力社区团购!京东内部筹划“京东优选”
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 程序|2020全景生态流量秋季大报告:TOP100APP超半数布局小程序,全景流量重塑行业竞争新格局
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性