全链路数据治理在网易严选的实践

【全链路数据治理在网易严选的实践】数据治理(Data Governance)的边界非常的宽泛 , 通常会把数据的定义、存储方式、使用规范、数据安全策略、数据质量等等都包括在其中 。 治理是一个很官僚化的术语 , 流程、评审、审计、规范这些令人昏昏欲睡的东西 , 构成了数据治理的常规手段和工具 。 因此 , 数据技术团队往往对“数据治理”有些抗拒 , 而数据治理团队往往觉得工作低效不好玩 , 吃力不讨好 。 因此 , 对于数据治理团队而言 , 我们除了要治理数据体系 , 提升其运转效率;还要把工作变得高效而精彩 。
为什么要做数据治理?随着业务的快速发展 , 数据开发任务也会井喷式的增长 , 再加上大数据的服务链路是非常复杂多变的 , 涉及到收集、存储、访问、计算、数据加工、数据挖掘、对外服务等等场景 。 随着数据规模、数据结构、使用场景随时的变化 , 特别在互联网公司 , 开发效率优先的工作模式下 , 数据体系的快速腐化是不可避免的 。 数据体系的快速腐化最终又会影响开发效率 , 甚至影响整个公司的决策效率 。
全链路数据治理在网易严选的实践文章插图
图一 网易严选数据技术体系 1.0
图一是网易严选数据技术体系 , 我们可以看到 , 数据从业务系统(业务日志 / 数据库)产生 , 经过数据的同步和集成 , 再经过数据开发的加工和整理 , 最后再被数据产品 / 算法 /BI 等服务和应用使用 , 整个链路非常长并且会依赖许多消息服务 / 计算 / 存储 / 任务调度 / 资源调度等服务和组件 。
所以在网易严选 , 我们任务数据治理是贯穿整个数据生命周期的 , 而数据在整个生命周期所依赖的数据服务也是在数据治理的范畴之内 , 数据治理的目的是为了保障数据稳定高质地进行生产 , 并推进整体的资源优化 , 主要包括两个部分:

  1. 数据的治理和数据任务的治理 。
  2. 数据服务的治理 。 我们治理的对象不仅仅是数据本身 , 也包括数据生产和使用全链路的服务和组件 。
数据治理的主要目标数据治理的核心目标是什么?这是我们首先需要回答的问题 。
严选数据团队对数据治理这个议题进行过认真的探讨 , 我们认为数据治理是一种管理手段 , 而管理的重要目的是提升效率 。
  • 严选数据治理的第一个核心目标是提效 , 提升数据体系整体服务效率 。
  • 数据治理的第二个核心目标是可靠 。 提供可量化的能力指标对外提供数据支持 。
明确了提效和可靠两个治理的核心目标后 , 有三个问题放在我们面前 , 需要立刻解开 。