数据标签在共享数据溯源中的应用研究

大数据时代 , 数据资产已成为企业的核心发展要素之一 。 一方面企业迫切希望能够将数据整合、分析和挖掘 , 以达到数据驱动业务、数据创新业务及实现业务转型的目标 。 另一方面 , 层出不穷的数据泄露事件制约着数据共享的进展 。 因此 , 急需一套数据共享管理体系 , 辅以数据共享技术管控措施 , 解决数据共享“不愿”“不敢”“不会”的三难问题 。 这种情形下 , 提出了一种基于数据标签的共享数据溯源方法 , 通过数据标签标记合法授权的数据共享信息流 , 结合数据共享规则特征库进行非法数据共享数据信息流的追踪溯源 , 并可对合法授权的数据共享信息流的违规操作进行追踪 。
大数据时代 , 数据资产已成为企业的核心发展要素之一 。 数据共享是企业想要进一步发挥数据价值的必然选择 , 只有将数据整合、分析和挖掘 , 才能实现从量变到质变的飞跃 。
然而 , 现实中数据往往分散在各个应用系统中 , 形成了“数据孤岛” 。 数据分散较为严重 , 分散的数据无法挖掘出数据的巨大价值 。 数据只有开放共享 , 才能谈如何利用数据促发展 。
近年来 , 数据泄露事件频发 。 例如 , 2018年3月 , Facebook被曝有超过5000万名用户资料遭“剑桥分析”公司非法用来发送政治广告 。 各部门担心数据共享开放会引起信息安全问题 , 担心数据泄密和失控 , 不敢把自己掌握的数据资源向他人共享开放 , 阻碍了数据共享的进行 , 也让企业网络信息安全管理工作压力倍增 。
因此 , 迫切需要建立相应的数据共享安全管理体系 , 同时利用技术手段完善数据共享安全管控 , 以打破部门间、地区间的信息保护 , 做到真正的数据信息共享 。
1、数据分级数据资产管理是数据安全治理的基础 。 摸清数据资产家底首先需要制定数据分级规范 , 即确定数据级别与数据内容的对应关系 。 根据数据敏感级别分为关键级、重要级、较重要级和一般级 。 如原始信令码流包含较多用户个人隐私信息 , 数据级别定义为关键级 。 其次 , 根据数据规则定义通过数据文件扫描或数据流量采样等技术手段实现数据资产自发现和数据分级 。 最后 , 按照数据分级级别 , 落实不同安全防护级别的数据安全管控措施 。
2、共享数据溯源关键技术2.1 数据共享规则数据共享就是让分散在各个应用系统中的数据进行各种操作、运算和分析 。 实现数据共享 , 可以减少数据采集等重复工作 , 打破系统间数据共享壁垒 , 从而把重心放在数据关联分析、数据价值挖掘及业务增值开发等领域 。
现实情况是 , 由于担心数据泄露等安全事件发生 , 各系统产生的数据难以实现真正的数据共享 。 因此 , 要想发挥数据资产的价值 , 需要制定数据共享审批的审批规则 。
数据共享审批内容应包含共享的数据类型、共享的数据级别、数据共享形式及传输方式 , 按照数据共享遵循“按需最小化共享”的原则 , 评审共享的数据范围、数据字段需求、数据共享的时间粒度及数据共享的时限范围等 。 依据评审结果 , 形成数据共享详细方案 。
数据共享审批通过后 , 依据数据共享审批结果制定数据共享规则库 , 如表1所示 。 规则库包含源地址、目的地址、数据标签、数据内容、共享数据字段、创建时间、失效时间、数据级别、数据传输频次、数据传输协议类型及创建事由等 。
表1 数据共享规则库
数据标签在共享数据溯源中的应用研究文章插图
2.2 数据标签生成针对数据共享过程中数据泄露之后无法追溯的痛点 , 通过数据标签标识合法授权数据共享信息流 , 依据数据共享规则库及时发现非法获取数据信息流 。
数据标签通常是不可察的 , 它与数据共享数据块紧密结合并隐藏其中 , 成为源数据不可分离的一部分 , 并经过不破坏源数据使用价值的操作保存下来 。 数据标签需要加强保密性和可用性 , 确保溯源操作的100%可执行 。
通过专用密钥对合法授权的数据共享规则加密 , 生成对应数据共享的独有数据标签 , 每一个数据标签对应一个合法授权的数据共享 。 为加强数据标签的保密性 , 每生成一个数据标签对应采用一个独有的密钥 。 生成数据标签后通过padding的方式 , 附着在数据共享数据块上 。 对于数据敏感级别高的 , 可以采用在数据块随机位置嵌入数据标签 , 以确保数据标签的保密性 。 数据标签生成过程 , 如图1所示 。
数据标签在共享数据溯源中的应用研究文章插图