营销|解读《个人信息保护法(草案)》:风控数据行业已死,营销数据行业还能活多久?( 三 )
文章插图
涉及到的数据交互有:品牌方需要上传一定数量的种子人群包,这块存在一定的灰色地带,因为这些人群包的用户数据没有经过用户同意就授权给广告公司使用。
文章插图
广告点击数据、线索数据回传,一般都广告投放中会有对应的隐私协议,但是否存在过度采集,这块就不好说了。
下图为某大厂的回传的广告监测数据,包含设备id、设备信息、ip及位置信息。大家是不是都有过这种经历,刚在淘宝搜了某商品,然后再抖音、头条、朋友圈就都出现该商品的广告投放信息。
这就是广告技术的威力,更甚者只是随口说了某个商品,居然也被推荐了,这就让人发怵了。
文章插图
4.1.2.2 爬虫数据
爬虫就像“达摩克利斯之剑”,能够帮助企业解决数据维度不足的问题,但是无法把控风险程度,以致于企业对爬虫数据都望而却步。
尤其在2019年9月对爬虫数据进行整顿后,大家更是谈爬虫色变,更有大家调侃“爬虫学的好,牢饭吃到饱”。
对于爬虫,爬虫技术无罪,怎么使用爬虫和爬取什么数据就不好把握了。
对于爬取公开数据的搜索引擎就是属于利用爬虫技术爬取公开数据提高大家的检索效率,属于造福大家;而对于风控数据公司这类通过爬虫过度爬取个人信息,如运营商、淘宝、支付宝数据等。
虽然进行了授权,但是否对用户明示采集范围,是否存在过度采集就不一定了。
往往用户是为了使用应用提供的服务而随手点击的授权,缺没有仔细查看授权后会被采集哪些数据,也许只有当客户看到呈现在他面前完整的风控报告后他们才觉得惊悚,感觉隐私被侵犯了。
而这类爬虫技术就属于用爬虫技术爬取了用户相关信息,同时使用场景上也存在不合规,如现金贷业务。《个人信息保护法(草案)》的推出对这类的灰色边界做了比较明确的界定,企业在碰到这类场景时对于红线的把握就要格外注意了。
4.1.3 三方数据
第三方数据是您从外部来源购买的数据,而不是该数据的原始采集者。
相反,您可以从大型数据整合者购买,这些数据整合者从其他各种平台和网站提取数据下载,这些整合者向发布者和其他数据所有者支付第一方数据的费用。
然后,整合者将其收集到一个大型数据集中,并将其作为第三方数据出售。许多不同的公司都销售这类数据,而且可以通过许多不同的途径访问这些数据。
这种通过购买获得的三方数据就更是游走在法律的边缘,合规性存在非常大的问题。
最典型的方式,是通过加密用户id(设备id或者手机号)撞库,直接输出该用户在其他维度的用户标签,来补充一方数据维度不足的问题,然后提高营销的精准度。
下图为某大厂提供的对外用户标签的调用服务:
文章插图
4.2 数据传输数据传输的链路一般出现在对内的数据加工流转和对外的数据传输过程,个人信息有没有做加密保护,是否容易数据泄露是考虑的关键问题。
近年来,各种数据泄露现象层出不穷,比如暗网某某酒店信息数据就是数据没有加密的典型,即使泄露了如果用户信息进行了加密,黑客也无法使用。
4.2.1 对内数据加工流程
文章插图
从整个数据加工流程来看,最容易出事的地方在大数据/算法平台的环节,主要有以下原因:
4.2.1.1 数据流转多角色,管控难度大
- 大数据平台的开发工程师:承担者整体平台的建设工作;
- 大数据平台运维工程师:承担整体平台的运维保障工作;
- 数仓开发工程师:承担数据仓库模型分层标准化工作,也是数据的底层深度使用者,涉及用户最细粒度的数据处理;
- 算法工程师:承担整体数据价值挖掘、模型训练和模型输出工作,会涉及用户的个人信息的处理;
- BI数据分析师:承担整体数据专题分析、报表开发,支撑公司决策的工作,会涉及用户的个人信息处理。
做的好的公司会将所有数据处理的工作管控到一个大的密闭的沙箱环境,严格控制沙箱的数据进出,但沙箱内各个数据流转环节经常出现数据多地存储,最后无法追溯数据的源头。
即使有数据地图的溯源工具,也只能追溯数大数据仓库/数据库的血缘,但对于处理工作中,以文本或表格散落在各个服务器的过程数据文件无法追溯。
- 建设|《青岛市城市云脑建设指引》发布
- 一图看懂!数字日照、新型智慧城市这样建(上篇)|政策解读 | 新型
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 展开|天地在线联合腾讯广告在京展开“附近推” 构建黄金5公里营销体系
- 好友聊天|《QQ》能量值计算规则
- 临高|元老院快报:《临高启明》重新上架!今后工作如何展开?
- 新版《上海市轨道交通乘客守则》今天正式实施|视频 | 守则
- 设计|未来创意拒绝被垄断:欧拉共创成果深度解读!
- 社会化|《中国视频社会化趋势报告》发布 视频成为重要信息载体
- 芯片|中国移动联合芯讯通发布《5G终端、芯片及测试产业报告》