算法|【远见】个人信息保护法将出台 揭开数据算法的神秘“面纱”( 二 )


余弦:在安全行业,尤其是前两年做“爬虫”生意的一些企业,都因此而触碰了法律被制裁。“爬虫”技术本身没有好与坏的说法,就像菜刀可以做菜,也可以犯罪。
思远:技术是中立的,但取决于人的价值观。
余弦:“爬虫”分为两种场景。第一种是专门做“爬虫”,故意去爬服务器的敏感数据,就是主观作恶。另一种是不小心把数据拿了回来。比如把个人的社保医疗隐私不小心爬回来了,但看到这个信息还挺有价值的,可能会二次利用。同时,这些社保医疗机构网站有漏洞,有没有责任呢?这就像是主动入室盗窃和主人没锁好门导致误闯民宅。不同情况,有不同的认定和处理,这是法律需要界定的。
场景1:金融风控,哪些“大数据画像”侵犯隐私?
思远:我们来聊聊算法的应用场景。生活中最常见的是金融风控——金融数据中的算法是怎样的逻辑?
余弦:核心是通过各类用户数据采集,进行用户画像。让业务决策者更好地理解目标群体,数据越准确、丰满,就越有利于特定的场景去做针对性的事情。
思远:比如给金融借贷,根据征信和消费行为等数据,判断优质客户,给出更好的还款周期和价格,用更低的价格、更高的额度做长线生意;对风险大的客户,拒绝放款。
以前有个FINTECH公司的CEO给我介绍了一个案例:拿到了客户A的所有行动轨迹,发现每天的活动线路两点一线,时间相对固定,消费能力、还款记录良好,就定义为“白领上班族优质客户”;客户B每天的活动轨迹和时间非常不规律,就认为是自由职业者,谨慎放款。类似例子还有很多,比如借了消费贷还不上的人,催收公司会一夜之间将其通讯录中的电话打个遍。问题是,这些数据都使用,是不是非法和侵犯隐私呢?
余弦:这个现象确实非常普遍。很多时候,普通人高估了算法,在我们看来,很多技术真的非常粗暴,就如用户借贷的钱还不上,暴力催收公司通过非法采集用户数据,用灰色方式催债。
所以,围绕相关法律,比如个人信息保护法、数据安全法等,未来这些会得到比较好的净化。因为这个产业从业人员太多了,而且不同于实体的物理世界。
思远:很多信息的获取就是一瞬间,交易速度非常快,这对发现违法行为、固定证据会有很大麻烦。真正执法,要靠企业自律或相互监督、举报等,还是什么?
余弦:从操作角度来讲,这些法律是绝对可行的。这里面可能会涉及到具体敏感的话题,这里暂时不展开谈。但首先我们都得有法,才能去操作。未来的执法过程,一方面,数据的滥用,行业内确实有不少的外露特征,明面上能看到;执法肯定由公安进行——比如网安、网络警察。
场景2:大数据营销愈发精准,我们是否被“监视偷听”?
思远:另一个典型场景是“营销”。现在大家经常在网上“买买买”。打开手机,发现系统给每个人推送的情况都不一样;打开新闻客户端,总会推你想看的内容,甚至有时刚跟朋友聊到什么,商品信息和广告就来了。这种技术怎么做到的?人真的被“监视”了么?
余弦:如果单方面来看,感觉会很惊悚,当然,实际上这是“幸存者偏差”,并不是非常普遍的事件,跟算法也没什么特别的关系——它可能是一种概率,碰巧遇到了,会放大这个事情。营销数据专门有做营销产业链的,通过各方面去采集数据,包括可能有非法的一些交易,能够尽量做到精准推广。
无论是个人信息保护法草案,还是数据安全法、网络安全法、民法典等,多少都有围绕隐私的关于数据的定义或说法。数据活动指的是,数据在收集、存储、加工、使用、提供、交易、公开等行为;数据安全是指通过采取必要的措施,保障数据得到有效保护和合法利用,并持续处于安全状态的能力。
思远:你说了两点。第一,有时大家过于敏感,陷入了“幸存者偏差”;第二,算法、大数据的合法性,包括大数据应该去脱敏的信息点,需要法律规范。回到算法本身,有句话说,“未来世界,只有两种人,一种是控制和决定算法的人,一种是被算法控制的人”。好像很有道理,以往人会自己去探索信息,有更多发展的可能性;现在算法会困住人,越来越懂你的同时,推荐的信息就越来越局限,会围绕着现有的水平、认知和圈层。你怎么看这个问题?
余弦:我赞同行业内这个说法。算法是机器输出来的,通过人类反应的信息,按照概率计算,反向给出推荐信息和服务,又让人形成新的依赖感,手机成了人的器官,人掉入了数据的舒适区,沉浸在这种数字体验中。我也会这样。