网络爬虫■5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?


网络爬虫■5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?
本文插图
作者 | 马超
出品 | CSDN(ID:CSDNnews)
3月19日 , 默安科技CTO魏兴国发微博称 , 微博数据泄露了不少用户的手机号 , 当中涉及不少微博认证的明星和企业家 。
亦有网友在他的微博评论区表示:“有超过5.38亿条微博用户信息在暗网出售 , 其中1.72亿条有账户基本信息 , 售价0.177比特币 。 涉及到的账号信息包括用户ID、账号发布的微博数、粉丝数、关注数、性别、地理位置等 。 ”
目前 , 这条微博已经删除 。
针对此事 , 微博方面回应称 , 数据泄露属实 , 目前微博已经及时强化安全策略 , 微博一直有提供根据通讯录手机号查询微博好友昵称的服务 , 用户授权后可以使用该服务 。
但微博不提供用户性别和身份证号等信息 , 也没有“根据用户昵称查手机号”的服务 。 因此这起数据泄露不涉及身份证、密码 , 对微博服务没有影响 。
据此我们可以判断出这次微博个人信息泄漏的安全事件 , 其原因应该是通讯录好友匹配攻击导致的 。 很多社交App都有通过通讯录匹配好友的功能 。 攻击者可以伪造本地通讯录来获得手机号到微博用户账号的关联 。 比如通过伪造的手机号匹配好友 , 并不断列举 , 就能关联出所有用户帐号到微博ID到手机号的关系 。
本次事件纠其本质其实是利用合法API的不合理使用来套取、收集信息的过程 , 简单来讲就是一个爬虫引发的血案 。
有关爬虫的是是非非实在太多了 , 据笔者观察2019年几乎所有的大数据即爬虫公司全部被查 , 包括新颜科技与魔蝎科技的CEO被查、公信宝被封、聚信立也宣布将暂停爬虫服务、国内大数据风控平台龙头同盾科技也被曝解散爬虫部门 。
这其中最惹人关注的事件 , 还是那位来自巧达科技的程序员 , 因为写了一段爬虫程序 , 非法从某招聘网站上下载简历信息而被起诉 , 引发了全网关于程序员面向“监狱”编程的大讨论 。
而站在笔者角度来看 , 有关爬虫的争议和信息泄漏防护需要从数据持有方和数据爬取方两个角度来审视 。
网络爬虫■5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?
本文插图
数据持有方的盾:DLP数据泄露防护系统
这次信息泄漏事件发生后 , 我们可以看到微博第一时间就回应不涉及身份证、密码等敏感信息的外流 , 我相信这背后的底气还是来自于微博对其数据泄漏防护(Data leakage prevention, DLP)的信心 。
远程办公大背景下 , 先要做好内部预防:据国家计算机信息安全测评中心数据显示 , 重要资料被黑客窃取和被内部员工泄露的比例为1:99.也就是说有互联网出口的企业 , 其内部重要机密通过网络泄密而造成重大损失的事件中 , 只有1%是被黑客窃取造成的 , 而都是由于内部员工有意或者无意之间泄露而造成的 。 尤其是在目前远程办公的背景下 , 这种由员工引发的信息泄漏情况其实风险更高 , 企业在数据边界建立一套安全防护体系十分重要 。
员工终端出口防控:部分大厂都有一套数据沙盒运行或者加密机制 , 用来阻止数据由使用的客户端流出 , 并且一般在DLP的整体解决方案中 , 还会使用图像处理技术还会将员工屏幕图像的频域中加入特定指纹 , 以追踪员工泄漏截屏信息 。 记得在2017年阿里脚本秒杀月饼的事件中 , 就有人因泄漏截图信息而被处理 , 这背后其实就是频域指纹的技术 。 再有就是对内网中包括U盘、移动硬盘、红外、WIFI、蓝牙等输出端口实施监控 , 对拷贝到移动存储设备的文档进行强制加密 。
互联网出口防控:而针对互联网出口DLP技术几乎和AI图像处理与NLP技术同步发展 , 一般都会使用最新的分类模型 , 监控异常流量 , 防止数据外泄 , 这里还是再次强调一下系统上云的重要性 。