网络爬虫■5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?( 二 )


网络爬虫■5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?
本文插图
数据爬取方之道:避免面向监狱编程
根据最新的流量分析 , 互联网40%左右的流量都是机器人也就是爬虫发起的 , 站在数据爬取方的角度 , 必须关注爬虫技术的法律边界 , “技术无罪”的号往往不能保护广大程序员 。
而有关爬虫的法律问题 , 笔者特意咨询了法务同事 , 根据我国的《刑法》、《网络安全法》的规定 , 爬虫可能涉及到的犯罪行为有如下情况:
1.首先侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的 , 不论情节严重与否 , 构成非法侵入计算机信息系统罪 。
2.违反国家有关规定 , 向他人出售或者提供公民个人信息 , 构成“侵犯公民个人信息罪” 。 也就是说通过出售个人信息获利或者侵入含有国家机密的系统均会构成犯罪 , 但这两种情况均不会是无心之过 , 但是以下规定需要格外注意 。
3.违反国家规定 , 对计算机信息系统功能进行删除、修改、增加、干扰 , 造成计算机信息系统不能正常运行 , 后果严重的 , 构成犯罪 。 也就是如果使用爬虫的抓取力度过大 , 造成被攫取的网站无法正常运行的情况 , 并造成严重后果的也会构成犯罪 。 我们前文所述巧达科技的程序员也是因为爬虫流量太大 , 造成目标网络接近瘫痪 , 而涉嫌触犯此条被捕 。
也就是说避免面向监狱编程的三原则是
1. 不要触碰国家事务、国防建设的系统
2. 不要触碰个人信息 , 更不能贩卖个人信息
3. 合理设置爬取流量 , 避免DDOS攻击式的爬虫
另外为避免其它民事纠纷 , 要尽量遵守Robots 协议 。 Robots 协议是一种存放于网站根目录下的 ASCII 编码的文本文件 , 它通常告诉网络搜索引擎的漫游器也就是爬虫 , 此网站中的哪些内容是不应被爬虫获取的 , 哪些是可以被爬虫获取的 。 严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题 。
因为司法实践中一般也会考虑行业的通行规范 , 因此一般遵守Robots 协议得到的信息不会被认为是商业机密或者个人隐私数据 。 或者说遵守协议所得的信息即使涉密其泄密责任一般也不会由爬取方承担 。
网络爬虫■5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?
本文插图
实际遭遇信息泄漏时应该做什么
在所有的信息泄漏中最麻烦的就是密码或者身份证信息泄漏 , 对此笔者有如下建议:
1. 检查自己的征信记录:如果征信记录中有异常 , 尤其是遭遇不明原因的贷款时 , 那么大概率是遇到严重的信息泄漏情况了 。 此时如果联系不上贷款平台 , 可以尽早报案 , 以保护自己的合法权益 。
2. 解除三方平台的绑定关系:一般来说银行对于客户银行卡的保护力度还是比三方支付公司要大的 , 所以如遇信息泄漏 , 可以先解除与三方支付平台的绑定关系及关闭定时自动扣款服务 , 必要时再更换银行卡 。
作者简介:马超 , CSDN博客专家、阿里云MVP、华为云MVP , 金融科技行业资深从业者 , 著名的国产操作系统及数据库软件的布道者
网络爬虫■5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?
本文插图
【网络爬虫■5 亿微博数据疑泄露,Python 爬虫如何避免踩天坑?】