专栏丨当代“爬虫”现状( 二 )


小白:那他发的注册链接 , 也没人点啊 。
大东:路人甲不慌 , 又让十万“爬虫”继续前赴后继地点击注册链接 , 然后自动去完成注册动作 。
小白:哇 , 这不是骗钱呢嘛!
大东:我只是举了个例子 , 数据不一定和现实吻合 , 具体操作也会更复杂 。
小白:这种赚钱方式 , 太过分了!
大东:你再想象下这个场景:微博上经常有明星给粉丝发红包么 , 于是有人率十万僵尸粉去抢……
小白:难怪我每次打开都是“已抢完”啊!这些“爬虫”太过分啦!
3、购物“助手”——电商软件“爬虫”
大东:小白 , 你在网上购物是怎么挑选商品的呢?
小白:我就是在每个软件上搜索我要买的东西 , 然后一家一家对比 。
大东:作为老网购人了 , 你竟然不知道有种东西叫做“比价网站” 。
小白:还有这东西?
大东:在比价网站上 , 你搜索一样商品 , 这类聚合平台就会自动把各个电商的商品都放在你面前供你选择 , 基本各大购物网站都能囊括在内 。
小白:好东西呀 , 回头我试试!
大东:这就是“爬虫”的功劳 。 它们去各家电商软件上 , 把商品的图片和价格统统扒下来 , 然后在自己这里展示 。
小白:电商网站知道自己被“爬”了吗?
大东:当然知道 。 然而电商网站是拒绝的 , 但是很难阻止这类事情发生 。 由于“爬虫”是模拟普通用户的点击行为 , 电商网站通常难以辨别机器行为 , 甚至都不能使用复杂验证码 。
小白:是啊 , 如果每点开一个商品详情 , 就要做一次验证 , 还剁手呢 , 我都想剁了手机!不过为啥电商软件不喜欢被“爬”呢?
大东:对同一商品在单个电商软件内 , 它能决定哪个搜索结果排在前面 , 哪个在后面 。 但是如果用户一旦使用了比价平台 , 这个排名就失去了意义 , 电商软件就丧失了控制权 。
小白:也是 , 断人财路 , 难怪不受欢迎 。
三、“爬虫”合法吗?
小白:大东东你说了这么多 , 我有些疑惑了 , 难道爬虫一种违法行为么?
大东:这个问题还真的不简单 , 《网络安全法》里没有对“爬取网络公开信息被认定为违法”的条款 , 但是有条司法解释值得注意:“未经授权爬取用户手机通讯录超过50条记录;未经授权抓取用户淘宝交易记录超过500条;未经授权读取用户运营商网站通话记录超过500条;未经授权读取用户公积金社保记录的超过50000条的 。 ”以上这些情况可以入刑 。
小白:这个我可得注意注意 , 别一不小心违法乱纪啦 。
大东:与被“爬”企业势不两立的爬虫 , 说白了 , 就是阻挡了对方的财路 。 企业也不会善罢甘休 , 经典的对抗方式 , 除了刚才说的验证码外 , 还有滑块验证、封禁 IP、给访问者增加一些加解密运算 , 耗费“爬虫”的程序资源等等 。
小白:各显神通的对抗啊 。
专栏丨当代“爬虫”现状文章插图
滑块验证(图片来自网络)
大东:“爬虫”是一种在广阔万维网上收集信息的技术 , 本身并没有好坏之分 , 但写“爬虫”程序的人是趋利的 , 当他们想用“爬虫”来达到自己不可告人的秘密时 , 爬虫就有了好坏之分 。
小白:技术是把双刃剑啊!我们应该好好规范自己的使用 , 并且互相监督 , 让这个世界更加美好 。
参考链接:
1. 中国爬虫图鉴
2. 网络爬虫
3. Python爬虫原理 cnblogs.com/sss4/p/7809821.html
4. “来我公司写爬虫吗?会坐牢的那种!”
5. 陈根:从爬虫技术到爬虫行为 , 网络爬虫的罪与非罪
【专栏丨当代“爬虫”现状】来源:中国科学院计算技术研究所