专栏丨当代“爬虫”现状

一、“爬虫”是什么
大东:小白 , 身为计算机学科的学生 , “网络爬虫”你应该不陌生吧?
小白:那当然了 , 写的最多的就是“爬虫”程序了 。
大东:既然你这么熟悉 , 能给我讲讲什么是“爬虫”么?
小白:当然能 , 终于有一天能给大东动反向传播知识啦 , 哈哈哈!“网络爬虫”就是一种按照一定的规则 , 自动地抓取万维网信息的程序或者脚本 , 能够把网站上的信息收集回来 , 并且能在网站之间游走 。
大东:没错 。 随着网络的迅速发展 , 万维网成为大量信息的载体 , 如何有效地提取并利用这些信息成为一个巨大挑战 , 搜素引擎就是一种典型的“爬虫”应用 , 它每隔几天对全网的网页扫一遍 , 以便大家查阅 , 被扫网站也乐意被收集 。 但是 , 小白你知道吗?“爬虫”也分善恶!
小白:我可没有写过恶意的“爬虫” , 大东东你别看我 。
大东:像抢票软件这样的“爬虫” , 对着 12306 每秒扫几万次 , 被扫网站对它十分厌恶 。
小白;哦 , 作为12306用户的我 , 也挺讨厌抢票软件的 。
大东:那你知道网络世界这么多“爬虫” , 都爱爬哪些网站?
小白:我猜...我猜不出来...求大东东指教!
专栏丨当代“爬虫”现状文章插图
网络爬虫(图片来自网络)
二、爬虫分布图
大东:根据“python技术客栈”公开的世界“网络爬虫”分析结果 , 爬虫最多的就是出行软件 , 比如前面所说的12306就是他们的目标之一;紧随其后的是社交软件、电商软件 。
专栏丨当代“爬虫”现状文章插图
“爬虫”流量目标行业分布(图片来自网络)
小白:没想到“爬虫”种类还不少呢!
1、“爬虫”最大聚集地——出行软件
大东:出行行业中“爬虫”的占比最高 , 在出行的“爬虫”中 , 有89.02%的流量都是冲着 12306 去的 。
小白:哇哦 , 全中国卖火车票的独此一家别无分号 , 也难怪呢 。
大东:小白你有没有发现 , 12306的验证码比其他网站的更为复杂呢?
小白:没错 , 有时候我甚至觉得自己智商不够用了 。
大东:这些东西不是为了故意难为卖票的普通用户 , 而恰恰是为了阻止抢票软件这种“爬虫”的点击 。 简单的“爬虫”无法正确识别复杂二维码 , 因此就能够被挡在门外 。
小白:不对啊 , 可现在还是可以用抢票软件抢到票啊 。
大东:没错 。 抢票软件也不是吃素的 , 它们在和12306搞“对抗” 。 “打码平台” , 你听说过吗?
小白:那是啥?
大东:打码平台雇佣了很多叔叔阿姨 , 他们的工作就是帮人识别验证码 。 当抢票软件遇到了验证码 , 系统就会自动把这些验证码传到他们面前 , 以人工的方式完成识别 , 然后再把结果传回去 。 这期间总共只需要几秒时间 。
小白:厉害了啊!
大东:这样的打码平台还有记忆功能 , 当遇到已经标记过的图 , 系统能直接判断它是验证答案 。 时间一长 , 12306 系统里的图片就被标记完了 , 机器自己都能认识 , 人工环节就可以省略了 。
小白:人工击败数据库啊这是!
大东:每当过年前 , 就是12306最繁忙的时候 。 据公开数据表示:“最高峰时1天内页面浏览量达813.4亿次 , 1小时最高点击量59.3亿次 , 平均每秒164.8万次 。 ”这还是加上验证码防护之后的数据 , 可想而知被拦截在外面的爬虫还有多少 。
小白:天呐 , 我回家的票就是被他们抢走的 。
大东:被抢票软件把票抢走 , 对我们父母那样的不会抢票的人来说 , 是不是公平呢?
小白:太过分了!
专栏丨当代“爬虫”现状文章插图
12306验证码(图片来自网络)
2、水军势力——社交软件“爬虫”
小白:社交软件也有什么可“爬”的么?
大东:你想 , 如果我能随心所欲地指挥一帮机器人 , 打开某人的微博 , 然后刷到某一条 , 然后疯狂关注、点赞或者留言……
小白:噢!僵尸粉!
大东:你想这个场景:一个路人甲的微博没人关注 , 于是用大量的“爬虫”给自己做了十万人的僵尸粉 , 一群僵尸在我的微博下面点赞评论 , 不亦乐乎 。
小白:这有啥好乐的?
大东:接着 , 路人甲找到一个游戏厂商 , 跟他说:你看我有这么多粉丝 , 你在我这投广告吧 。 我帮你发一条游戏的注册链接 , 每有一个人通过我的链接注册了游戏 , 你就给我一毛钱 。 广告主说 , 不错 , 就这么办 。